• 제목/요약/키워드: 데이터 모델 평가

검색결과 2,530건 처리시간 0.035초

한국어 대화 모델 학습을 위한 디노이징 응답 생성 (Denoising Response Generation for Learning Korean Conversational Model)

  • 김태형;노윤석;박성배;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.29-34
    • /
    • 2017
  • 챗봇 혹은 대화 시스템은 특정 질문이나 발화에 대해 적절한 응답을 해주는 시스템으로 자연어처리 분야에서 활발히 연구되고 있는 주제 중 하나이다. 최근에는 대화 모델 학습에 딥러닝 방식의 시퀀스-투-시퀀스 프레임워크가 많이 이용되고 있다. 하지만 해당 방식을 적용한 모델의 경우 학습 데이터에 나타나지 않은 다양한 형태의 질의문에 대해 응답을 잘 못해주는 문제가 있다. 이 논문에서는 이러한 문제점을 해결하기 위하여 디노이징 응답 생성 모델을 제안한다. 제안하는 방법은 다양한 형태의 노이즈가 임의로 가미된 질의문을 모델 학습 시에 경험시킴으로써 강건한 응답 생성이 가능한 모델을 얻을 수 있게 한다. 제안하는 방법의 우수성을 보이기 위해 9만 건의 질의-응답 쌍으로 구성된 한국어 대화 데이터에 대해 실험을 수행하였다. 실험 결과 제안하는 방법이 비교 모델에 비해 정량 평가인 ROUGE 점수와 사람이 직접 평가한 정성 평가 모두에서 더 우수한 결과를 보이는 것을 확인할 수 있었다.

  • PDF

한국어 대화 모델 학습을 위한 디노이징 응답 생성 (Denoising Response Generation for Learning Korean Conversational Model)

  • 김태형;노윤석;박성배;박세영
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.29-34
    • /
    • 2017
  • 챗봇 혹은 대화 시스템은 특정 질문이나 발화에 대해 적절한 응답을 해주는 시스템으로 자연어처리 분야에서 활발히 연구되고 있는 주제 중 하나이다. 최근에는 대화 모델 학습에 딥러닝 방식의 시퀀스-투-시퀀스 프레임워크가 많이 이용되고 있다. 하지만 해당 방식을 적용한 모델의 경우 학습 데이터에 나타나지 않은 다양한 형태의 질의문에 대해 응답을 잘 못해주는 문제가 있다. 이 논문에서는 이러한 문제점을 해결하기 위하여 디노이징 응답 생성 모델을 제안한다. 제안하는 방법은 다양한 형태의 노이즈가 임의로 가미된 질의문을 모델 학습 시에 경험시킴으로써 강건한 응답 생성이 가능한 모델을 얻을 수 있게 한다. 제안하는 방법의 우수성을 보이기 위해 9만 건의 질의-응답 쌍으로 구성된 한국어 대화 데이터에 대해 실험을 수행하였다. 실험 결과 제안하는 방법이 비교 모델에 비해 정량 평가인 ROUGE 점수와 사람이 직접 평가한 정성 평가 모두에서 더 우수한 결과를 보이는 것을 확인할 수 있었다.

  • PDF

대학교 교내식당을 위한 식사 인원 예측 모델 개발 (The Development of Prediction Models for the Number of People for Meal at University Cafeteria)

  • 정광원;조태근;김기원
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.535-536
    • /
    • 2023
  • 본 논문에서는 대학교 교내 식당의 실제 데이터를 사용해 식사 인원 예측 모델을 개발하여 교내식당에서 발생하는 적자, 음식 품절, 대량 잔반 발생을 경감 시키고자 한다. 모델 개발에 사용되는 데이터는 2018년도, 2019년도 학기 중 식당 데이터와 기상청 날씨 데이터를 사용하였다. 2018년도, 2019년도 데이터를 이용해 EDA 분석 및 전처리를 통해 필요한 변수를 추출하였다. 전체 데이터의 70%를 기반으로 GridSearch와 XGBoostRegressor를 사용해 평일과 주말에 대한 식사 인원 예측 모델을 생성하였다. 그리고 나머지 데이터의 30%를 사용해 생성한 두 모델의 성능을 평가한다. 평일 식사 인원 예측 모델에 대한 MAE값이 조식 16명, 중식 23명, 석식 25명으로 준수한 결과를 보였고 주말 식사 인원 예측 모델에 대한 MAE값은 조식 16명, 중식 23명, 석식 25명으로 좋은 성능을 보였다.

  • PDF

학생 중도탈락 예측 모델에 관한 연구 (A Study on the Prediction Model for Student Dropout)

  • 이종혁;김대학;길준민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.37-40
    • /
    • 2018
  • 빅데이터 산업 부상과 함께 교육 데이터 분석 분야가 새롭게 주목받고 있다. 교육 현장에서 학습 데이터의 양과 종류는 꾸준히 증가하고 있고 이를 분석하기 위한 정보기술도 계속 발전하고 있다. 한편, 학교 교육은 사회적 성취와 밀접한 관련이 있어 사회이동의 중요한 수단이 되는 만큼 학교 교육으로부터 이탈할 위험이 있는 학생들을 조기에 발견하여 이탈을 방지하는 것은 매우 중요하다. 본 논문은 대학생의 중도탈락을 예방하기 위해 로지스틱 회귀분석과 다층 퍼셉트론 기법을 이용해 학습 데이터를 분석하여 예측 모델을 생성하고 해당 모델을 평가한다. 평가 결과, 다층 퍼셉트론 모델이 로지스틱 회귀분석 모델에 비해 정확도와 재현율은 우수하였지만 정밀도는 약간 저조하였다.

낙동강 수질 예측을 위한 프로세스 모델링 자료를 이용한 메타모델 개발 (Development of Meta-Model Using Process Model Data for Predicting the Water Quality of Nakdong River)

  • 유명수;송영일;서동일
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.91-91
    • /
    • 2020
  • IPCC (Intergovernmental Panel on Climate Change) 5차 평가보고서에 의하면 최근 배출 온실가스의 양은 관측 이래 최고 수준이며 온실가스로 인한 기후변화는 인간계와 자연계에 광범위한 영향을 주고 있다고 보고하였다. 기후변화의 영향은 국제적으로 빙하 감소, 사막화, 해수면 상승 등 뚜렷하게 나타나고 있다. 이러한 기후변화에 대응하기 위해 온실가스 완화 정책과 동시에 새로운 기후변화 환경에 적응하는 것이 필요하다. 기후변화 적응이란 현재 나타나고 있거나 미래에 나타날 것으로 예상되는 기후변화의 파급효과와 영향에 대응할 수 있도록 하는 모든 행동이며 이를 위해서는 기후변화 영향분석이 수반되어야 한다. MOTIVE 연구단에서는 기후변화 적응대책 수립의 지원을 목표로 7개 부문(건강, 물관리, 농업, 산림, 생태, 해양, 수산)에서 "한국형 통합평가 모형"을 개발하고 있다. 각 부문에서 개발하는 프로세스 모델은 시스템에 대한 지식을 가진 상황에서 사용하면 신뢰할 수 있는 예측 결과를 얻을 수 있지만, 부문별 통합을 통한 영향 분석 시 타 분야에 대한 지식이 수반되어야 하는 어려움을 가진다. 이를 위해 본 연구에서는 시스템 내의 물리적 프로세스에 대한 요구 없이 입출력 데이터만을 이용하여 결과를 신속하게 추정하는 데이터 모델링(기계학습)을 이용하였다. 데이터 모델링을 위한 데이터는 다양한 자연 현상에 대한 BANPOL(수질 프로세스 모델) 분석을 통한 자료를 이용하여 학습 자료를 구축하였다. 즉, 데이터 모델링은 BANPOL 모델을 대리하는 메타모델이며, 낙동강 표준유역에 대한 유량 및 수질을 높은 상관성으로 추정하였다. 원 모델보다 정확도는 낮을 수 있으나 메타모델의 개발을 통한 웹 시스템을 개발하여 비전문가의 구동 및 신속한 기후 시나리오를 적용할 수 있는 환경을 개발하였다.

  • PDF

SNS 채팅 데이터에 적응적인 Self-Attention 기반 문맥의존 철자오류 교정 시스템 (Adaptive Context-Sensitive Spelling Error Correction System Based on Self-Attention for Social Network Service Chatting Data)

  • 최혜원;장대식;손동철;이승욱;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.362-367
    • /
    • 2019
  • 본 논문에서는 Self-Attention을 활용한 딥러닝 기반 문맥의존 철자오류 교정 모델을 제안한다. 문맥의존 철자오류 교정은 최근 철자오류 교정 분야에서 활발히 연구되고 있는 문제 중 하나이다. 기존에는 규칙 기반, 확률 기반, 임베딩을 활용한 철자오류 교정이 연구되었으나, 아직 양질의 교정을 수행해내기에는 많은 문제점이 있다. 따라서 본 논문에서는 기존 교정 모델들의 단점을 보완하기 위해 Self-Attention을 활용한 문맥의존 철자오류 교정 모델을 제안한다. 제안 모델은 Self-Attention을 활용하여 기존의 임베딩 정보에 문맥 의존적 정보가 반영된 더 나은 임베딩을 생성하는 역할을 한다. 전체 문장의 정보가 반영된 새로운 임베딩을 활용하여 동적으로 타겟 단어와의 관련 단어들을 찾아 문맥의존 철자 오류교정을 시행한다. 본 논문에서는 성능평가를 위해 세종 말뭉치를 평가 데이터로 이용하여 제안 모델을 실험하였고, 비정형화된 구어체(Kakao Talk) 말뭉치로도 평가 데이터를 구축해 실험한 결과 비교 모델보다 높은 정확율과 재현율의 성능향상을 보였다.

  • PDF

종합적 품질평가 기법을 이용한 국내 GPS 상시관측소의 데이터 품질 분석 (Data Quality Analysis of Korean GPS Reference Stations Using Comprehensive Quality Check Algorithm)

  • 김민찬;이지윤
    • 한국항공우주학회지
    • /
    • 제41권9호
    • /
    • pp.689-699
    • /
    • 2013
  • 전리층 폭풍 시 발생할 수 있는 극심한 전리층 이상현상은 GNSS 보강시스템 사용자의 안전을 위협하는 대표적인 요인이므로 전리층 위협모델을 기반으로 한 지상 모니터링을 통해 적시에 감지 및 경보가 이루어 져야한다. GNSS 관측 데이터를 기반으로 전리층 분석을 수행하고 그 결과로 위협모델을 개발하기 때문에 각 관측소의 데이터 품질은 시스템 성능에 큰 영향을 미칠 수 있다. 전 세계적으로 GNSS 상시관측소 수가 많이 증가함에 따라 품질이 떨어지는 데이터를 산출하는 관측소 또한 증가하였다. 본 연구에서는 GNSS 데이터 품질평가 기법 이용하여 국내 GPS 상시관측소 데이터의 품질을 비교하고 품질이 떨어지는 데이터가 전리층 지연오차 및 기울기 추정치에 미치는 영향을 분석하였다. 품질평가 결과 국내 상시관측소간 데이터 품질에 큰 차이를 보였고 이 품질은 일정기간 유지된다는 것을 확인하였다. 본 연구에서 분석한 결과를 바탕으로 전리층 위협모델 개발을 위한 GNSS 데이터 품질 기준을 제시할 수 있다.

ESPER 엔진 기반의 CEP 모델 설계 및 평가 (CEP Model Design and Revaluation Using ESPER Engine)

  • 김환;황부현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1113-1115
    • /
    • 2012
  • IT 기술이 성장함에 따라 발생되는 데이터의 양이 많아지고 기존의 방식으로 처리하기 힘든 빅 데이터가 이슈가 되고 있으며 이에 따른 대용량 데이터 처리기술 또한 발전하고 있다. 이 논문에서는 실시간 대용량 데이터 처리를 위한 Complex Event Processing을 소개하고 ESPER 엔진 기반의 Complex Event Processing 모델을 설계하고 이에 대한 성능을 평가했다.

멀티미디어 데이터 검색을 위한 스키마 설계 및 시스템 구현 (Schema Design and Implementation for Multimedia Data Retrieval)

  • 노승민;황인준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (3)
    • /
    • pp.490-492
    • /
    • 2002
  • 본 논문에서는 효과적인 멀티미디어 데이터 검색을 위하여 기존의 주석과 내용 기반 검색 기법을 보완한 새로운 멀티미디어 데이터 검색 기법과 멀티미디어 데이터 모델을 사용한 통합 멀티미디어 검색 및 주석 시스템을 제안한다. 데이터 모델로는 MPEG-7 표준에 정의 되어있는 멀티미디어 기술 구조(MDS)와 기술 정의 언어인 XML Schema를 사용하였다. 이러한 모델을 기반으로 멀티미디어 데이터를 XML의 계층구조를 이용하여 주석 처리하고 다양한 방법을 통하여 검색을 할 수 있는 멀티미디어 검색 시스템을 구현하여, 실제 실험을 통하여 성능을 평가하였다.

  • PDF

BEGAN을 통해 한국인 얼굴 데이터 생성을 하는데 최적의 HyperParameter (Optimal Hyper Parameter for Korean Face Data Generation with BEGAN)

  • 조규철;김산
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.459-460
    • /
    • 2021
  • 본 논문에서는 BEGAN을 활용한 한국인 얼굴 데이터 생성을 위한 최적의 Hyper Parameter를 제안한다. 연구에서는 GAN의 발전된 모델인 BEGAN을 이용한다. 위의 모델을 작성하기 위하여 본 논문에서는 Anaconda 기반의 Jupyter Notebook에서 Python Tensorflow 모델을 작성하여 테스트하고, 만들어진 모델을 FID를 통해 모델의 성능을 비교한다. 본 연구에서는 제안하는 방법들을 통해서 만들어진 모델을 이용해 한국인 얼굴 데이터를 구하고, 생성된 이미지에 대한 정량적인 평가를 진행한다.

  • PDF