• 제목/요약/키워드: 데이터 모델 평가

검색결과 2,530건 처리시간 0.032초

기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가 (Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment)

  • 임준호;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF

연구데이터 관점에서 본 거대언어모델 품질 평가 기준 제언 (A Proposal of Evaluation of Large Language Models Built Based on Research Data)

  • 한나은;서수정;엄정호
    • 정보관리학회지
    • /
    • 제40권3호
    • /
    • pp.77-98
    • /
    • 2023
  • 본 연구는 지금까지 제안된 거대언어모델 가운데 LLaMA 및 LLaMA 기반 모델과 같이 연구데이터를 주요 사전학습데이터로 활용한 모델의 데이터 품질에 중점을 두어 현재의 평가 기준을 분석하고 연구데이터의 관점에서 품질 평가 기준을 제안하였다. 이를 위해 데이터 품질 평가 요인 중 유효성, 기능성, 신뢰성을 중심으로 품질 평가를 논의하였으며, 거대언어모델의 특성 및 한계점을 이해하기 위해 LLaMA, Alpaca, Vicuna, ChatGPT 모델을 비교하였다. 현재 광범위하게 활용되는 거대언어모델의 평가 기준을 분석하기 위해 Holistic Evaluation for Language Models를 중심으로 평가 기준을 살펴본 후 한계점을 논의하였다. 이를 바탕으로 본 연구는 연구데이터를 주요 사전학습데이터로 활용한 거대언어모델을 대상으로 한 품질 평가 기준을 제시하고 추후 개발 방향을 논의하였으며, 이는 거대언어모델의 발전 방향을 위한 지식 기반을 제공하는데 의의를 갖는다.

데이터 품질평가를 위한 수학적 모델 및 개선을 위한 분석 모형 개발 (The Development of a Mathematical model to evaluate Data Quality and an Analysis model to improve the Quality)

  • 김용원;김종기
    • 인터넷정보학회논문지
    • /
    • 제9권5호
    • /
    • pp.109-116
    • /
    • 2008
  • 컴퓨터와 인터넷 환경의 급속한 변화는 방대한 데이터와 다양한 품질의 데이터를 생산해내고 있다. 이러한 환경의 변화는 데이터의 품질에 따른 수준 평가를 요구한다. 이는 데이터 품질이 기업과 조직에 미치는 영향이 크기 때문이다. 따라서 본 연구는 데이터 품질 기준에 따른 품질 평가 모델을 수학적 모델로 제시하고, 이를 기반으로 데이터의 품질을 분석하고 데이터의 품질을 유지 보완하기 위한 분석 모형을 제안하고자한다.

  • PDF

에세이 자동 평가 모델 성능 향상을 위한 데이터 증강과 전처리 (Data Augmentation and Preprocessing to Improve Automated Essay Scoring Model)

  • 고강희;김도국
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.327-332
    • /
    • 2023
  • 데이터의 품질과 다양성은 모델 성능에 지대한 영향을 끼친다. 본 연구에서는 Topic을 활용한 데이터 전처리와 BERT 기반 MLM, T5, Random Masking을 이용한 증강으로 데이터의 품질과 다양성을 높이고자 했으며, 이를 KoBERT 기반 에세이 자동 평가 모델에 적용했다. 데이터 전처리만 진행했을 때, Quadratic Weighted Kappa Score(QWK)를 기준으로 모델이 에세이의 모든 평가 항목에 대해 베이스라인보다 더욱 높은 일치도를 보였으며 평가항목별 일치도의 평균을 기준으로 0.5368029에서 0.5483064(+0.0115035)로 상승했다. 여기에 제안하는 증강 방식을 추가 할 경우 MLM, T5, Random Masking 모두 성능 향상 효과를 보였다. 특히, MLM 데이터 증강 방식을 추가로 적용하였을 때 최종적으로 0.5483064에서 0.55151645(+0.00321005)으로 상승해 가장 높은 일치도를 보였으며, 에세이 총점으로 QWK를 기준으로 성능을 평가하면 베이스라인 대비 0.4110809에서 0.4380132(+0.0269323)로의 성능 개선이 있었다.

  • PDF

KorBERT와 Popularity 정보에 기반한 한국어 개체연결 (Korean Entity Linking based on KorBERT and Popularity )

  • 허정;배경만;임수종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.502-506
    • /
    • 2022
  • 본 논문에서는 KorBERT와 개체 인기정보(popularity)를 이용한 개체연결 기술을 소개한다. 멘션인식(mention detection)은 KorBERT를 이용한 토큰분류 문제로 학습하여 모델을 구성하였고, 개체 모호성해소(entity disambiguation)는 멘션 컨텍스트와 개체후보 컨텍스트 간의 의미적 연관성에 대한 KorBERT기반 이진분류 문제로 학습하여 모델을 구성하였다. 개체 인기정보는 위키피디아의 hyperlink, inlink, length 정보를 활용하였다. 멘션인식은 ETRI 개체명 인식기를 이용한 모델과 비교하였을 경우, ETRI 평가데이터에서는 F1 0.0312, 국립국어원 평가데이터에서는 F1 0.1106의 성능 개선이 있었다. 개체 모호성해소는 KorBERT 모델과 Popularity 모델을 혼용한 모델(hybrid)에서 가장 우수한 성능을 보였다. ETRI 평가데이터에서는 Hybrid 모델에서의 개체 모호성 해소의 성능이 Acc. 0.8911 이고, 국립국어원 평가데이터에서는 Acc. 0.793 이였다. 최종적으로 멘션인식 모델과 개체 모호성해소 모델을 통합한 개체연결 성능은 ETRI 평가데이터에서는 F1 0.7617 이고, 국립국어원 평가데이터에서는 F1 0.6784 였다.

  • PDF

데이터 자산 가치 평가 모델 리뷰 (Data Asset Valuation Model Review)

  • 김옥기;박정;박천웅;조완섭
    • 한국빅데이터학회지
    • /
    • 제6권1호
    • /
    • pp.153-160
    • /
    • 2021
  • 본 연구는 기업이나 기관에서 보유한 데이터의 가치 평가에 가장 많이 활용되는 소득(이익) 접근 모델의 선행 연구를 조사하고 모델의 핵심요인과 데이터 자산 가치 평가 과정의 고려사항에 대해 논의하였다. 이를 통해 데이터 자산의 공유가능성, 활용기간이 다른 기업의 자산들과 다른 특성이 있음을 규명하였다. 또한 데이터의 가치는 품질의 영향을 크게 받기에 데이터의 적시성, 정확성과 같은 다양한 관점을 검토해야하며, 사용자의 용도와 사용능력 및 가치 사슬을 총체적으로 검토하여 데이터 자산의 가치를 평가해야 함을 도출하였다. 향후 연구방향으로는 실제 현업에 적용되어야 할 모델에 대한 지속적인 연구개발 및 회계법 개정을 제언하였다.

FAIR 원칙 기반 메타데이터 평가 프레임워크 (FAIR Principle-Based Metadata Assessment Framework)

  • 박진효;김성희;윤주상
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권12호
    • /
    • pp.461-468
    • /
    • 2022
  • 최근 빅데이터 산업의 발전으로 디지털 플랫폼에서 데이터 활용 서비스를 제공하는 사례가 증가하고 있다. 이와 관련해 데이터 관련 분야에서 (메타)데이터 품질, 서비스, 기능 등의 평가에 적용할 수 있는 FAIR 원칙을 데이터 품질 평가에 적용하여 활용하는 연구가 진행되고 있다. 특히, 유럽 오픈 데이터 포털에서는 FAIR 원칙 기반의 평가 모델을 적용하여 이를 기준으로 데이터 성숙도 평가를 시행하고 그 결과를 매년 보고서로 공개하고 있다. 이에 반해 공공데이터 포털에서는 메타데이터를 기반으로 한 데이터 성숙도 평가를 시행하고 있지 않다. 따라서 본 논문에서는 유럽 오픈 데이터 포털에서 데이터 성숙도 평가를 위해 사용되고 있는 FAIR 원칙을 국내 여러 공공데이터 포털 및 데이터 거래를 위해 구축된 빅데이터 플랫폼에 데이터 성숙도 평가를 위한 새로운 모델 제안하고 평가를 시행한다. 제안한 성숙도 평가 모델은 공공데이터 포털 데이터셋 품질을 평가하는 모델이다.

데이터 품질관리 프로세스 평가를 위한 프로세스 참조모델 (The Process Reference Model for the Data Quality Management Process Assessment)

  • 김선호;이창수
    • 한국전자거래학회지
    • /
    • 제18권4호
    • /
    • pp.83-105
    • /
    • 2013
  • 데이터의 품질을 평가하기 위해서 데이터 자체의 품질을 측정하는 방법과 데이터 품질을 관리하는 프로세스를 측정하는 방법이 활용되고 있다. 최근에는 조직의 데이터 품질을 보장 및 인증하기 위해 데이터 품질관리 프로세스의 성숙도를 측정하는 방법을 활용하고 있다. 이러한 추세에 따라 본 논문에서는 데이터 품질관리의 프로세스 성숙도를 평가하는데 필요한 프로세스 참조모델을 제시한다. 우선 데이터 품질관리 프로세스 성숙도 평가 모델의 개요를 제시한다. 그리고, 프로세스 성숙도 평가에 기본이 되는 프로세스 참조모델을 제시한다. 여기서는 프로세스 도출 방안, 데이터 품질관리의 기본 원칙, SPICE 프로세스 참조 모델의 기본 개념을 기초로 하여 프로세스 참조모델의 구성과 세부 프로세스를 개발하였다. 그리고 본 모델의 특징 및 개선점을 ISO 8000-150의 프로세스와 비교하여 설명하였다.

영화 메타데이터의 증가에 따른 콘텐츠 기반 추천 시스템 성능 향상 (Performance Improvement of a Contents-based Recommendation System by Increasing Movie Metadata)

  • 서진경;최다정;백주련
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.23-26
    • /
    • 2022
  • OTT 서비스의 이용자가 폭발적으로 증가하고 있는 지금, 사용자에게 맞춤형 상품을 추천하는 것은 해당 서비스에서 중요한 사안이다. 본 논문에서는 콘텐츠 기반 추천 시스템의 모델을 제안하고, 영화 데이터를 추가 해가며 예측력을 높일 최종적인 모델을 채택하고자 한다. 이를 위해 GroupLens와 Kaggle에서 영화 데이터를 수집하고 총 1111개의 영화, 943명의 사용자에게서 나온 71026개의 영화 평가 데이터를 이용하였다. 모델 평가 결과, 장르와 키워드만을 이용한 추천 시스템 모델의 RMSE는 1.3076, 단계적으로 데이터를 추가해 최종적으로 장르, 키워드, 배우, 감독, 나라, 제작사를 이용한 추천 시스템 모델의 RMSE는 1.1870으로 모든 데이터를 추가한 모델의 예측력이 더 높았다. 이에 따라 장르, 키워드, 배우, 감독, 나라, 제작사를 이용해 구현한 모델을 최종적인 모델로 채택, 무작위로 추출한 한 명의 사용자에 대한 영화 추천 리스트를 뽑아낸다.

  • PDF

학습 데이터 용량 및 반복 학습 횟수에 따른 이미지 기반 GPT 문장생성 및 성능 분석 (Analyze GPT sentence generation performance based on Image by training data capacity and number of iterations)

  • 이동희;최봉준
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.363-364
    • /
    • 2023
  • 현재 많은 사람이 GPT를 통해 다양한 활동 및 연구를 진행하고 있다. 사람들은 GPT를 통해 문장생성 시 문장에 대한 정확도를 중요하게 생각한다. 하지만 용도에 따라 GPT를 통해 생성하는 문장의 문체와 같은 표현방식이 다르다. 그래서 생성된 문장이 유의미한 문장이라는 것에 판단이 매우 주관적이기 때문에 수치적 평가가 어렵다. 본 논문에서는 자연어처리 모델이 생성한 문장의 유의미함을 판단하기 위해 각 모델을 학습하는 데이터 용량과 반복 학습의 횟수에 따른 결과물을 비교하였다. 본 연구에서는 Fine-Tuning을 통해 총 4개의 GPT 모델을 구축하였다. 각 모델로 생성 문장을 BLEU 평가지표를 통해 평가한 결과 본 연구에 BLEU 모델은 부적합하다는 결과를 도출하였다. 이를 해결하기 위해 본 연구에서는 생성된 모델을 평가하고자 설문지를 만들어 평가를 진행하였다. 그 결과 사람에게 긍정적인 평가를 받는 결과를 얻을 수 있었다.

  • PDF