• 제목/요약/키워드: evaluation criteria for LLM

검색결과 2건 처리시간 0.013초

연구데이터 관점에서 본 거대언어모델 품질 평가 기준 제언 (A Proposal of Evaluation of Large Language Models Built Based on Research Data)

  • 한나은;서수정;엄정호
    • 정보관리학회지
    • /
    • 제40권3호
    • /
    • pp.77-98
    • /
    • 2023
  • 본 연구는 지금까지 제안된 거대언어모델 가운데 LLaMA 및 LLaMA 기반 모델과 같이 연구데이터를 주요 사전학습데이터로 활용한 모델의 데이터 품질에 중점을 두어 현재의 평가 기준을 분석하고 연구데이터의 관점에서 품질 평가 기준을 제안하였다. 이를 위해 데이터 품질 평가 요인 중 유효성, 기능성, 신뢰성을 중심으로 품질 평가를 논의하였으며, 거대언어모델의 특성 및 한계점을 이해하기 위해 LLaMA, Alpaca, Vicuna, ChatGPT 모델을 비교하였다. 현재 광범위하게 활용되는 거대언어모델의 평가 기준을 분석하기 위해 Holistic Evaluation for Language Models를 중심으로 평가 기준을 살펴본 후 한계점을 논의하였다. 이를 바탕으로 본 연구는 연구데이터를 주요 사전학습데이터로 활용한 거대언어모델을 대상으로 한 품질 평가 기준을 제시하고 추후 개발 방향을 논의하였으며, 이는 거대언어모델의 발전 방향을 위한 지식 기반을 제공하는데 의의를 갖는다.

관련 연구 자동 생성을 위한 LLM의 활용 및 정제 기법 제안 (Proposal for the Utilization and Refinement Techniques of LLMs for Automated Research Generation)

  • 최승민;정유철
    • 한국정보전자통신기술학회논문지
    • /
    • 제17권4호
    • /
    • pp.275-287
    • /
    • 2024
  • 과거부터 꾸준히 지식 그래프(Knowledge Graph)와 언어 모델(LM, Language Model)의 통합에 대한 많은 연구가 다뤄지고 있다. 그 중, 지식 그래프의 구조화된 지식을 이용해 자동 텍스트 생성을 다루는 연구는 그리 활성화되지 않았다. 본 연구에서는 기존 논문들과 비슷한 수준의 특정 도메인 관련 연구 항목(Related Work)을 자동 생성하기 위한 방법론, 즉, '1) 최적의 Prompt 선정, 2) 4단계 정제기법을 통해 Triple 추출, 3) 지식 그래프 구축, 4) 관련 연구 자동 생성'을 제안한다. 제안된 방법론은 대규모 언어 모델(LLM) 중, GPT-4를 활용하고, 4단계 정제 기법을 적용하여 관련 연구를 자동으로 생성하도록 설계했다. 그렇게 설계된 모델은 Triple 추출에서 #Supp, #Cont, Fluency에서 17.3, 14.1, 4.2의 성능과 GPT-4 자동 평가 기준, 100점 기준 정제 전, 88.5점에서 정제 후, 96.5점으로 기존 논문과 비슷한 수준의 유의미한 관련 연구 자동 생성 능력을 보였다.