• Title/Summary/Keyword: Chat GPT

Search Result 200, Processing Time 0.022 seconds

A Self-Guided Approach to Enhance Korean Text Generation in Writing Assistants (A Self-Guided Approach을 활용한 한국어 텍스트 생성 쓰기 보조 기법의 향상 방법)

  • Donghyeon Jang;Jinsu Kim;Minho Lee
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.541-544
    • /
    • 2023
  • LLM(Largescale Language Model)의 성능 향상을 위한 비용 효율적인 방법으로 ChatGPT, GPT-4와 같은 초거대 모델의 output에 대해 SLM(Small Language Model)을 finetune하는 방법이 주목받고 있다. 그러나, 이러한 접근법은 주로 범용적인 지시사항 모델을 위한 학습 방법으로 사용되며, 제한된 특정 도메인에서는 추가적인 성능 개선의 여지가 있다. 본 연구는 특정 도메인(Writing Assistant)에서의 성능 향상을 위한 새로운 방법인 Self-Guided Approach를 제안한다. Self-Guided Approach는 (1) LLM을 활용해 시드 데이터에 대해 도메인 특화된 metric(유용성, 관련성, 정확성, 세부사항의 수준별) 점수를 매기고, (2) 점수가 매겨진 데이터와 점수가 매겨지지 않은 데이터를 모두 활용하여 supervised 방식으로 SLM을 미세 조정한다. Vicuna에서 제안된 평가 방법인, GPT-4를 활용한 자동평가 프레임워크를 사용하여 Self-Guided Approach로 학습된 SLM의 성능을 평가하였다. 평가 결과 Self-Guided Approach가 Self-instruct, alpaca와 같이, 생성된 instruction 데이터에 튜닝하는 기존의 훈련 방법에 비해 성능이 향상됨을 확인했다. 다양한 스케일의 한국어 오픈 소스 LLM(Polyglot1.3B, PolyGlot3.8B, PolyGlot5.8B)에 대해서 Self-Guided Approach를 활용한 성능 개선을 확인했다. 평가는 GPT-4를 활용한 자동 평가를 진행했으며, Korean Novel Generation 도메인의 경우, 테스트 셋에서 4.547점에서 6.286점의 성능 향상이 발생했으며, Korean scenario Genration 도메인의 경우, 테스트 셋에서 4.038점에서 5.795 점의 성능 향상이 발생했으며, 다른 유사 도메인들에서도 비슷한 점수 향상을 확인했다. Self-Guided Approach의 활용을 통해 특정 도메인(Writing Assistant)에서의 SLM의 성능 개선 가능성을 확인했으며 이는 LLM에 비용부담을 크게 줄이면서도 제한된 도메인에서 성능을 유지하며, LLM을 활용한 응용 서비스에 있어 실질적인 도움을 제공할 수 있을 것으로 기대된다.

  • PDF

Keyword Extraction and Visualization of Movie Reviews through Sentiment Analysis (영화 리뷰 감성 분석을 통한 키워드 추출 및 시각화)

  • Jong-Chan Park;Sung Jin Kim;Young Hyun Yoon;Jai Soon Baek
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.261-262
    • /
    • 2023
  • 본 연구에서는 감성 분석 기반의 키워드 도출형 영화 리뷰 웹사이트를 개발하였다. 사용자들은 영화에 대한 리뷰를 작성할 때, 자동으로 키워드를 추출하는 기능을 활용하여 다양하면서도 빠르게 정보를 얻을 수 있다. 사용자가 작성한 리뷰를 시스템에 입력하면, 내부적으로 ChatGPT를 활용하여 텍스트를 분석하고 키워드를 추출한다. 이를 통해 사용자는 별다른 노력 없이도 키워드를 통해 영화의 장르, 감독, 배우, 플롯 요소 등 다양한 정보를 빠르게 확인할 수 있다. 추출된 키워드는 저장되어 시각화에 활용되며, 사용자들은 리뷰에 대한 원하는 정보를 쉽게 얻을 수 있다. 개발된 키워드 도출형 영화 리뷰 웹사이트는 사용자들에게 빠르고 다양한 정보를 제공하며, 영화 관련 결정을 내리는 데에 도움을 줄 것으로 기대된다.

  • PDF

Evaluate and Use of humor data for humor processed automating (유머 자동 처리를 위한 유머 데이터 평가 및 활용)

  • Kang Joeun;Lee Jaewon;Oh Chaeeun;Kim Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.190-195
    • /
    • 2023
  • 의사소통 기술에서 유머는 사람을 웃게 만들며 분위기를 환기시키고, 관계를 돈독하게 만드는 효과를 지닌다. 이를 자연어처리에서 유머 분류, 인식, 탐지로 적용하여 유머를 기계에 학습시키려 하는 다양한 시도가 진행되고 있지만 유머의 주관성과 윤리적 문제로 탁월한 성능을 기록하기 어렵고, 특히 한국어 유머에 대한 자연어처리 분야의 논의는 미비한 상태이다. 이에 본 연구는 유머 평가 체계를 만들어 ChatGPT에 적용하여 유머 인식의 주관성을 극복할 수 있는 자동화 실험을 진행한다. 이때, 유머의 윤리적 문제를 보완하기 위해 한국 법률을 적용한 윤리 기준을 도입하여 유머 데이터셋을 마련하였으며, 데이터셋을 ChatGPT에 fine-tuning 하여 재미있는 생성 모델의 개발 가능성을 실험하였다.

  • PDF

Data Augmentation using Large Language Model for English Education (영어 교육을 위한 거대 언어 모델 활용 말뭉치 확장 프레임워크)

  • Jinwoo Jung;Sangkeun Jung
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.698-703
    • /
    • 2023
  • 최근 ChatGPT와 같은 사전학습 생성모델은 자연어 이해 (natural language understanding)에서 좋은 성능을 보이고 있다. 또한 코드 작업을 도와주고 대학수학능력시험, 중고등학교 수준의 문제를 풀거나 도와주는 다양한 분야에서 활용되고 있다. 본 논문은 사전학습 생성모델을 이용하여 영어 교육을 위해 말뭉치를 확장하는 프레임 워크를 제시한다. 이를 위해 ChatGPT를 사용해 말뭉치를 확장 한 후 의미 유사도, 상황 유사도, 문장 교육 난이도를 사용해 생성된 문장의 교육적 효과를 검증한다.

  • PDF