도메인 적응 사전 훈련 (Domain-Adaptive Pre-training, DAPT) 한국어 문서 요약

Domain-Adaptive Pre-training for Korean Document Summarization

  • 장형국 (고려대학교 컴퓨터정보통신대학원 빅데이터융합학과) ;
  • 장현철 (고려대학교 컴퓨터정보통신대학원 빅데이터융합학과)
  • Hyungkuk Jang (Dept. of Big Data Convergence, Korea University) ;
  • Hyuncheol, Jang (Dept. of Big Data Convergence, Korea University)
  • 발행 : 2024.05.23

초록

도메인 적응 사전 훈련(Domain-Adaptive Pre-training, DAPT)을 활용한 한국어 문서 요약 연구에서는 특정 도메인의 문서에 대한 이해도와 요약 성능을 향상시키기 위해 DAPT 기법을 적용했다. 이 연구는 사전 훈련된 언어 모델이 일반적인 언어 이해 능력을 넘어 특정 도메인에 최적화된 성능을 발휘할 수 있도록 도메인 특화 데이터셋을 사용하여 추가적인 사전 훈련을 진행한다. 구체적으로, 의료, 법률, 기술 등 다양한 도메인에서 수집한 한국어 텍스트 데이터를 이용하여 모델을 미세 조정하며, 이를 통해 얻은 모델은 도메인에 특화된 용어와 문맥을 효과적으로 처리할 수 있음을 보여준다. 성능 평가에서는 기존 사전 훈련 모델과 DAPT를 적용한 모델을 비교하여 DAPT의 효과를 검증했다. 연구 결과, DAPT를 적용한 모델은 도메인 특화 문서 요약 작업에서 성능 향상을 보였으며, 이는 실제 도메인별 활용에서도 유용할 것으로 기대된다.

키워드

참고문헌

  1. Xu et al., "Domain-Adaptive Pretraining Methods for Dialogue Understanding," arXiv, 2021.
  2. Qiu et al., "Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey," arXiv, 2021.
  3. 구름(KULLM): 한국어 지시어에 특화된 거대 언어 모델, 제35회 한글 및 한국어 정보처리 학술대회 논문집 2023.
  4. Gururangan et al., "Don't Stop Pretraining: Adapt Language Models to Domains and Tasks," arXiv, 2020.
  5. KF-DeBERTa: 금융 도메인 특화 사전학습 언어모델, 제35회 한글 및 한국어 정보처리 학술대회 논문집, 2023
  6. Encoder-Decoder 및 LLM을 활용한 2단계 한국어 문서 요약, 한국정보학회 인공지능 학술대회 논문집, 2023