Comparing Byte Pair Encoding Methods for Korean

음절 단위 및 자모 단위의 Byte Pair Encoding 비교 연구

  • Lee, Chanhee (Department of Computer Science and Engineering, College of Informatics, Korea University) ;
  • Lee, Dongyub (Department of Computer Science and Engineering, College of Informatics, Korea University) ;
  • Hur, YunA (Department of Computer Science and Engineering, College of Informatics, Korea University) ;
  • Yang, Kisu (Department of Computer Science and Engineering, College of Informatics, Korea University) ;
  • Lim, Heuiseok (Department of Computer Science and Engineering, College of Informatics, Korea University)
  • 이찬희 (고려대학교 정보대학 컴퓨터학과) ;
  • 이동엽 (고려대학교 정보대학 컴퓨터학과) ;
  • 허윤아 (고려대학교 정보대학 컴퓨터학과) ;
  • 양기수 (고려대학교 정보대학 컴퓨터학과) ;
  • 임희석 (고려대학교 정보대학 컴퓨터학과)
  • Published : 2018.10.12

Abstract

한국어는 교착어적 특성이 강한 언어로, 교착어적 특성이 없는 영어 등의 언어와 달리 형태소의 수에 따라 조합 가능한 어절의 수가 매우 많으므로 어절 단위의 처리가 매우 어렵다. 따라서 어절을 더 작은 단위로 분해하는 전처리 단계가 요구되는데, 형태소 분석이 이를 위해 주로 사용되었다. 하지만 지도학습 방법을 이용한 형태소 분석 시스템은 다량의 학습 데이터가 요구되고, 비지도학습 방법을 이용한 형태소 분석은 성능에 큰 하락을 보인다. Byte Pair Encoding은 데이터를 압축하는 알고리즘으로, 이를 자연어처리 분야에 응용하면 비지도학습 방법으로 어절을 더 작은 단위로 분해할 수 있다. 본 연구에서는 한국어에 Byte Pair Encoding을 적용하는 두 가지 방법인 음절 단위 처리와 자모 단위 처리의 성능 및 특성을 정량적, 정성적으로 분석하는 방법을 제안하였다. 또한, 이 방법을 세종 말뭉치에 적용하여 각각의 알고리즘을 이용한 어절 분해를 실험하고, 그 결과를 어절 분해 정확도, 편향, 편차를 바탕으로 비교, 분석하였다.

Keywords