한국어 대용량 코퍼스의 오류 어휘 탐지 방안

Error Word Detection in Korean Corpus

  • 최민주 (국민대학교, 컴퓨터공학과) ;
  • 박지훈 (국민대학교, 컴퓨터공학과) ;
  • 손성환 (국민대학교, 컴퓨터공학과) ;
  • 강승식 (국민대학교, 컴퓨터공학과)
  • 발행 : 2019.10.10

초록

대용량의 언어 코퍼스를 이용할 때, 오류 어휘가 코퍼스에 포함되어 있는 경우 해당 코퍼스를 이용한 실험의 성능이 저하될 수 있다. 이 때문에 정확한 문장들로 이루어진 코퍼스를 구축하기 위해 다량의 문장 중에서 정확하게 오류 어휘를 탐지할 필요가 있다. 본 논문에서는 대용량 데이터에서 빈도수가 낮은 음절을 이용해 오류 어휘를 탐지하는 방법을 제안하고, 제안 방법을 이용하여 오류 어휘 탐지 시 고려하여야 할 점에 대해 서술한다.

키워드

과제정보

이 논문은 2017 년 정부 ( 과학기술정보통신부 ) 의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(NRF-2017M3C4A7068186)