입력 문장의 띄어쓰기를 고려한 음절 바이그램 띄어쓰기 모델

Automatic Word Spacer based on Syllable Bi-gram Model using Word Spacing Information of an Input Sentence

  • 조한철 (고려대학교 자연어처리 연구실) ;
  • 이도길 (고려대학교 자연어처리 연구실) ;
  • 임해창 (고려대학교 자연어처리 연구실)
  • 발행 : 2006.06.02

초록

현재까지 제안된 자동 띄어쓰기 교정 모델들은 그 중의 대다수가 입력 문장에서 공백을 제거한 후에 교정 작업을 수행한다. 이러한 교정 방식은 입력 문장의 띄어쓰기가 잘 되어 있는 경우에 입력 문장보다 좋지 못한 교정 문장을 생성하는 경우가 있다. 본 논문에서는 이러한 문제점을 해결하기 위하여 입력 문장의 띄어쓰기를 고려한 자동 띄어쓰기 교정모델을 제안한다. 이 모델은 입력 문장의 음절단위 띄어쓰기 오류가 5%일 때 약 8%의 성능 향상을 보였으며, 10%의 오류가 존재할 때 약 5%의 성능 향상을 보였다.

키워드