띄어쓰기 및 철자 오류 동시교정을 위한 통계적 모델

A joint statistical model for word spacing and spelling error correction

  • 노형종 (포항공과대학교 컴퓨터공학과 지능소프트웨어연구실) ;
  • 차정원 ;
  • 이근배 (포항공과대학교 컴퓨터공학과 지능소프트웨어연구실)
  • Noh, Hyung-Jong (iSoft Lab., Dept. of Computer Science and Engineering, Pohang University of Science and Technology) ;
  • Cha, Jeong-Won (Dept. of Computer Science, Changwon National University) ;
  • Lee, Gary Geun-Bae (iSoft Lab., Dept. of Computer Science and Engineering, Pohang University of Science and Technology)
  • 발행 : 2006.10.13

초록

본 논문에서는 띄어쓰기 오류와 철자 오류를 동시에 교정 가능한 전처리기를 제안한다. 제시된 알고리즘은 기존의 전처리기 알고리즘이 각 오류를 따로 해결하는 데에서 오는 한계를 극복하고, 기존의 noisy-channel model을 확장하여 대화체의 띄어쓰기 오류와 철자오류를 동시에 효과적으로 교정할 수 있다. N-gram과 자소변환확률 등의 통계적 방법과 어절변환패턴 사전을 이용하여 최대한 사전을 적게 이용하면서도 효과적으로 교정 후보들을 생성할 수 있다. 실험을 통해 현재 단계에서는 만족할 만한 성능을 얻지는 못하였지만 오류 분석을 통하여 이와 같은 방법론이 실제로 효용성이 있음을 알 수 있었고 앞으로 더 많은 개선을 통해 일상적인 대화체 문장에 대해서 효과적인 전처리기로서 기능할 수 있을 것으로 기대 된다.

키워드