언어 사용환경에 적응적인 영어 문맥의존 철자오류 교정 기법

Adaptive English Context-Sensitive Spelling Error Correction Techniques for Language Environments

  • 김민호 (부산대학교, 전자전기컴퓨터공학과) ;
  • 김경식 (부산대학교, 전자전기컴퓨터공학과) ;
  • 권혁철 (부산대학교, 전자전기컴퓨터공학과)
  • Kim, Minho (Pusan National University, Dept. of Electrical and Computer Engineering) ;
  • Jin, Jingzhi (Pusan National University, Dept. of Electrical and Computer Engineering) ;
  • Kwon, Hyuk-Chul (Pusan National University, Dept. of Electrical and Computer Engineering)
  • 발행 : 2015.10.17

초록

문서 교정기에서 문맥의존 철자오류를 교정하는 방법은 크게 규칙을 이용한 방법과 통계 정보를 이용한 방법으로 나뉜다. 한국어와 달리 영어는 오래전부터 통계 모형에 기반을 둔 문맥의존 철자오류 교정 연구가 활발히 이루어졌다. 그러나 대부분 연구가 문맥의존 철자오류 교정 문제를 특정 어휘 쌍을 이용한 분류 문제로 간주하기 때문에 실제 응용에는 한계가 있다. 또한, 대규모 말뭉치에서 추출한 통계 정보를 이용하지만, 통계 정보 자체에 오류가 있을 경우를 고려하지 않았다. 본 논문에서는 텍스트에 포함된 모든 단어에 대하여 문맥의존 철자오류 여부를 판단하고, 해당 단어가 오류일 경우 대치어를 제시하는 영어 문맥의존 철자오류 교정 기법을 제안한다. 또한, 통계 정보의 오류가 문맥의존 철자오류 교정에 미치는 영향과 오류 발생률의 변화가 철자오류 검색과 교정의 정확도와 재현율에 미치는 영향을 분석한다. 구글 웹데이터에서 추출한 통계 정보를 바탕으로 통계 모형을 구성하고 평가를 위해 브라운 말뭉치에서 무작위로 2,000문장을 추출하여 무작위로 문맥의존 철자오류를 생성하였다. 실험결과, 문맥의존 철자오류 검색의 정확도와 재현율은 각각 98.72%, 95.79%였으며, 문맥의존 철자오류 교정의 정확도와 재현률은 각각 71.94%, 69.81%였다.

키워드