Spelling Correction in Korean Using the `Eojeol` generation Dictionary

어절 생성 사전을 이용한 한국어 철자 교정

  • Published : 2001.02.01

Abstract

본 논문에서는 어절 생성 사전을 이용한 한국어 철자 교정을 제안한다. 어절 생성 사전은 두 문자열 간 음절 특성이 고려된 편집 거리 계산을 기반으로 탐색되어 언어와 오류 유형에 의존적인 정보를 이용하지 않고 오류 어절에 대한 후보 어절을 생성한다. 또한 교정된 어절들의 가능한 형태소 분석들을 산출하여 후보들 간의 순위 계산 시에 재차 형태소 분석을 수행하지 않고 언어 정보를 적용할 수 있다. 본 논문에서 제안하는 철자 교정은 두 단계로 구성된다. 첫째, 오류 어절로부터 가능한 오류 정정 어간들을 계산한다. 둘째, 계산된 어간들로부터 어절 생성 사전을 탐색하여 원형 후보 어절들을 생성한다. 또한 품사 태깅과 공기 정보를 사용하여 오류 수정된 결과의 순위를 매긴다. 본 시스템의 자동 철자 교정 성능을 평가한 결과 3,000개의 어절에서 시험한 결과 단어 수준으로 93%가 옳게 교정되었다.

Keywords

References

  1. 강승식, 김영택, '한국어 형태소 분석기에서 불규칙 용언의 분석모형', 한국정보과학회 논문지, 제19권 제2호, pp.151-163, 1992
  2. 김영택, '자연 언어 처리', 교학사, 1994
  3. 남윤진, 옥철영, '말뭉치 분석에 기반한 명사파생 접미사의 사전 정보 구축'
  4. 박영환, 송만석, '말뭉치에 기반한 형태소 분석기 및 철자 검사기의 구현', 연세대학교 석사학위논문, 1992
  5. 심철민, 권혁철, '연어 정보에 기반한 한국어 철자 검사와 교정기의 구현,' 정보과학회 논문지, 제23권 제7호, pp.776-785, 1996
  6. 유진희, 이종혁, 이근배, '형태소 분석과 언어평가를 이용한 문자인식 후처리', 정보과학회 논문지, 제22권 제6호, pp.880-891, 1995
  7. 윤준태, '공기 관계 기반 어휘 정보를 이용한 한국어 구문 분석', 연세대학교 박사학위 논문, 1997
  8. 이병훈, 윤준태, 송만석, '말뭉치를 기반으로 한 한국어 철자 교정기의 구현', 한글 및 한국어 정보처리 학술발표논문집, pp.285-293, 1993
  9. 이하규, '어말-어두 공기 정보를 이용한 한국어 어휘 중의성 해소', 정보과학회 논문지, 제24권 제1호, pp.82-89, 1997
  10. 최기선, '국어 정보 베이스 CD', KAIST, 1999
  11. 최현배, '우리말본', 정음문화사, 1989
  12. 황영숙, 박봉래, 임해창, '한국어의 음절 결합 특성 및 통사적 어휘 특성을 이용한 문자인식 후처리 시스템', 한글 및 한국어 정보처리, pp.175-182, 1997
  13. Allen, James, Natual Language Understanding, The Benjamin/Cummings, 1994
  14. Boguraev, Branimir and Pustejovsky, James, Corpus Processing for Lexical Acquitsition, The MIT press, 1996
  15. Du, M. W. and Chang, S. C., 'A model and a fast algorithm for multiple errors spelling correction,' Acta Information, (29) : pp.281-302, 1992 https://doi.org/10.1007/BF01185682
  16. Golding, Andrew R., 'A Baysian hybrid method for context-sensitive spelling correction,' cmp-lg, 1996
  17. Hopcroft, John E. and Ullman, Jeffrey D., Introduction to Automata Theory, Languages, and Computation, Addison-Wesley, 1979
  18. Kukich, Karen, 'Automatically Correcting Words in Text,' ACM Computing Surveys, Vol.24, No.4, pp.377-438, 1992
  19. Oflazer, Kemel, 'Error-tolerant Finite-state Recognition with Applications to Mopological Analysis and Spelling Correction,' ACL, Vol.22, pp.73-89, 1996
  20. Ross, Sheldon M., Introduction to Probability and Statistics For Engineers And Scientists, Wiley, 1987
  21. Wagner, Robert A. and Fischer, Michael J., 'The String-to-String Correction Problem,' Journal of the ACM, Vol.21, No.1, 1974 https://doi.org/10.1145/321796.321811