DOI QR코드

DOI QR Code

영작문 자동 채점 시스템을 위한 문맥 고려 단어 오류 검사기

Context-sensitive Word Error Detection and Correction for Automatic Scoring System of English Writing

  • 최용석 (충남대학교 정보통신공학과) ;
  • 이공주 (충남대학교 정보통신공학과)
  • 투고 : 2014.10.31
  • 심사 : 2014.12.19
  • 발행 : 2015.01.31

초록

본 연구에서는 문맥 정보를 함께 고려해야만 인식할 수 있는 단어 오류에 대하여 오류 인식 방법과 수정 후보 생성 방법을 제안한다. 이 문제는 기존의 영어권에서 이미 많이 다룬 연구 주제이다. 본 연구에서는 영어 자동채점 시스템에서 사용하도록 특화된 방법을 제안한다. 문맥 정보를 고려한 단어 오류 검사에서는 자주 혼동되어 사용되는 단어집합(confusion set)을 활용한다. 비영어권 사용자의 작문 특성을 반영하기 위해 기존의 영어권에서 구축한 혼동집합 이외에 자동으로 혼동집합을 구축하여 실험해 보았다. 또한 품사 중의성으로 인해 기존의 구문오류 검사기가 다루지 못하는 오류를 정의하고 오류 인식과 오류수정 후보를 생성하는 방법을 제안한다. 실제 한국어가 모국어이면서 초/중급 작문 수준의 수험생들이 작성한 영어 문장에 대해 평가해 본 결과, 약 70.48%의 f1 값을 얻어 기존의 영어권 결과에 비해 뒤지지 않는 성능을 보였다.

In this paper, we present a method that can detect context-sensitive word errors and generate correction candidates. Spelling error detection is one of the most widespread research topics, however, the approach proposed in this paper is adjusted for an automated English scoring system. A common strategy in context-sensitive word error detection is using a pre-defined confusion set to generate correction candidates. We automatically generate a confusion set in order to consider the characteristics of sentences written by second-language learners. We define a word error that cannot be detected by a conventional grammar checker because of part-of-speech ambiguity, and propose how to detect the error and generate correction candidates for this kind of error. An experiment is performed on the English writings composed by junior-high school students whose mother tongue is Korean. The f1 value of the proposed method is 70.48%, which shows that our method is promising comparing to the current-state-of-the art.

키워드

참고문헌

  1. Xu Sun, Jianfeng Gao, Daniel Micol, and Chris Quirk, "Learning Phrase-Based Spelling Error Models from Clickthrough Data," pp.266-274. The Association for Computer Linguistics, 2010.
  2. GyoungHo Lee and Kong Joo Lee, "Developing an Automated English Sentence Scoring System for Middle-school Level Writing Test by Using Machine Learning Techniques," Journal of KISE, Vol.41, No.11, 2014. https://doi.org/10.5626/JOK.2014.41.11.911
  3. Andrew R. Golding, "A Bayesian hybrid method for context-sensitive spelling correction," In Proceedings of the Third Workshop on Very Large Corpora, pp.39-53, 1995.
  4. Shane Bergsma, Dekang Lin, Randy Goebel, "Web-Scale N-gram Models for Lexical Disambiguation," In Proceedings of the Twenty-First International Joint Conference on Artificial Intelligence (IJCAI-09), pp.1507-1512, 2009.
  5. Hermet, M., Desilets, A., Szpakowicz, S., "Using the Web as a Linguistic Resource to Automatically Correct Lexico-Syntactic Errors," In The 6th Edition of the Language Resources and Evaluation Conference (LREC 08). May 28-30, 2008. Marrakech, Morocco.
  6. Michael Gamon, Claudia Leacock, Chris Brockett, Jianfeng Gao, and Alexander Klementiev, "Using Statistical Techniques and Web Search to Correct ESL Errors," 2009, CALICO Journal, Vol.26, No.3, pp.491-511.
  7. Lawrence Phillips, "The Double Metaphone Search Algorithm", C/C++ Users Journal, Vol.18, No.6, June, 2000.
  8. Mitchell P. Marcus, Mary Ann Marcinkiewicz, and Beatrice Santorini, Building a large annotated corpus of English: the penn treebank, Journal Computational Linguistics-Special issue on using large corpora: II archive Vol.19, Issue.2, June, 1993, Pp.313-330.
  9. https://catalog.ldc.upenn.edu/LDC2006T13
  10. A Winnow-Based Approach to Context-Sensitive Spelling Correction, Andrew R. Golding and Dan Roth, 1999.
  11. Kong Joo Lee and Sonwook Lee, "A comparison of grammatical error detection techniques for an automated English scoring system," Journal of the Korean Society of Marine Engineering 01/2013; 37(7). https://doi.org/10.5916/jkosme.2013.37.7.760