한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)
- 한국정보처리학회 2013년도 추계학술발표대회
- /
- Pages.1362-1365
- /
- 2013
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
단어 간 연관성 측정을 통한 문맥 철자오류 교정
Context-sensitive Spelling Correction using Measuring Relationship between Words
- Choi, Sung-Ki (Dept of Computer Science & Engineering, Pusan National University) ;
- Kim, Minho (Dept of Computer Science & Engineering, Pusan National University) ;
- Kwon, Hyuk-Chul (Dept of Computer Science & Engineering, Pusan National University)
- 발행 : 2013.11.08
초록
한국어 텍스트에 나타나는 오류어의 유형은 크게 단순 철자오류와 문맥 철자오류로 구분할 수 있다. 이중 문맥 철자오류는 문맥의 의미 통사적 관계를 고려해야만 해당 어휘의 오류 여부를 알 수 있는 오류로서 철자오류 중 교정 난도가 가장 높다. 문맥 철자오류의 유형은 발음 유상성에 따른 오류, 오타 오류, 문법 오류, 띄어쓰기 오류로 구분할 수 있다. 본 연구에서는 오타 오류에 의해 발생하는 문맥 철자오류를 어의 중의성 해소와 같은 문제로 보고 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 방법을 제안한다. 미리 생성한 교정 어휘 쌍을 대상으로 교정 어휘 쌍의 각 어휘와 주변 문맥 간 의미적 연관성을 통계적으로 측정하여 문맥 철자오류를 검색하고 교정한다. 제안한 방법을 적용한 결과 3개의 교정 어휘 쌍 모두 90%를 넘는 정확도를 보였다.
키워드