Real Time Recognition of Unknown Words based on the Analysis of Similar Words with an Extended Definition

확장 정의된 유사어절의 분석에 근거한 실시간 미등록어 인식

  • Park, Bong-Rae (NLP Lab., Department of Computer Science, Korea University) ;
  • Hwang, Young-Sook (NLP Lab., Department of Computer Science, Korea University) ;
  • Rim, Hae-Chang (NLP Lab., Department of Computer Science, Korea University)
  • 박봉래 (고려대학교 전산과학과 자연어처리연구실) ;
  • 황영숙 (고려대학교 전산과학과 자연어처리연구실) ;
  • 임해창 (고려대학교 전산과학과 자연어처리연구실)
  • Published : 1996.10.11

Abstract

기존의 미등록어 추정 방법은 대부분 단일 어절 접근 방법으로 단일 어절에서 추출할 수 있는 추정 정보가 부족하여 과분석과 오분석의 가능성이 높았다. 그래서 동일 미등록어를 가진 어절들을 동시에 분석하는 유사 어절 접근 방법이 제시되었다. 그러나 이 방법도 유사 어절의 범위를 조사나 어미만 다른 어절로 정의함으로써 수집될 수 있는 유사 어절의 수가 제한되어 대략의 텍스트에서만 적용이 가능하였다. 이에 본 논문은 유사어절을 동일 음절열을 공유하는 어절들로 확장 정의하여 작은 크기 N의 텍스트 윈도우에서 유사 어절의 발견 가능성을 높임으로써 실시간으로 미등록어를 추정할 수 있게 하는 방법을 제시한다. N을 100으로 한 실험결과는 미등록어 추정 정확도가 99.3%였고 재현율은 약 32%였다.

Keywords