The evaluation of statistic processing on korean compound nouns

복합명사의 통계적 처리에 대한 평가

  • Nam, Se-Jin (Dept. of Computer Engineering, Chungnam National University) ;
  • Lee, Ji-Yun (Dept. of Computer Engineering, Chungnam National University) ;
  • Shin, Dong-Wook (Dept. of Computer Engineering, Chungnam National University) ;
  • Chae, Mi-Ok (Database Section, Electronics and Telecommunications Research Institute)
  • 남세진 (충남대학교 컴퓨터공학과) ;
  • 이지연 (충남대학교 컴퓨터공학과) ;
  • 신동욱 (충남대학교 컴퓨터공학과) ;
  • 채미옥 (한국전자통신연구소 데이타베이스 연구실)
  • Published : 1996.10.11

Abstract

한글을 대상으로 하는 검색 시스템의 강우 문서의 대부분을 차지하는 복합명사는 원칙적으로 단어와 단어 사이를 띄어 써야 하지만 붙여쓰기 또한 허용하므로 정보 검색 시스템에서는 이를 고려하여야 한다. 본 논문에서는 MIDAS/IR 정보검색 시스템에서 통계적인 정보를 이용하여 복합명사를 처리하는 방법을 구현하고 이를 실험을 통하여 평가하고자 한다. MIDAS/IR은 크게 복합명사의 통계적인 정보를 이용하는 색인 부분과 확장 불리한 모델 및 벡터 공간 모델을 제공하는 검색 부분으로 이루어져 있다. 색인기에서는 복합명사를 처리할 뿐 아니라 고유명사와 같이 사전에 등록되지 않은 명사를 처리하는 작업을 하게 되며 검색 부분은 클래스 라이브러리로 구현되어 있어 임의의 검색 모델도 쉽게 추가 될 수 있도록 설계하였다. 본 연구에서는 KTSET을 이용하여 불리한 모델 및 벡타 공간 모델에서의 성능을 실험을 통하여 평가하였으며, n-그램을 사용한 시스템과 비교 분석하였다.

Keywords