헬름홀츠머신 학습 기반의 의미 커널을 이용한 문서 유사도 측정

Estimation of Document Similarity using Semantic Kernel Derived from Helmholtz Machines

  • 장정호 (서울대학교 컴퓨터공학부) ;
  • 김유섭 (한림대학교 정보통신공학부) ;
  • 장병탁 (서울대학교 컴퓨터공학부)
  • 발행 : 2003.04.01

초록

문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어수준 이상의 개념 수준에서의 운서 비교를 가능하게 한다. 본 논문에서는 은닉변수모델을 이용하여 문서 집합으로부터 단어들 간의 의미관계를 자동적으로 추출하고 이를 통해 문서간 유사도 측정을 효과적으로 하기 위한 방안을 제시한다. 은닉변수 모델로는 다중요인모델의 학습이 용이한 헬름홀츠 머신을 활용하묘 이의 학습 결과에 기반하여, 문서간 비교를 한 의미 커널(semantic kernel)을 구축한다. 2개의 문서 집합 HEDLINE과 CACM 데이터에 대한 검색 실험에서, 제안된 기법을 적응함으로써 기본 VSM(Vector Space Model) 에 비해 20% 이상의 평균 정확도 향상을 이를 수 있었다.

키워드