Learning Probabilistic Graph Models for Extracting Topic Words in a Collection of Text Documents

텍스트 문서의 주제어 추출을 위한 확률적 그래프 모델의 학습

  • 신형주 (서울대학교 컴퓨터공학부) ;
  • 장병탁 (서울대학교 컴퓨터공학부) ;
  • 김영택 (서울대학교 컴퓨터공학부)
  • Published : 2000.04.01

Abstract

본 논문에서는 텍스트 문서의 주제어를 추출하고 문서를 주제별로 분류하기 위해 확률적 그래프 모델을 사용하는 방법을 제안하였다. 텍스트 문서 데이터를 문서와 단어의 쌍으로(dyadic)표현하여 확률적 생성 모델을 학습하였다. 확률적 그래프 모델의 학습에는 정의된 likelihood를 최대화하기 위한 EM(Expected Maximization)알고리즘을 사용하였다. TREC-8 AdHoc 텍스트 에이터에 대하여 학습된 확률 그래프 모델의 성능을 실험적으로 평가하였다. 이로부터 찾아 낸 문서에 대한 주제어가 사람이 제시한 주제어와 유사한 지와, 사람이 각 주제에 대해 분류한 문서가 이 확률모델로부터의 분류와 유사한 지를 실험적으로 검토하였다.

Keywords