Learning Probabilistic Graph Models for Extracting Topic Words in a Collection of Text Documents

;;;

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

2000.04b
/
Pages.265-267
/
2000
/
1598-5164(pISSN)

Korean Institute of Information Scientists and Engineers (한국정보과학회)

Learning Probabilistic Graph Models for Extracting Topic Words in a Collection of Text Documents

텍스트 문서의 주제어 추출을 위한 확률적 그래프 모델의 학습

신형주 (서울대학교 컴퓨터공학부) ;
장병탁 (서울대학교 컴퓨터공학부) ;
김영택 (서울대학교 컴퓨터공학부)

Published : 2000.04.01

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문에서는 텍스트 문서의 주제어를 추출하고 문서를 주제별로 분류하기 위해 확률적 그래프 모델을 사용하는 방법을 제안하였다. 텍스트 문서 데이터를 문서와 단어의 쌍으로(dyadic)표현하여 확률적 생성 모델을 학습하였다. 확률적 그래프 모델의 학습에는 정의된 likelihood를 최대화하기 위한 EM(Expected Maximization)알고리즘을 사용하였다. TREC-8 AdHoc 텍스트 에이터에 대하여 학습된 확률 그래프 모델의 성능을 실험적으로 평가하였다. 이로부터 찾아 낸 문서에 대한 주제어가 사람이 제시한 주제어와 유사한 지와, 사람이 각 주제에 대해 분류한 문서가 이 확률모델로부터의 분류와 유사한 지를 실험적으로 검토하였다.

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

Learning Probabilistic Graph Models for Extracting Topic Words in a Collection of Text Documents

텍스트 문서의 주제어 추출을 위한 확률적 그래프 모델의 학습

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)