Document Summarization Using Latent Topics

잠재 토픽을 이용한 문서 요약문 추출

  • Jeong, Young-Seob (Dept. of Computer Science, Korea Advanced Institute of Science and Technology) ;
  • Choi, Ho-Jin (Dept. of Computer Science, Korea Advanced Institute of Science and Technology)
  • Published : 2011.06.29

Abstract

웹 문서를 비롯한 여러 가지 문서의 양이 급증함에 따라, 문서로부터 주요정보를 얻거나 자동으로 요약하는 연구들이 진행되어왔다. 특히, 문서를 요약하는 연구들은 문서에 존재하는 문장을 추출하는 방법과 요약문을 새롭게 생성하는 방법, 이렇게 크게 두 가지 방법으로 진행되었다. 이 연구에서는, 잠재 토픽 모델을 통하여 얻어낸 각 문장의 토픽 순열을 이용하여 문서를 대표하는 문장, 즉 요약문으로서 적합한 문장들을 추출하는 새로운 기법을 소개한다. 특히, 잠재 토픽 모델이 일반적으로 가지고 있는 속성인 토픽 순열의 교환성(exchangeability)을 배제하고 토픽의 순열을 이용하여 요약문을 추출해내므로 이 기법을 통하여 문서 혹은 문장의 구조를 반영한 요약문을 만들 수 있다.

Keywords

Acknowledgement

Supported by : 한국연구재단