A Study on Automatic Extraction of Core Sentences from Document using Word Cooccurrence Graph

단어의 공기 관계 그래프를 이용한 문서의 핵심 문장 추출에 관한 연구

  • Ryu, Je (Venture Business Graduate School of Hoseo University) ;
  • Han, Kwang-Rok (Venture Business Graduate School of Hoseo University) ;
  • Sohn, Seok-Won (Dept. of Computer Engineering, Hoseo University) ;
  • Rim, Kee-Wook (Dept.of Industry Engineering, Sunmoon University)
  • 류제 (호서대학교 벤처전문대학원) ;
  • 한광록 (호서대학교 벤처전문대학원) ;
  • 손석원 (호서대학교 컴퓨터공학과) ;
  • 임기옥 (선문대학교 산업공학과)
  • Published : 2000.11.01

Abstract

In this paper,we propose an method of core sciences extractionusing word cooccrrence graph in order to summarize a document. For automatic extraction of core sentenees, we construct a mean cluster from word cooccurrence graph, and find insistence which corresponds a porposed of author. And then we extract keywords by using relationship between mean cluster and isistence. Finally, core senrences are sclected based on keywords and insitances. The esults are evaluated by comparing with manual extraction, and show that the extraction performance is improved about 10%.

본 논문은 문서의 내용을 요약하기 위한 방법으로서 단어의 공기 관계 그래프를 이용한 핵심 문장 추출 방법을 제안한다. 문서에서는 단어의 공기 관계 그래프를 이용하여 개념클러스터를 생성하고 문서내의 저자의 의도에 해당하는 주장을 찾는다. 그리고, 주장과 개념클러스터와의 관계로부터 키워드를 추출한다. 마지막으로 추출된 키워드와 주장을 이용하여 문서의 핵심 문장을 선택한다. 실험 및 평가는 수작업으로 추출한 핵심 문장과 비교를 통하여 이루어 졌으며, 기존의 방법과 비교하여 약 10%정도 향상된 성능을 보였다.

Keywords

References

  1. 한경수, 백대호, 임해창, '질의 확장을 이용한 자동문서 요약', 한국정보과학회 학술논문발표지 제27권 1호 pp 339-341. 2000
  2. Julian Kupiec, Jan Pedersen. and Francine Chen, 'A Trainable Document Summarizer,' Proceedings of ACM-SIGIR'95. pp.68-73 1995 https://doi.org/10.1145/215206.215333
  3. 유동원, 이종혁, '단어 공기 정보를 이용한 자동화 문서요약', 한국정보과학회 학술논문발표지 제27권 1호 pp. 345-347, 2000
  4. G Salton, A. Smghal, C. Buckley, M Mitra, 'Automatic Text Structuring and Summarization,' Information Processing & Management, 1997 https://doi.org/10.1016/S0306-4573(96)00062-3
  5. H. P Edmundson, 'New Method in Automatic Extracting.' Advances in Automatic Text Summarization, pp.23-42, MIT Press, 1999
  6. Julian Kupiec, Jan Pedersen, Francine Chen, 'A Trainable Document Summarizer,' Proceedings of ACM-SlGlR'95, pp68-73, 1995 https://doi.org/10.1145/215206.215333
  7. G. Salton, A. Slgnal 'Automatic Theme Generation an the Analysis of Text Structure', TR, 1994
  8. Regina Barzilay, Michael Elhadad, 'Using Lexical Chains for Text Summarization,' Advances in Automatic Text Summarization, pp 111-121, MlT Press, 1999
  9. G, Salton, A. Signal, C Buckley, M. Mitra, 'Automatic Text Decomposition Using Text Segments and Text Theme,' 96 ACM Conference on Hypertext, 1996 https://doi.org/10.1145/234828.234834
  10. Edward Hovy, Chin-Yew Lin. 'Automated Text Summarization in SUMMARIST,' Advances inAutomatic Text Summarization, pp.81-94 MlT Press, 1999
  11. Daniel Marcu, 'Discourse trees are good indicators of importance in text Advances in Automatic Text Summarization,' pp 123-136. MIT Press, 1999
  12. Yukio Ohsawa, Nels E. Benson, and Masahiko Yachida, 'Automatic Indexing by Segmentation and Unifing Co-occurrence Graphs,' 전자정보통신학회논문지 D-1 Vol.J82-D-I No.2. pp391-400, 1992
  13. 류 제, 한광록, '난이의 공기 관계 그래프를 이용한 인터넷 문서의 키워드 추출', HCI2000 학술대회발표논문집 9권 1호, pp894-899, 2000
  14. 서영훈, 이하규 외, '한국어 구문 'Tagged Corpus구축 및 구문 분석 데이터 사전 개발', 한국 전자 통신 연구소 최종 연구 보고서, 1998
  15. 강승식, '음절 정보와 복수어 단위 정보를 이용한 한국어 형태소 분석', 서울대학교 대학원 컴퓨터공학과 박사 학위 논문, 1993
  16. Ellis Horowitz, Sartaj Sahni, Dinesh Mehta, 'Fundamental of data structures,' pp330-396