Korean Summarization System using Automatic Paragraphing

단락 자동 구분을 이용한 문서 요약 시스템

  • 김계성 (경일대학교 교양학부) ;
  • 이현주 (경북대학교 컴퓨터공학과) ;
  • 이상조 (경북대학교 컴퓨터공학과)
  • Published : 2003.08.01

Abstract

In this paper, we describes a system that extracts important sentences from Korean newspaper articles using automatic paragraphing. First, we detect repeated words between sentences. Through observation of the repeated words, this system compute Closeness Degree between Sentences(CDS ) from the degree of morphological agreement and the change of grammatical role. And then, it automatically divides a document into meaningful paragraphs using the number of paragraph defined by the user´s need. Finally. it selects one representative sentence from each paragraph and it generates summary using representative sentences. Though our system doesn´t utilize some features such as title, sentence position, rhetorical structure, etc., it is able to extract meaningful sentences to be included in the summary.

본 논문은 단락의 자동 구분을 통해 중요한 문장을 추출하는 요약 시스템을 제안한다. 먼저 어휘의 재출현 여부를 파악하여 어휘의 일치도와 어휘의 역할 변화와 같은 재출현 어휘의 양상 정보를 수집하고, 이를 통하여 문장 간의 긴밀도를 정량적으로 계산한다. 다음으로 측정된 문장간 긴밀도를 이용하여 사용자의 추출 범위에 따라 단락을 구분하고, 각 단락의 대표 문장을 선정하여 최종 요약문을 추출한다. 제안한 방법은 문서 제목, 문장의 위치, 수사 구조 등의 정보를 이용하지 않기 때문에 수사 구조가 자주 발견되지 않는 문서에도 적용이 가능하다.

Keywords

References

  1. Inderjeet Mani and Mark T. Maybury, Advances in automatic text summarization, The MIT Press, 1999
  2. Inderjeet Mani, Automatic Summarization, John Benjamins Publishing Company, 2001
  3. Regina Barzilay, 'Lexical Chains for Summarization,' M.Sc. degree of Ben-Gurion University of the Negev, 1997
  4. Daniel Marcu, 'Discourse trees are good indicators of importane in text,' In I. Mani and M. Maybury editors, Advances in Automatic Text Summarization, pages 123-136, The MIT Press, 1999
  5. Marti A. Hearst, 'Multi-paragraph segmentation of expository text,' In Proceedings of the 32nd Annual Meeting of the Association for Computational Lingustics(ACL), Las Cruces, NM, June 1994 https://doi.org/10.3115/981732.981734
  6. 담화 연구의 기초, 이원표 역, 한국문화사, 1999
  7. 김상수, 김계성, 노태길, 이상조, '문서 요약을 위한 조응대용 해결', 제29회 정보과학회 추계학술발표논문집(B), 2002
  8. 정영규, 이현주, 이상조, '신문기사 요약문 생성을 위한 구문 분석기 구현', 제28회 정보과학회 춘계학술발표논문집(B), 2001
  9. Gerard Salton, Michael J. McGill, Introduction to Modern Information Retrieval, McGraw-Hill, 1983
  10. Gale William, Kenneth W.Church, and David Yarowsky, 'Estimating upper and lower bounds on the performance of word-sense disambiguation programs,' In Proceedings of the 30th Annual Meeting of the Association for Computational Linguistics(ACL-92), pages 249-256, 1992 https://doi.org/10.3115/981967.981999