Abstract
The main purpose of document summarization is to reduce the complexity of documents that are consisted of sub-themes. Also it is to create summarization which includes the sub-themes. This paper proposes a summarization system which could extract any salient sentences in accordance with sub-themes by using graph division. A document can be represented in graphs by using chosen representative terms through term relativity analysis based on co-occurrence information. This graph, then, is subdivided to represent sub-themes through connected information. The divided graphs are types of sentence clustering which shows a close relationship. When salient sentences are extracted from the divided graphs, summarization consisted of core elements of sentences from the sub-themes can be produced. As a result, the summarization quality will be improved.
문서요약은 여러 개의 하위 주제로 구성되어 있는 문서에 대해 문서의 복잡도를 줄이면서 하위 주제를 모두 포함하는 요약문을 생성하는 것이 목적이다. 본 논문은 그래프 분할을 이용하여 하위 주제별로 중요 문장을 추출하는 요약시스템을 제안한다. 문장별 공기정보에 의한 단어의 연관성 분석을 통해 선정된 대표어를 이용하여 문서를 그래프로 표현한다. 그래프는 연결정보에 의해 하위 주제를 의미하는 부분 그래프로 분할되며 부분 그래프는 긴밀한 관계를 갖는 문장들이 클러스터링된 형태이다. 부분 그래프별로 중요 문장을 추출하면 하위 주제별 핵심 내용들로만 요약문을 구성하게 되어 요약 성능이 향상된다.