Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2000.10d
- /
- Pages.238-244
- /
- 2000
- /
- 2005-3053(pISSN)
Korean Indicative Summarization Using Aggregate Similarity
도합유사도를 이용한 한국어 추출문서 요약
- Kim, Jae-Hoon (Department of Computer Engineering, Korea Maritime University and Advanced Information Technology Research University) ;
- Kim, Jun-Hong (Department of Computer Engineering, Korea Maritime University and Advanced Information Technology Research University)
- Published : 2000.10.13
Abstract
본 논문에서 문서는 문서관계도라고 하는 그래프로 표현된다. 노드는 문서의 구성요소인 문장을 표현하고, 링크는 노드들 간의 의미적인 관계를 나타낸다 의미적 관계는 유사도에 의해서 결정되며, 문장의 중요도는 도합유사도로 나타낸다. 도합유사도는 한 노드와 인접한 노드들 사이의 유사도 합을 말한다. 본 논문에서는 도합유사도를 이용한 한국어 문서 기법을 제안한다. 실험에 사용된 평가용 요약문서는 정보처리 관련 분야에서 수집된 논문 100편과 KORDIC에서 구축한 신문기사 105건을 이용하였다. 문서 시스템에 의해서 생성된 문서의 크기가 본문의 20%이고, 본문이 논문(서론과 결론)일 경우, 재현율과 정확률은 각각 46.6%와 76.9%를 보였으며, 또한 본문이 신문기사일 경우, 재현율과 정확률은 각각 30.5%과 42.3%를 보였다. 또한 제안된 방법은 상용시스템보다 좋은 성능을 보였다.
Keywords