Efficient Summarization Using Zero Anaphora Resolution

한국어 영 대용어 처리를 통한 문서요약의 성능 향상

  • 구상옥 (경북대학교 컴퓨터공학과 언어ㆍ정보연구실) ;
  • 전명희 (경북대학교 컴퓨터공학과 언어ㆍ정보연구실) ;
  • 김미진 (경북대학교 컴퓨터공학과 언어ㆍ정보연구실) ;
  • 이상조 (경북대학교 컴퓨터공학과 언어ㆍ정보연구실)
  • Published : 2003.04.01

Abstract

본 논문에서는 보다 간결한 요약문을 생성하기 위하여. 문장 전체를 추출하는 것이 아니라 문장의 일부분을 요약으로 추출한다. 그런데 한국어의 경우 문장 구조상 반복되는 문장성분을 생략하는 영 대용 문제가 빈번하게 발생하기 때문에, 문장의 일부분 추출시. 생략된 성분을 복원하지 않으면 요약문의 의미가 불완전하고 모호해 질 수 있다. 본 논문에서는 문서 안에서 중요한 부분을 추출한 뒤, 생략된 성분을 복원하여 요약문의 가독성을 놓이는 방법을 제안한다. Luhn의 방법을 이용하여 문서내의 중요 클러스터를 추출하였고, 기존의 문장분할 및 영 대용어 복원 알고리즘을 사용하여 생략된 성분을 복원하였다. 본 논문에서 제안된 요약 방법은 신문기사와 같이 문장의 수는 많지 않고, 문장의 길이가 비교적 긴 문서를 짧은 문장으로 요약하는 데 효율적이다.

Keywords