• 제목/요약/키워드: 문서 요약 기법

검색결과 67건 처리시간 0.02초

질의응답을 위한 복수문서 요약에 관한 실험적 연구 (An Experimental Study on Multi-Document Summarization for Question Answering)

  • 최상희;정영미
    • 정보관리학회지
    • /
    • 제21권3호
    • /
    • pp.289-303
    • /
    • 2004
  • 이 연구에서는 이용자가 여러 곳에 분산되어 있는 문서들을 일일이 보지 않고 하나의 요약문에서 쉽게 질의에 맞는 답을 찾을 수 있는 가장 효율적인 방안을 제시하고자 하였다. 이를 위해, 클러스터링 기법, 단락확장 기법, 두 기법의 특성을 반영한 혼합 기법 등 세 가지 복수문서 요약 기법의 성능을 평가하는 실험을 수행하였다. 요약기법 평가 기준으로는 요약 정확률과 요약문내 정보 중복도를 적용하였다. 실험결과 이용자 질의에 따라 여러 문서를 요약하는 최적 기법으로 문장검색을 기반으로 한 순차적 단락확장 기법을 제안하였다. 순차적 단락확장은 특히, 용약의 대상이 되는 문서가 대용량인 환경에서 정확한 정보를 찾아 요약문을 생성하는 성능이 가장 우수한 것으로 나타났다.

완전그래프를 이용한 문서요약 연구 (Document Summarization Method using Complete Graph)

  • 유준현;박순철
    • 한국산업정보학회논문지
    • /
    • 제10권2호
    • /
    • pp.26-31
    • /
    • 2005
  • 본 논문에서는 웹 검색엔진에서 일반적으로 사용하는 문서요약에 대한 연구로써 문서 내에 있는 문장들의 꼭짓점을 연결하는 완전그래프기법을 도입하여 요약내용을 좀 더 간결하고 함축하게 하는 통계요약기법을 제안했다. 이 요약기술을 지금까지 통계 문서요약기술에서 우수하다고 판단된 클러스터링 기법과 MMR 기법 등과 비교하였다. 특히, 요약 성능을 평가하기 위하여 인위적으로 요약된 요약문을 기준으로 한 각 요약기법들의 FScore값들과 비교하였다. 이 기술들 중에서 완전그래프기법이 약 $30\%$정도 성능향상을 보였다.

  • PDF

잠재 토픽을 이용한 문서 요약문 추출 (Document Summarization Using Latent Topics)

  • 정영섭;최호진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.240-243
    • /
    • 2011
  • 웹 문서를 비롯한 여러 가지 문서의 양이 급증함에 따라, 문서로부터 주요정보를 얻거나 자동으로 요약하는 연구들이 진행되어왔다. 특히, 문서를 요약하는 연구들은 문서에 존재하는 문장을 추출하는 방법과 요약문을 새롭게 생성하는 방법, 이렇게 크게 두 가지 방법으로 진행되었다. 이 연구에서는, 잠재 토픽 모델을 통하여 얻어낸 각 문장의 토픽 순열을 이용하여 문서를 대표하는 문장, 즉 요약문으로서 적합한 문장들을 추출하는 새로운 기법을 소개한다. 특히, 잠재 토픽 모델이 일반적으로 가지고 있는 속성인 토픽 순열의 교환성(exchangeability)을 배제하고 토픽의 순열을 이용하여 요약문을 추출해내므로 이 기법을 통하여 문서 혹은 문장의 구조를 반영한 요약문을 만들 수 있다.

다중문서 요약에서 적응 기법을 이용한 문장 추출 (Sentence Extraction Using Adapting Method in Multi-Document Summarization)

  • 임정민;강인수;배재학;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.12-19
    • /
    • 2004
  • 기존의 다중 문서요약은 전체 대상문서에 대해서 한번에 요약문을 생산하지만, 본 논문은 요약 대상문서 집합에서 핵심내용을 갖는 문서를 기본 문서로 선택, 임시 요약문장을 추출하고 대상문서 집합에서 순차적으로 문서를 입력받아 중요문장을 추출, 이전에 구축된 요약문장과 현재 추출된 문장을 비교하면서 요약에 필요한 문장을 선택하는 적응 기법을 제안한다. 제안한 방법으로 구현한 시스템은 NTCIR TSC 3에서 사용된 29개의 다중 문서집합을 통해서 성능을 평가하였다. 적응 기법 시스템은 TSC3의 baseline시스템인 Lead 방법보다는 높은 성능을 나타냈지만, TSC 3에 참가한 시스템들과의 비교에서는 월등한 성능 우위를 나타내지 못했다.

  • PDF

동적 연결 그래프를 이용한 자동 문서 요약 시스템 (A Document Summarization System Using Dynamic Connection Graph)

  • 송원문;김영진;김은주;김명원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권1호
    • /
    • pp.62-69
    • /
    • 2009
  • 문서 요약은 쉽고 빠르게 문서의 내용을 파악할 수 있도록 방대한 내용을 가지는 다양한 형태의 문서로부터 핵심 내용만을 추출하거나 생성하여 제공하는 것을 목적으로 한다. 본 논문에서는 효율적 문서 요약을 위해 주어진 문서의 평균 문장 길이(핵심어 개수)를 고려하여 문장 간의 핵심어 유사도를 나타내는 연결 그래프를 생성하고 분석하여 요약을 생성하는 기법을 제안한다. 또한 이러한 기법을 이용하여 응용 프로그램 문서로부터 자동으로 요약을 생성하는 자동 문서 요약 시스템을 개발한다. 제안한 방법의 객관적인 요약 성능 측정을 위해 정확한 요약문이 실린 20개의 테스트 문서를 이용하여 생성된 요약에 대해 precision(정확률)과 recall(재현율), F-measure를 측정하였으며, 실험 결과를 통해 기존 기법에 비해 우수한 요약 성능을 보임을 증명하였다.

태그 클러스터를 이용한 다중문서요약 기법 (Multi-Document Summarization Using Tag Cluster)

  • 허지욱;정진우;홍현기;이동호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.45-48
    • /
    • 2011
  • 오늘날 인터넷의 빠른 보급으로 인하여 웹 상에 생성되는 문서의 양은 하루가 다르게 늘어나고 있다. 이러한 엄청난 양의 문서들 중 사용자는 자신이 원하는 정보가 담긴 문서를 얻기 위해서는 직접 문서를 검토해야 하며, 많은 시간이 투자 된다는 어려움이 있다. 이러한 사용자들의 어려움을 줄이기 위하여 문서의 핵심을 유지하며 양을 줄이는 다중문서요약기업에 대한 연구가 활발히 진행되어왔다. 본 논문에서는 효율적이고 빠른 문서 요약을 위하여 폭소노미 시스템인 플리커를 통하여 문서 내에 존재하는 각 단어들의 클러스터를 획득하고, 이를 기반으로 단어들의 중요도를 분석하여 중요문장을 추려내는 다중문서요약 기법을 제안한다.

질의확장을 이용한 자동 문서요약 (Automatic Text Summarization Using Query Expansion)

  • 한경수;백대호;임해창
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.339-341
    • /
    • 2000
  • 문서요약이란 문서의 기본적인 내용을 유지하면서 문서의 복잡도를 줄이는 작업이다. 인터넷과 같은 정보기술의 발달로 정보의 양이 급증함에 따라, 정보 과적재(information over load) 문제의 해결을 위해 자동 문서요약시스템의 필요성이 대두되었다. 본 논문에서는 의사 적합성 피드백(pseudo relevance feedback)에 의한 질의확장(query expansion) 기법을 적용한 자동 문서요약 모델을 제안한다. 제안하는 모델의 특징은 질의를 분해함으로써, 적합성 피드백 과정에서 질의가 편향(bias)되어 요약이 잘못되는 문제를 방지할 수 있다는 것이다. 신문기사를 대상으로 평가한 결과 제안한 모델이 질의확장을 적용하지 않은 방법이나 하나의 질의만을 유지하는 일반적인 적합성 피드백 모델보다 더 좋은 성능을 보였다.

  • PDF

대용량 오피니언 문서에 대한 특성 기반 요약 기법 (Feature-Based Summarization Method for a Large Opinion Documents Collection)

  • 장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.33-42
    • /
    • 2016
  • 최근 SNS나 포털을 중심으로 다양한 분야 대해 대중들의 의견이 표현될 수 있는 환경이 확대되고 있고, 이로 인해 오피니언 문서들은 빠르게 대량화 되고 있다. 이러한 환경에서 대용량의 오피니언 문서들의 내용을 파악하기 위해서는 자동 요약 기술의 적용이 필수적이다. 하지만 오피니언 문서 내에는 대상 객체가 갖는 특성들과 주관적 표현들이 내재되어 있어 일반적인 요약 기법으로는 효율적인 요약이 불가능하다. 본 논문에서는 대용량의 오피니언 문서를 대상으로 주요 문장들을 추출하여 요약하는 기법을 제안한다. 제안된 기법에서는 사전에 정의된 오피니언 문서의 특성들에 대해서, 특성들에 대한 오피니언이 표현된 대표적인 문장들이 추출되도록 설계되었다. 또한 실험을 통하여 제안된 방법의 유용성을 증명하였다.

질의기반 자동문서 요약 (Query_Based Automatic Text Summarization)

  • 김금영;강인호;안동언;정성종;박순철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.593-596
    • /
    • 2002
  • 웹에 대한 이용이 폭발적으로 증가하면서, 정보검색의 중요성도 증가하고 있다. 이에 따라 정보검색을 효율적이고 신속하게 수행할 수 있도록 다양한 기법이 개발되고 있다. 문서요약은 주어진 문서의 양을 효과적으로 줄이는 기법으로 최근 정보검색 분야에서 활용되고 있다. 본 논문에서는 주어진 질의에 대하여 문서를 요약할 수 있는 자동문서 요약 시스템을 제안한다. 제안하는 시스템은 사용자의 질의에 관련있는 내용만을 포함하는 사용자 주도 요약 (user-driven summary) 결과를 산출한다.

  • PDF

요약 문서 기반 문서 클러스터링 (Document clustering based on summarized document using K-means algorithm)

  • 오형진;고지현;안동언;정성종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.589-592
    • /
    • 2002
  • 정보검색 시스템에서 문서 클러스터링 기법은 사용자 질의에 대하여 검색된 문서를 문서간의 관련도에 따라 클러스터로 구성하고 사용자에게 검색 결과로 보여주는 것이다. 본 논문에서는 사용자의 질의에 대하여 검색된 문서를 자동 문서 요약기를 통해 얻은 요약 문서와 문서 전문을 문서들간의 유사도를 기반으로 동적으로 클러스터링 한다. 구현한 시스템의 클러스터링 효과를 검증한 결과 검색된 문서 전문을 클러스터링 한 방식에 비해 요약 문서를 클러스터링 한 방식이 정확률 측면에서 더 나은 성능을 보였다.

  • PDF