• 제목/요약/키워드: 단일 문서 요약

검색결과 12건 처리시간 0.026초

단일문서와 복수문서 자동요약의 특성에 따른 기능 분석 (Analysis on Automatic Summarization Functions of the Single Document and the Multi Documents)

  • 최상희
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.303-312
    • /
    • 2003
  • 요약은 원문의 주제를 파악하여 원문의 축약판을 만들어 이용자에게 제공하는 중요한 정보 생산 과정이다. 최근 이용자에게 제공되는 정보량이 급증하면서 자동 요약에 대한 필요성이 더욱 증가하고 있으며 단일문서의 내용을 파악하는 도구로써 활용되던 요약이 문서집합의 내용을 파악하는 도구 및 새로운 정보생성 수단으로 그 기능을 넓혀가고 있다. 본 논고에서는 자동요약의 기본 개념과 요약대상의 문서 수에 따른 요약 특성 및 기능을 고찰하였다.

  • PDF

단일 문서의 인위적 요약과 MMR 통계요약의 비교 및 분석 (Analyses and Comparisons of Human and Statistic-based MMR Summarizations of Single Documents)

  • 유준현;변동률;박순철
    • 전자공학회논문지CI
    • /
    • 제41권2호
    • /
    • pp.43-50
    • /
    • 2004
  • 웹과 같은 대량의 문서집단에서 단일 문서에 대한 자동 요약은 일반적으로 통계요약 방법을 이용한다. 그러나 단순한 통계 요약 방법은 문서내의 빈도수가 높은 단어를 포함하는 문장들이 중복되어 나타날 확률이 높다. 이러한 단점을 보완하기 위하여 본 논문에서는 통계기반 요약방법에 MMR 기법을 적용하여 요약의 질을 향상시켰다(약 λ=0.6에서 최고의 성능을 보임). 또한 본 논문에서는 인위적 요약을 수행하여 MMR 통계기반의 요약 결과의 성능을 평가하였다.

하둡과 의미특징을 이용한 문서요약 (Document Summarization using Semantic Feature and Hadoop)

  • 김철원
    • 한국정보통신학회논문지
    • /
    • 제18권9호
    • /
    • pp.2155-2160
    • /
    • 2014
  • 본 논문은 하둡 기반의 분산병렬처리에 의한 문서의 의미특징을 추출하고, 추출된 의미특징을 이용하여 문서를 요약하는 새로운 방법을 제안한다. 제안된 방법은 문서요약에 비음수 분해된 문서의 의미특징을 이용함으로써 문서의 내부 구조를 잘 표현 할 수 있다. 또한 하둡을 이용하여 빅데이터의 문서를 요약할 수 있다. 실험결과 제안방법이 단일 컴퓨터 환경에서 처리할 수 없는 대용량의 문서를 요약할 수 있음을 보인다.

MASS와 복사 메커니즘을 이용한 한국어 문서 요약 (Korean Text Summarization using MASS with Copying Mechanism)

  • 정영준;이창기;고우영;윤한준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.157-161
    • /
    • 2020
  • 문서 요약(text summarization)은 주어진 문서로부터 중요하고 핵심적인 정보를 포함하는 요약문을 만들어 내는 작업으로, 기계 번역 작업에서 주로 사용되는 Sequence-to-Sequence 모델을 사용한 end-to-end 방식의 생성(abstractive) 요약 모델 연구가 활발히 진행되고 있다. 최근에는 BERT와 MASS 같은 대용량 단일 언어 데이터 기반 사전학습(pre-training) 모델을 이용하여 미세조정(fine-tuning)하는 전이 학습(transfer learning) 방법이 자연어 처리 분야에서 주로 연구되고 있다. 본 논문에서는 MASS 모델에 복사 메커니즘(copying mechanism) 방법을 적용하고, 한국어 언어 생성(language generation)을 위한 사전학습을 수행한 후, 이를 한국어 문서 요약에 적용하였다. 실험 결과, MASS 모델에 복사 메커니즘 방법을 적용한 한국어 문서 요약 모델이 기존 모델들보다 높은 성능을 보였다.

  • PDF

문장 수반 관계를 고려한 문서 요약 (Document Summarization Considering Entailment Relation between Sentences)

  • 권영대;김누리;이지형
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.179-185
    • /
    • 2017
  • 문서의 요약은 요약문 내의 문장들끼리 서로 연관성 있게 이어져야 하고 하나의 짜임새 있는 글이 되어야 한다. 본 논문에서는 위의 목적을 달성하기 위해 문장 간의 유사도와 수반 관계(Entailment)를 고려하여 문서 내에서 연관성이 크고 의미, 개념적인 연결성이 높은 문장들을 추출할 수 있도록 하였다. 본 논문에서는 Recurrent Neural Network 기반의 문장 관계 추론 모델과 그래프 기반의 랭킹(Graph-based ranking) 알고리즘을 혼합하여 단일 문서 추출요약 작업에 적용한 새로운 알고리즘인 TextRank-NLI를 제안한다. 새로운 알고리즘의 성능을 평가하기 위해 기존의 문서요약 알고리즘인 TextRank와 동일한 데이터 셋을 사용하여 성능을 비교 분석하였으며 기존의 알고리즘보다 약 2.3% 더 나은 성능을 보이는 것을 확인하였다.

언어 분석 자질을 활용한 인공신경망 기반의 단일 문서 추출 요약 (Single Document Extractive Summarization Based on Deep Neural Networks Using Linguistic Analysis Features)

  • 이경호;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권8호
    • /
    • pp.343-348
    • /
    • 2019
  • 최근의 문서요약 시스템은 인공신경망을 이용한 End-to-End 방식이 주류를 이루고 있다. 이러한 시스템은 인간의 자질 추출 과정이 필요 없으며 데이터 중심의 접근 방법을 채택한다. 그러나 기존의 관련 연구들은 품사 정보, 개체명 정보, 단어의 빈도 정보와 같은 언어 분석 자질이 중요 문장을 선택하여 요약을 작성하는데 유용함을 보여왔다. 본 연구에서는 기존의 언어 분석 자질을 활용하여 인공신경망을 기반으로 한 단일 문서의 추출 요약 시스템을 제안한다. 언어 분석 자질의 유용성을 보이기 위해 자질을 사용하는 모델과 사용하지 않는 모델을 비교하였다. 실험 결과 자질을 사용하는 모델이 그렇지 않은 모델에 비해 약 0.5점의 Rouge-2 F1점수 향상을 보였다.

단어 관련성 추정과 바이트 페어 인코딩(Byte Pair Encoding)을 이용한 요약 기반 다중 뉴스 기사 제목 추출 (Summarization Based Multi-news Title Extraction Using Term Relevance Estimation and Byte Pair Encoding)

  • 유홍연;이승우;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.115-119
    • /
    • 2018
  • 다중 문서 제목 추출은 하나의 주제를 가지는 다중 문서에 대한 제목을 추출하는 것을 말한다. 일반적으로 다중 문서 제목 추출에서는 다중 문서 집합을 단일 문서로 본 다음 키워드를 제목 후보군으로 추출하고, 추출된 후보를 나열하는 형식의 연구가 많이 진행되어져 왔다. 하지만 이러한 방법은 크게 두 가지의 한계점을 가지고 있다. 먼저, 다중 문서를 단순히 하나의 문서로 보는 방법은 전체적인 주제를 반영한 제목을 추출하기 어렵다는 문제점이 있다. 다음으로, 키워드를 조합하는 형식의 방법은 키워드의 단위를 찾는 방법에 따라 추출된 제목이 자연스럽지 못하다는 한계점이 있다. 따라서 본 논문에서는 이 한계점들을 보완하기 위하여 단어 관련성 추정과 Byte Pair Encoding을 이용한 요약 기반의 다중 뉴스 기사 제목 추출 방법을 제안한다. 평가를 위해서는 자동으로 군집된 총 12개의 주제에 대한 다중 뉴스 기사 집합을 사용하였으며 전문 교육을 받은 연구원들이 정성평가를 진행하여 5점 만점 기준 평균 3.68점을 얻었다.

  • PDF

다중 문서요약에서 문장의 중복도 측정방법 개선 (Measuring Improvement of Sentence-Redundancy in Multi-Document Summarization)

  • 임정민;강인수;배재학;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.493-495
    • /
    • 2003
  • 다중문서요약에서는 단일문서요약과 달리 문장간의 중복도를 측정하는 방법이 요구된다. 기존에는 중복된 단어의 빈도수를 이용하거나, 구문트리 구조를 이용한 방법이 있으나, 중복도를 측정하는데 도움이 되지 못하는 단어와, 구문분석기 성능에 따라서 중복도 측정에 오류를 발생시킨다. 본 논문은 주절 종속절의 구분, 문장성분, 주절 용언의 의미를 이용하는 문장간 중복도 측정방법을 제안한다. 위의 방법으로 구현된 시스템은 기존의 중복된 단어 빈도수 방식에 비해 정확율에서 56%의 성능 향상이 있었다.

  • PDF

문장 클러스터링에 기반한 자동요약 모형 (A Text Summarization Model Based on Sentence Clustering)

  • 정영미;최상희
    • 정보관리학회지
    • /
    • 제18권3호
    • /
    • pp.159-178
    • /
    • 2001
  • 본 연구에서는 문장 클러스터로부터 대표문장을 선정하여 요약문을 생성하는 자동요약 모형을 제시하고. 학습문서 집단을 미용하여 최적의 요약 환경을 구축한 후 요약 실험을 수행하였다. 학습 과정에서 문장의 클러스터링 기법으로는 7개의 계층적 기법들을 비교한 결과 클러스터를 구성하는 문장 수의 편차가 가장 적고 단일 문장 클러스터를 가장 적게 생성하는 센트로이드 기법이 선택되었다. 또한 각 클러스터를 대표하는 문장의 선정을 위해 용어 및 문장 가중치를 합산한 문장값과 클러스터-문장 벡터간 유사도의 두 기준을 비교한 결과 문장값 기준이 선택되었다. 용어 가중치로는 역문장빈도와 표제어 가중치, 그리고 문장의 위치 가중치가 자동요약 성능을 개선시키는 것으로 나타났으며, 적절한 요약문의 길이는 전체 문서의 1/3인 것으로 나타났다. 실험문서 집단으로는 문서의 길이와 특성이 다른 신문기사와 잡지기사의 두 집단을 이용하였다. 요약 모형의 검증 실험 결과 요약 정확률은 신문기사 집단에서는 53%, 잡지기사 집단에서는 47%인 것으로 나타났다. 두 실험 모두 랜덤하게 생성한 베이스라인 요악문보다 성능이 우수하였으나, 리드문장들로 구성된 베이스라인 요약문과의 비교에서는 짧은 길이의 신문기사의 경우 요약 모형의 성능이 오히려 떨어지는 것으로 나타났다.

  • PDF

워드 임베딩의 유사도 클러스터링을 통한 다중 문장 요약 생성 기법 (Multi Sentence Summarization Method using Similarity Clustering of Word Embedding)

  • 이필원;송진수;신용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.290-292
    • /
    • 2021
  • 최근 인코더-디코더 구조의 자연어 처리모델이 활발하게 연구가 이루어지고 있다. 인코더-디코더기반의 언어모델은 특히 본문의 내용을 새로운 문장으로 요약하는 추상(Abstractive) 요약 분야에서 널리 사용된다. 그러나 기존의 언어모델은 단일 문서 및 문장을 전제로 설계되었기 때문에 기존의 언어모델에 다중 문장을 요약을 적용하기 어렵고 주제가 다양한 여러 문장을 요약하면 요약의 성능이 떨어지는 문제가 있다. 따라서 본 논문에서는 다중 문장으로 대표적이고 상품 리뷰를 워드 임베딩의 유사도를 기준으로 클러스터를 구성하여 관련성이 높은 문장 별로 인공 신경망 기반 언어모델을 통해 요약을 수행한다. 제안하는 모델의 성능을 평가하기 위해 전체 문장과 요약 문장의 유사도를 측정하여 요약문이 원문의 정보를 얼마나 포함하는지 실험한다. 실험 결과 기존의 RNN 기반의 요약 모델보다 뛰어난 성능의 요약을 수행했다.