• Title/Summary/Keyword: 생성 요약

Search Result 508, Processing Time 0.027 seconds

Rhetorical Structure Tree Generation for Text Summarization System (문서 요약 시스템을 위한 수사 구조 트리 생성)

  • 정준호;김미진;이현주;박미성;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.175-177
    • /
    • 1999
  • 본 논문에서는 수사 정보와 문장간 유사도를 이용하여 문서의 수사 구조 트리를 생성하는 방법을 제안하였다. 말뭉치에서 찾아낸 수사 정보를 종류별로 분류하고, 이를 사용해서 문서 내의 수사 정보를 추출해서 가능한 모든 구조를 생성한다. 다음으로 문장간의 유사도를 사용해서 가중치가 가장 높은 하나의 구조를 선택한다. 생성된 수사 구조를 사용하여 문서를 요약할 수 있는데, 수사 정보는 언어적 특성을 이용하는 것이므로 모데인에 독립적인 요약 시스템을 만들 수 있다.

  • PDF

Hybrid Document Summarization using a TextRank Algorithm and an Attentive Recurrent Neural Networks (TextRank 알고리즘과 주의 집중 순환 신경망을 이용한 하이브리드 문서 요약)

  • Jeong, Seok-won;Lee, Hyeon-gu;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.47-50
    • /
    • 2017
  • 문서 요약은 입력 문서가 가진 주제를 유지하면서 크기가 축약된 새로운 문서를 생성하는 것이다. 문서 요약의 방법론은 크게 추출 요약과 추상 요약으로 구분된다. 추출 요약의 경우 결과가 문서 전체를 충분히 대표하지 못하거나 문장들 간의 호응이 떨어지는 문제점이 있다. 최근에는 순환 신경망 구조의 모델을 이용한 추상 요약이 활발히 연구되고 있으나, 이러한 방법은 입력이 길어지는 경우 정보가 누락된다는 문제점을 가지고 있다. 본 논문에서는 이러한 단점들을 해소하기 위해 추출 요약으로 입력 문서의 중요한 일부 문장들을 선별하고 이를 추상 요약의 입력으로 사용했을 때의 성능 변화를 관찰한다. 추출 요약을 통해 원문 대비 30%까지 문서를 요약한 후 요약을 생성했을 때, ROUGE-1 0.2802, ROUGE-2 0.1294, ROUGE-L 0.3254의 성능을 보였다.

  • PDF

Hybrid Document Summarization using a TextRank Algorithm and an Attentive Recurrent Neural Networks (TextRank 알고리즘과 주의 집중 순환 신경망을 이용한 하이브리드 문서 요약)

  • Jeong, Seok-won;Lee, Hyeon-gu;Kim, Harksoo
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.47-50
    • /
    • 2017
  • 문서 요약은 입력 문서가 가진 주제를 유지하면서 크기가 축약된 새로운 문서를 생성하는 것이다. 문서 요약의 방법론은 크게 추출 요약과 추상 요약으로 구분된다. 추출 요약의 경우 결과가 문서 전체를 충분히 대표하지 못하거나 문장들 간의 호응이 떨어지는 문제점이 있다. 최근에는 순환 신경망 구조의 모델을 이용한 추상 요약이 활발히 연구되고 있으나, 이러한 방법은 입력이 길어지는 경우 정보가 누락된다는 문제점을 가지고 있다. 본 논문에서는 이러한 단점들을 해소하기 위해 추출 요약으로 입력 문서의 중요한 일부 문장들을 선별하고 이를 추상 요약의 입력으로 사용했을 때의 성능 변화를 관찰한다. 추출 요약을 통해 원문 대비 30%까지 문서를 요약한 후 요약을 생성했을 때, ROUGE-1 0.2802, ROUGE-2 0.1294, ROUGE-L 0.3254의 성능을 보였다.

  • PDF

Transformer-based Text Summarization Using Pre-trained Language Model (사전학습 언어 모델을 활용한 트랜스포머 기반 텍스트 요약)

  • Song, Eui-Seok;Kim, Museong;Lee, Yu-Rin;Ahn, Hyunchul;Kim, Namgyu
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.395-398
    • /
    • 2021
  • 최근 방대한 양의 텍스트 정보가 인터넷에 유통되면서 정보의 핵심 내용을 파악하기가 더욱 어려워졌으며, 이로 인해 자동으로 텍스트를 요약하려는 연구가 활발하게 이루어지고 있다. 텍스트 자동 요약을 위한 다양한 기법 중 특히 트랜스포머(Transformer) 기반의 모델은 추상 요약(Abstractive Summarization) 과제에서 매우 우수한 성능을 보이며, 해당 분야의 SOTA(State of the Art)를 달성하고 있다. 하지만 트랜스포머 모델은 매우 많은 수의 매개변수들(Parameters)로 구성되어 있어서, 충분한 양의 데이터가 확보되지 않으면 이들 매개변수에 대한 충분한 학습이 이루어지지 않아서 양질의 요약문을 생성하기 어렵다는 한계를 갖는다. 이러한 한계를 극복하기 위해 본 연구는 소량의 데이터가 주어진 환경에서도 양질의 요약문을 생성할 수 있는 문서 요약 방법론을 제안한다. 구체적으로 제안 방법론은 한국어 사전학습 언어 모델인 KoBERT의 임베딩 행렬을 트랜스포머 모델에 적용하는 방식으로 문서 요약을 수행하며, 제안 방법론의 우수성은 Dacon 한국어 문서 생성 요약 데이터셋에 대한 실험을 통해 ROUGE 지표를 기준으로 평가하였다.

  • PDF

Two-step Document Summarization using Deep Learning and Maximal Marginal Relevance (딥러닝과 Maximal Marginal Relevance를 이용한 2단계 문서 요약)

  • Jeon, Jaewon;Hwang, Hyunsun;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.297-300
    • /
    • 2019
  • 문서 요약은 길이가 긴 원본 문서의 의미는 유지한 채 원본보다 짧은 문서나 문장을 생성하는 자연어 처리 태스크이다. 본 논문에서는 Maximal Marginal Relevance(MMR)를 이용한 sequence-to-sequence 문장 추출 모델을 이용하여 의미가 중복되는 문장을 최소화하는 문장을 추출하고 추출된 문장을 sequence-to-sequence 모델을 통해 요약문을 생성하는 2단계 문서 요약 모델을 제안한다. 실험 결과 MMR을 활용하지 않았던 기존의 방법론보다 Rouge 성능이 향상되었다.

  • PDF

Automatic Text Summarization using Noun-Verb Cooccurrence Pattern (명사-동사 공기패턴을 이용한 문서 자동 요약)

  • Nam, Ki-Jong;Lee, Chang-Beom;Kang, Dae-Wook;Park, Hyuk-Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.611-614
    • /
    • 2002
  • 문서 자동 요약은 입력된 문서에 대해 컴퓨터가 자동으로 요약을 생성하는 과정을 의미한다. 즉, 컴퓨터가 문서의 기본적인 내용을 유지하면서 문서의 복잡도 즉 문서의 길이를 줄이는 작업이다. 효율적인 정보 접근을 제공함과 동시에 정보 과적재를 해결하기 위한 하나의 방법으로 문서 자동요약에 관한 연구가 활발히 진행되고 있다. 본 논문의 목적은 어휘 연관성 정보를 이용하여 한국어 문서를 자동으로 요약하는 효율적이며 효과적인 모형을 개발하는 것이다. 제안한 방법에서는 신문기사와 같은 특정 부류에 국한되는 단어간의 어휘연관성을 이용하여 명사-명사 공기패턴과 명사-동사 공기패턴을 구축하여 문서요약에 이용한다. 크게 불용어 처리 단계, 공기패턴 구축 단계, 문장 중요도 계산 단계, 요약 생성단계의 네 단계로 나누어 요약을 생성한다. 30% 중요문장 추출된 신문기사를 대상으로 평가한 결과 명사-명사 공기패턴과 빈도만을 이용한 방법보다 명사-동사 공기패턴을 이용한 방법이 좋은 결과를 가져 왔다.

  • PDF

Intermediate Concept Representation for Automatic Summary (요약문 생성을 위한 중간 개념 표현)

  • 서연경;노태길;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.355-357
    • /
    • 2001
  • 사건, 사고 관련 기사의 요약은 단순히 원문이 무엇을 말하는 가를 지시하는 것보다 가능한 요지를 판독하면서 필요한 정보를 누락시키지 않고 표현할 수 있는 것이 바람직하다. 이를 위하여 본 논문에서는 사건, 사고 관련 기사의 자동 요약문 생성을 위한 중간 개념 표현 방법을 제안한다. 단락 자동 구분을 통한 중요 문장 추출을 거쳐 각 단락의 중심문장을 파악하고, 단락내의 정보들을 의미 파악된 중심 문장에 추가, 병합하여 단락의 내용을 대표하는 Paragraph Representation Structure(PRS)를 생성한다. 이들은 통합과정을 거쳐 하나의 Unified Representation Structure(URS)로 만들어지며, 이것은 중간 개념 표현으로 다국어 자동 요약문 생성을 위한 기반이 될 수 있다. 본 연구에 이용한 코퍼스는 비행기, 선박, 차량, 열차 사고와 화제 폭발 및 사건 관련 신문 기사를 대상으로 한다.

  • PDF

Factual consistency checker through a question-answer test based on the named entity (개체명 기반 질문-답변 검사를 통한 요약문 사실관계 확인)

  • Jung, Jeesu;Ryu, Hwijung;Chang, Dusung;Chung, Riwoo;Jung, Sangkeun
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.112-117
    • /
    • 2021
  • 기계 학습을 활용하여 요약문을 생성했을 경우, 해당 요약문의 정확도를 측정할 수 있는 도구는 필수적이다. 원문에 대한 요약문의 사실관계 일관성의 파악을 위해 개체명 유사도, 기계 독해를 이용한 질문-답변 생성을 활용한 방법이 시도되었으나, 충분한 데이터 확보가 필요하거나 정확도가 부족하였다. 본 논문은 딥러닝 모델을 기반한 개체명 인식기와 질문-답변쌍 정확도 측정기를 활용하여 생성, 필터링한 질문-답변 쌍에 대해 일치도를 점수화하는 방법을 제안하였다. 이러한 기계적 사실관계 확인 점수와 사람의 평가 점수의 분포를 비교하여 방법의 타당성을 입증하였다.

  • PDF

Automatic Test Data Generation Using Abstract Interpretation (요약 해석을 이용한 데스트 데이터 자동 생성 기법)

  • 한승희;강제성;정인상;권용래
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.460-462
    • /
    • 2001
  • 테스트 데이터의 자동 생성은 소프트웨어 테스팅에서 가장 중요하면서도 어려운 부분이다. 대부분의 데스트 데이터 자동생성에 관한 연구는 명세로부터 테스트 데이터를 자동 생성하는 방식이며 이틀 위해 정확한 정형적 명세를 필요로 한다. 본 논문에서 는 프로그램을 실 행하지 않고 프로그램의 동적인 특성을 분석할 수 있는 요약 해석(abstract interpretation) 방법과 선후 지배 관계(pre-, postdominance relationship)를 이용하여 프로그램 코드로부터 직접 테스트 데이터를 자동 생성할 수 있는 방법 을 제안한다.

  • PDF

A Text Summarization Model Based on Sentence Clustering (문장 클러스터링에 기반한 자동요약 모형)

  • 정영미;최상희
    • Journal of the Korean Society for information Management
    • /
    • v.18 no.3
    • /
    • pp.159-178
    • /
    • 2001
  • This paper presents an automatic text summarization model which selects representative sentences from sentence clusters to create a summary. Summary generation experiments were performed on two sets of test documents after learning the optimum environment from a training set. Centroid clustering method turned out to be the most effective in clustering sentences, and sentence weight was found more effective than the similarity value between sentence and cluster centroid vectors in selecting a representative sentence from each cluster. The result of experiments also proves that inverse sentence weight as well as title word weight for terms and location weight for sentences are effective in improving the performance of summarization.

  • PDF