• Title/Summary/Keyword: 추상 요약

Search Result 23, Processing Time 0.026 seconds

Hybrid Document Summarization using a TextRank Algorithm and an Attentive Recurrent Neural Networks (TextRank 알고리즘과 주의 집중 순환 신경망을 이용한 하이브리드 문서 요약)

  • Jeong, Seok-won;Lee, Hyeon-gu;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.47-50
    • /
    • 2017
  • 문서 요약은 입력 문서가 가진 주제를 유지하면서 크기가 축약된 새로운 문서를 생성하는 것이다. 문서 요약의 방법론은 크게 추출 요약과 추상 요약으로 구분된다. 추출 요약의 경우 결과가 문서 전체를 충분히 대표하지 못하거나 문장들 간의 호응이 떨어지는 문제점이 있다. 최근에는 순환 신경망 구조의 모델을 이용한 추상 요약이 활발히 연구되고 있으나, 이러한 방법은 입력이 길어지는 경우 정보가 누락된다는 문제점을 가지고 있다. 본 논문에서는 이러한 단점들을 해소하기 위해 추출 요약으로 입력 문서의 중요한 일부 문장들을 선별하고 이를 추상 요약의 입력으로 사용했을 때의 성능 변화를 관찰한다. 추출 요약을 통해 원문 대비 30%까지 문서를 요약한 후 요약을 생성했을 때, ROUGE-1 0.2802, ROUGE-2 0.1294, ROUGE-L 0.3254의 성능을 보였다.

  • PDF

Hybrid Document Summarization using a TextRank Algorithm and an Attentive Recurrent Neural Networks (TextRank 알고리즘과 주의 집중 순환 신경망을 이용한 하이브리드 문서 요약)

  • Jeong, Seok-won;Lee, Hyeon-gu;Kim, Harksoo
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.47-50
    • /
    • 2017
  • 문서 요약은 입력 문서가 가진 주제를 유지하면서 크기가 축약된 새로운 문서를 생성하는 것이다. 문서 요약의 방법론은 크게 추출 요약과 추상 요약으로 구분된다. 추출 요약의 경우 결과가 문서 전체를 충분히 대표하지 못하거나 문장들 간의 호응이 떨어지는 문제점이 있다. 최근에는 순환 신경망 구조의 모델을 이용한 추상 요약이 활발히 연구되고 있으나, 이러한 방법은 입력이 길어지는 경우 정보가 누락된다는 문제점을 가지고 있다. 본 논문에서는 이러한 단점들을 해소하기 위해 추출 요약으로 입력 문서의 중요한 일부 문장들을 선별하고 이를 추상 요약의 입력으로 사용했을 때의 성능 변화를 관찰한다. 추출 요약을 통해 원문 대비 30%까지 문서를 요약한 후 요약을 생성했을 때, ROUGE-1 0.2802, ROUGE-2 0.1294, ROUGE-L 0.3254의 성능을 보였다.

  • PDF

BART with Random Sentence Insertion Noise for Korean Abstractive Summarization (무작위 문장 삽입 노이징을 적용한 BART 기반의 한국어 문서 추상 요약)

  • Park, Juhong;Kwon, Hongseok;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.455-458
    • /
    • 2020
  • 문서 요약은 입력 문서의 핵심 내용을 파악하여 짧고 간결한 문장으로 나타내는 과정이다. 최근에는 문서 요약을 위해 사전 학습된 언어 모델을 이용하는 방식이 여럿 제안되고 있지만, 이러한 언어 모델들은 문서 요약의 특성을 고려하지 않고 설계된 입력 노이즈 방식을 사용하는 한계점이 있다. 본 논문에서는 한국어 문서 추상 요약에 사전 학습 언어 모델인 BART를 도입하고, 입력 문서에 무작위 문장을 삽입하는 노이징 방식을 추가하여 문서 추상 요약 모델의 언어 이해 능력을 향상시키는 방법론을 제안한다. 실험 결과, BART를 도입한 문서 요약 모델의 결과는 다른 요약 모델들의 결과에 비해 전반적으로 품질 향상을 보였으며, BART와 함께 무작위 문장을 삽입하는 노이징 방법은 적은 비율로 삽입하는 경우 추가적인 성능 향상을 보였다.

  • PDF

Sentence Abstraction for Text Summarization (문서요약을 위한 문장추상화)

  • Kim, Gon;Bae, Jae-Hak
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04a
    • /
    • pp.531-534
    • /
    • 2002
  • 본 논문에서는 문서요약의 한 방법으로 문장추상화를 생각하였다. 이에 문장추상화의 판단기준이 되의 한 방법으로 문장추상화를 생각하였다 이에 문장추상화의 판단기준이 되는 요소들을 구문분석기를 통해 얻은 정보와, 문장의 구성성분들이 가지는 온톨로지 정보를 바탕으로 선정하였다. 문장추상화에는 Roget 시소러스에 기반한 온톨로지 OfN, 구문분석기 LGPI+, 그리고 이를 활용하는 문장추상기 SABOT를 이용하였다. 본 논문을 통하여 문장추상화가 문서 과정에 동원할 수 있는 유용한 도구임을 보였다.

  • PDF

Pointer-Generator Networks for Community Question Answering Summarization (Pointer-Generator Networks를 이용한 cQA 시스템 질문 요약)

  • kim, Won-Woo;Kim, Seon-Hoon;Jang, Heon-Seok;Kang, In-Ho;Park, Kwang-Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.126-131
    • /
    • 2018
  • cQA(Community-based Question Answering) 시스템은 사용자들이 질문을 남기고 답변을 작성하는 시스템이다. cQA는 사용자의 편의를 위해 기존의 축적된 질문을 검색하거나 카테고리로 분류하는 기능을 제공한다. 질문의 길이가 길 경우 검색이나 카테고리 분류의 정확도가 떨어지는 한계가 있는데, 이를 극복하기 위해 cQA 질문을 요약하는 모델을 구축할 필요가 있다. 하지만 이러한 모델을 구축하려면 대량의 요약 데이터를 확보해야 하는 어려움이 존재한다. 본 논문에서는 이러한 어려움을 극복하기 위해 cQA의 질문 제목, 본문으로 데이터를 확보하고 필터링을 통해 요약 데이터 셋을 만들었다. 또한 본문의 대표 단어를 이용하여 추상 요약을 하기 위해 딥러닝 기반의 Pointer-generator model을 사용하였다. 실험 결과, 기존의 추출 요약 방식보다 딥러닝 기반의 추상 요약 방식의 성능이 더 좋았으며 Pointer-generator model이 보다 좋은 성능을 보였다.

  • PDF

Sentence Abstraction: A Sentence Revision Methodology for Text Summarization (문장추상화: 문서요약을 위한 문장교열 방법론)

  • Kim, Gon;Bae, Jae-Hak J.
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2002.05a
    • /
    • pp.51-56
    • /
    • 2002
  • 본 논문에서는 문서요약을 위한 문장교열 방법론으로 문장추상화를 생각하였다. 이에 문장추상화의 판단기준이 되는 요소들을 구문분석기를 통해 얻은 정보와, 문장의 구성성분들이 가지는 온톨로지 정보를 바탕으로 선정하였다. 문장추상화에는 Roget 시소러스에 기반한 온톨로지 OfN, 구문분석기 LGPI+ 그리고 이를 활용하는 문장추상기 SABOT를 이용하였다. 본 논문을 통하여 문장추상화가 문서요약을 위한 문장교열 방법의 하나로 가능함을 보였다.

  • PDF

Transformer-based Text Summarization Using Pre-trained Language Model (사전학습 언어 모델을 활용한 트랜스포머 기반 텍스트 요약)

  • Song, Eui-Seok;Kim, Museong;Lee, Yu-Rin;Ahn, Hyunchul;Kim, Namgyu
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.395-398
    • /
    • 2021
  • 최근 방대한 양의 텍스트 정보가 인터넷에 유통되면서 정보의 핵심 내용을 파악하기가 더욱 어려워졌으며, 이로 인해 자동으로 텍스트를 요약하려는 연구가 활발하게 이루어지고 있다. 텍스트 자동 요약을 위한 다양한 기법 중 특히 트랜스포머(Transformer) 기반의 모델은 추상 요약(Abstractive Summarization) 과제에서 매우 우수한 성능을 보이며, 해당 분야의 SOTA(State of the Art)를 달성하고 있다. 하지만 트랜스포머 모델은 매우 많은 수의 매개변수들(Parameters)로 구성되어 있어서, 충분한 양의 데이터가 확보되지 않으면 이들 매개변수에 대한 충분한 학습이 이루어지지 않아서 양질의 요약문을 생성하기 어렵다는 한계를 갖는다. 이러한 한계를 극복하기 위해 본 연구는 소량의 데이터가 주어진 환경에서도 양질의 요약문을 생성할 수 있는 문서 요약 방법론을 제안한다. 구체적으로 제안 방법론은 한국어 사전학습 언어 모델인 KoBERT의 임베딩 행렬을 트랜스포머 모델에 적용하는 방식으로 문서 요약을 수행하며, 제안 방법론의 우수성은 Dacon 한국어 문서 생성 요약 데이터셋에 대한 실험을 통해 ROUGE 지표를 기준으로 평가하였다.

  • PDF

Unsupervised Abstractive Summarization Method that Suitable for Documents with Flows (흐름이 있는 문서에 적합한 비지도학습 추상 요약 방법)

  • Lee, Hoon-suk;An, Soon-hong;Kim, Seung-hoon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.11
    • /
    • pp.501-512
    • /
    • 2021
  • Recently, a breakthrough has been made in the NLP area by Transformer techniques based on encoder-decoder. However, this only can be used in mainstream languages where millions of dataset are well-equipped, such as English and Chinese, and there is a limitation that it cannot be used in non-mainstream languages where dataset are not established. In addition, there is a deflection problem that focuses on the beginning of the document in mechanical summarization. Therefore, these methods are not suitable for documents with flows such as fairy tales and novels. In this paper, we propose a hybrid summarization method that does not require a dataset and improves the deflection problem using GAN with two adaptive discriminators. We evaluate our model on the CNN/Daily Mail dataset to verify an objective validity. Also, we proved that the model has valid performance in Korean, one of the non-mainstream languages.

A Study on the Improvement of the Efficiency of School Report Documentation Using Artificial Intelligence Technology in Natural Language Processing (자연어 처리 인공지능 기술을 활용한 생활기록부 작성 효율성 제고 향상 연구)

  • Seo, Jung-Ho;Kim, Woong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.409-412
    • /
    • 2022
  • 본 논문에서는 대입수시전형에서 생활기록부 입력은 대한민국 입시를 결정하는 매우 중요한 평가자료이다. 30명의 교사를 대상으로 실시한 설문조사를 통해서 교사들이 생활기록부를 작성하는데 가장 많이 참고하는 자료로는 수행평가 결과물, 발표내용, 보고서, 감상문 등의 학습 결과물(90%), 학생들이 작성한 자기평가서(73.3%), 관찰 평가지(50%)로 나타났으며, 80%(24명)의 교사들이 생활기록부를 작성하는데 고충을 겪고 있음을 확인할 수 있었다. 교사들이 느끼는 고충의 원인으로는 학생들의 개인별 특성 파악이 어려워 차별성있게 작성하는 것(76.7%)을 가장 힘들어 하였고, 작성해야 할 많은 수의 학생(60%), 문구를 만드는데 대해 부담(86.7%)을 느끼는 것으로 나타났다. 이 과정에서 교사의 전문성 뿐만 아니라 기계적이고 반복적인 작업도 많이 요구되고 있기 때문에, 생활기록부를 작성하는데에 도움을 줄 수 있는 프로그램 개발이 필요하다고 고안을 내었다. 교사들 역시 반복적이고 일률적인 생활기록부 작성에 도움을 줄 수 있는 프로그램이 있다면 유용하게 활용할 것이라는 응답이 90%였다. 따라서 본 연구에서 자연어 처리 인공지능 기술을 활용하여 교사들이 생활기록부를 작성하는데 있어 기계적이고 단순한 작업을 도와 주는 프로그램 개발에 대한 연구의 필요성을 제시하였다. 제안하는 프로그램은 학생들의 탐구보고서, 토론, 발표, 감상문 등의 생화기록부 작성 참고자료들을 텍스트로 변환하고 추상요약(Abstractive Summarization)을 통해 교사들이 효율적으로 작성하는데 활용될 수 있도록 설계하였다. 연구 결과 생활기록부 작성 참고자료를 텍스트로 변환하는 것과 추상요약을 할 수 있는 개방형 데이터셋까지는 확보하였다. 추상요약을 구현하는 방법에 대해서는 보다 심도 있는 추가연구가 필요하였다. 이를 통해 교사들이 교육 본질에 더욱 충실할 수 있는 환경을 마련하고, 내실 있는 생활기록부 작성이 공교육 신뢰 제고에 밑바탕이 되고자 한다.

  • PDF

Corpus Construction of National Assembly Minutes Summarization for Korean Abstractive Meeting Minutes Summarization (한국어 회의록 생성 요약을 위한 국회 회의록 요약 말뭉치 구축 연구)

  • Younggyun Hahm;Yejee Kang;Seoyoon Park;Yongbin Jeong;Hyunbin Seo;Yiseul Lee;Hyejin Seo;Saetbyol Seo;Hansam Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.192-197
    • /
    • 2022
  • 요약 연구의 주류는 아직 문서를 대상으로 하지만, 최근에는 회의 요약 연구에 대한 관심이 크게 높아지고 있다. 본 연구는 국립국어원 국어 빅데이터 구축 사업의 일환으로 국내에서 아직 연구되지 않은 국회 회의록 생성 요약에 대해 연구를 진행하였으며, 국회 회의록에 대한 생성 요약 데이터세트를 구축하였다. 또한 생성 요약 모델을 통해 구축된 데이터세트에 대한 정량 및 정성적 평가를 진행함으로써 국회 회의록 요약 데이터세트에 대한 평가 및 향후 생성 요약과 회의록 요약의 연구 방향을 모색하였다.

  • PDF