• Title/Summary/Keyword: 생성 요약

Search Result 508, Processing Time 0.025 seconds

Issue summarization scheme based on real-time SNS trend analysis (실시간 SNS 트렌드 분석에 기반한 이슈 요약 기법)

  • Kim, Daeyong;Kim, Daehoon;Hwang, Eenjun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1096-1097
    • /
    • 2013
  • 최근 Twitter를 비롯한 소셜 네트워크 서비스의 급속한 확산으로 인해, 많은 수의 SNS 메시지가 실시간으로 생성되고 있다. 이러한 SNS 상의 모든 글을 읽어보는 것은 현실적으로 불가능하며, 여러 포탈 사이트에서 제공되는 실시간 검색어 순위만으로는 상세 내용을 직관적으로 파악하기 어렵다. 따라서, 이러한 SNS상의 글을 실시간으로 분석하여 최신의 트렌드를 찾고 이와 연관된 내용을 분류 및 요약할 수 있다면, 사용자에게 유용한 최신 정보를 생성하여 제공할 수 있다. 본 논문에서는 Tweet 들을 분석하여 얻은 트렌드 키워드를 기반으로 관련된 Tweet 들을 주제 별로 분류한 후, 각 주제 별로 세부 내용을 요약해서 제공하는 기법을 제안한다. 제안하는 기법은 실시간으로 생성되는 Tweet 내에서 최근 화제가 된 트렌드 및 연관 키워드를 추출해낸다. 그 후, 해당 키워드가 출현한 Tweet 내에서 핵심 키워드를 찾고, 이를 기반으로 Tweet 들을 각각의 주제별로 분류하고 각 주제를 '이슈'로 정의한다. 마지막으로, 특정한 이슈에 해당되는 Tweet들을 분석하여 각 이슈 별로 키워드 리스트 및 단문 형식으로 요약된 줄거리를 생성한다. 제안된 기법을 바탕으로 프로토타입 시스템을 구현하고, 다양한 실험을 통하여 이슈 검출 기법의 유용성 면에서 성능을 평가한다.

A Comparative Study on the Korean Text Extractive Summarization using Pre-trained Language Model (사전 학습 언어 모델을 이용한 한국어 문서 추출 요약 비교 분석)

  • Young-Rae Cho;Kwang-Hyun Baek;Min-Ji Park;Byung Hoon Park;Sooyeon Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.518-521
    • /
    • 2023
  • 오늘날 과도한 정보의 양 속에서 디지털 문서 내 중요한 정보를 효율적으로 획득하는 것은 비용 효율의 측면에서 중요한 요구사항이 되었다. 문서 요약은 자연어 처리의 한 분야로서 원본 문서의 핵심적인 정보를 유지하는 동시에 중요 문장을 추출 또는 생성하는 작업이다. 이 중 추출요약은 정보의 손실 및 잘못된 정보 생성의 가능성을 줄이고 요약 가능하다. 그러나 여러 토크나이저와 임베딩 모델 중 적절한 활용을 위한 비교가 미진한 상황이다. 본 논문에서는 한국어 사전학습된 추출 요약 언어 모델들을 선정하고 추가 데이터셋으로 학습하고 성능 평가를 실시하여 그 결과를 비교 분석하였다.

Generating Literature-Style Sentences based on Summarized Text (요약문 기반 문학 스타일 문장 생성)

  • Bugwang Choe;Eunchan Lee;Sangtae Ahn
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.67-70
    • /
    • 2022
  • 최근 자연어 생성 연구는 딥러닝 기반의 사전 학습 모델을 중심으로 활발하게 연구되고 있다. 하위 분야 중 하나인 텍스트 확장은 입력 텍스트를 출력에 잘 반영하는 것이 무엇보다도 중요하다. 기존 한국어 기반 텍스트 확장 연구의 경우 몇 개의 개념 집합에 기반해 문장을 생성하도록 한다. 그러나 이는 사람의 실제 발화 길이에 비해 짧고 단순한 문장만을 생성한다는 문제점이 존재한다. 본 논문은 이러한 문제점을 개선하면서 문학 스타일의 문장들을 생성하는 모델을 제안하였다. 또한 동일 모델에 대해 학습 데이터의 양에 따른 성능도 비교하였다. 그 결과, 짧은 요약문을 통해 문학 스타일의 여러 문장들을 생성하는 것을 확인하였고, 학습 데이터를 추가한 모델이 성능이 더 높게 나타나는 것을 확인하였다.

  • PDF

A Study on Summarizing Multi-Answers for Question Answering Service (질의응답서비스를 위한 복수 응답 요약에 관한 연구)

  • Choi Sang-Hee
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2006.08a
    • /
    • pp.175-180
    • /
    • 2006
  • 이 연구에서는 질의응답을 기반으로 한 검색 서비스를 이용할 때 이용자가 효율적으로 응답정보를 이용할 수 있도록 검색되는 복수 응답을 요약하는 방안을 제시하였다. 복수 응답을 요약하기 위해서는 질의중심방식과 응답중심방식이 비교되었다. 생성된 요약문을 평가한 결과 응답내용을 중심으로 요약하는 방식이 질의중심으로 요약하는 방식보다 질의에 적합한 문장을 효과적으로 추출하고 중복되는 정보도 줄여주는 것으로 나타났다.

  • PDF

News Clustering and Multi-Document Summarization for Real-time Issue Analysis (실시간 이슈 분석을 위한 뉴스 군집화 및 다중 문서 요약)

  • Yu, Hongyeon;Lee, Seungwoo;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.132-137
    • /
    • 2018
  • 뉴스 기반의 실시간 이슈 분석을 위해서는 실시간으로 생성되는 다중 뉴스 기사 집합을 입력으로 받아 점증적으로 군집화 하고, 각 군집별 정보를 자동으로 요약하는 기술이 필요하다. 기존에는 정적인 데이터 기반의 군집화와 요약 각각에 대한 연구는 활발히 진행되고 있지만, 실시간으로 입력되는 대량의 데이터를 위한 점증적인 군집화와 요약에 대한 연구는 매우 부족하다. 따라서 본 논문에서는 실시간으로 입력되는 대량의 뉴스 기사 집합을 분석하기 위한 점증적이고 계층적인 뉴스 군집화 및 다중 문서 요약 방법을 제안한다. 평가를 위해서 2016년 10월, 11월 두 달간의 실제 데이터를 사용 하였으며, 전문 교육을 받은 연구원들이 Precision at k 기반의 정성평가를 진행하였다. 그 결과, 자동으로 생성된 12개의 군집에서 군집 성능은 평균 66% (상위계층 $l_1$: 82%, 하위계층 $l_2$: 43%), 요약 성능은 평균 92%를 얻었다.

  • PDF

Investigating an Automatic Method for Summarizing and Presenting a Video Speech Using Acoustic Features (음향학적 자질을 활용한 비디오 스피치 요약의 자동 추출과 표현에 관한 연구)

  • Kim, Hyun-Hee
    • Journal of the Korean Society for information Management
    • /
    • v.29 no.4
    • /
    • pp.191-208
    • /
    • 2012
  • Two fundamental aspects of speech summary generation are the extraction of key speech content and the style of presentation of the extracted speech synopses. We first investigated whether acoustic features (speaking rate, pitch pattern, and intensity) are equally important and, if not, which one can be effectively modeled to compute the significance of segments for lecture summarization. As a result, we found that the intensity (that is, difference between max DB and min DB) is the most efficient factor for speech summarization. We evaluated the intensity-based method of using the difference between max-DB and min-DB by comparing it to the keyword-based method in terms of which method produces better speech summaries and of how similar weight values assigned to segments by two methods are. Then, we investigated the way to present speech summaries to the viewers. As such, for speech summarization, we suggested how to extract key segments from a speech video efficiently using acoustic features and then present the extracted segments to the viewers.

PALM for Improving Korean T5: Application to Machine Reading Comprehension & Text Summarization (PALM 기반 한국어 T5 개선: 기계독해 및 텍스트 요약으로의 응용)

  • Park, Eunhwan;Na, Seung-Hoon;Lim, Joon-Ho;Kim, Tae-Hyeong;Choi, Yun-Su;Chang, Du-Seong
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.501-504
    • /
    • 2021
  • 최근 언어 모델은 분류, 기계 독해, 생성 등의 태스크에서 성공적인 결과를 보여주고 있다. 본 논문에서는 최근 많은 관심을 받고 있는 인코더-디코더 구조의 언어 모델인 BART, T5 그리고 PALM을 위키피디아 한국어 데이터 집합으로 사전 학습한 후 기계 독해와 문서 생성 요약 태스크에 대하여 미세 조정을 하고 성능 비교를 한다.

  • PDF

End-to-end Document Summarization using Copy Mechanism and Input Feeding (Copy Mechanism과 Input Feeding을 이용한 End-to-End 한국어 문서요약)

  • Choi, Kyoungho;Lee, Changki
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.56-61
    • /
    • 2016
  • 본 논문에서는 Sequence-to-sequence 모델을 생성요약의 방법으로 한국어 문서요약에 적용하였으며, copy mechanism과 input feeding을 적용한 RNN search 모델을 사용하여 시스템의 성능을 높였다. 인터넷 신문기사를 수집하여 구축한 한국어 문서요약 데이터 셋(train set 30291 문서, development set 3786 문서, test set 3705문서)으로 실험한 결과, input feeding과 copy mechanism을 포함한 모델이 형태소 기준으로 ROUGE-1 35.92, ROUGE-2 15.37, ROUGE-L 29.45로 가장 높은 성능을 보였다.

  • PDF

Multi Sentence Summarization Method using Similarity Clustering of Word Embedding (워드 임베딩의 유사도 클러스터링을 통한 다중 문장 요약 생성 기법)

  • Lee, Pil-Won;Song, Jin-su;Shin, Yong-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.290-292
    • /
    • 2021
  • 최근 인코더-디코더 구조의 자연어 처리모델이 활발하게 연구가 이루어지고 있다. 인코더-디코더기반의 언어모델은 특히 본문의 내용을 새로운 문장으로 요약하는 추상(Abstractive) 요약 분야에서 널리 사용된다. 그러나 기존의 언어모델은 단일 문서 및 문장을 전제로 설계되었기 때문에 기존의 언어모델에 다중 문장을 요약을 적용하기 어렵고 주제가 다양한 여러 문장을 요약하면 요약의 성능이 떨어지는 문제가 있다. 따라서 본 논문에서는 다중 문장으로 대표적이고 상품 리뷰를 워드 임베딩의 유사도를 기준으로 클러스터를 구성하여 관련성이 높은 문장 별로 인공 신경망 기반 언어모델을 통해 요약을 수행한다. 제안하는 모델의 성능을 평가하기 위해 전체 문장과 요약 문장의 유사도를 측정하여 요약문이 원문의 정보를 얼마나 포함하는지 실험한다. 실험 결과 기존의 RNN 기반의 요약 모델보다 뛰어난 성능의 요약을 수행했다.

EyeBERT: Eye tracking based Human Reading for Extractive Text Summarization (EyeBERT: 아이트래킹 기반의 휴먼 리딩을 반영한 추출 요약 기법)

  • Lee, Seolhwa;Hur, Yuna;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.522-526
    • /
    • 2019
  • 추출 요약(Extractive summarization)은 문서내에 주요한 요약정보가 되는 문장 또는 단어를 추출하여 요약을 생성하는 기법이다. 딥러닝 기법들이 많이 발전하면서 요약 기법에도 sequence-to-sequence와 같은 많은 시도들이 있었지만 대부분의 방법론들은 딥러닝의 모델 구조관점으로 접근하거나 요약에 있어서 단순히 입력 텍스트를 넣고 알고리즘이 처리하는 머신 리딩(Machine reading)관점으로 접근한다. 텍스트 요약 태스크 자체는 사람이 텍스트에 대한 정보 파악을 요약문을 통해 빠르게 하고 싶은 궁극적인 목표가 있으므로, 사람이 텍스트 요약에 필요한 인지처리과정을 반영할 필요가 있다. 결국, 기존의 머신 리딩보다는 휴먼 리딩(Human reading)에 관한 이해와 구조적 접근이 필요하다. 따라서 본 연구는 휴먼 리딩을 위한 인지처리과정을 위해 아이트래킹 데이터 기반의 새로운 추출 요약 모델을 제안한다.

  • PDF