• Title/Summary/Keyword: 생성 요약

Search Result 509, Processing Time 0.025 seconds

Analysis and Comparison of Query focused Korean Document Summarization using Word Embedding (워드 임베딩을 이용한 질의 기반 한국어 문서 요약 분석 및 비교)

  • Heu, Jee-Uk
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.19 no.6
    • /
    • pp.161-167
    • /
    • 2019
  • Recently, the amount of created information has been rising rapidly by dissemination of state of the art and developing of the various web service based on ICT. In additionally, the user has to need a lot of times and effort to find the necessary information which is the user want to know it in the mount of information. Document summarization is the technique that making and providing the summary of given document efficiently by analyzing and extracting the key sentences and words. However, it is hard to apply the previous of word embedding technique to the document which is composed by korean language for analyzing contents in the document due to the character of language. In this paper, we propose the new query-focused korean document summarization by exploiting word embedding technique such as Word2Vec and FastText, and then compare the both result of performance.

Multi-Document Summarization Method of Reviews Using Word Embedding Clustering (워드 임베딩 클러스터링을 활용한 리뷰 다중문서 요약기법)

  • Lee, Pil Won;Hwang, Yun Young;Choi, Jong Seok;Shin, Young Tae
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.11
    • /
    • pp.535-540
    • /
    • 2021
  • Multi-document refers to a document consisting of various topics, not a single topic, and a typical example is online reviews. There have been several attempts to summarize online reviews because of their vast amounts of information. However, collective summarization of reviews through existing summary models creates a problem of losing the various topics that make up the reviews. Therefore, in this paper, we present method to summarize the review with minimal loss of the topic. The proposed method classify reviews through processes such as preprocessing, importance evaluation, embedding substitution using BERT, and embedding clustering. Furthermore, the classified sentences generate the final summary using the trained Transformer summary model. The performance evaluation of the proposed model was compared by evaluating the existing summary model, seq2seq model, and the cosine similarity with the ROUGE score, and performed a high performance summary compared to the existing summary model.

Multi-Document Summarization Using Tag Cluster (태그 클러스터를 이용한 다중문서요약 기법)

  • Heu, Jee-Uk;Jeong, Jin-Woo;Hong, Hyun-Ki;Lee, Dong-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.45-48
    • /
    • 2011
  • 오늘날 인터넷의 빠른 보급으로 인하여 웹 상에 생성되는 문서의 양은 하루가 다르게 늘어나고 있다. 이러한 엄청난 양의 문서들 중 사용자는 자신이 원하는 정보가 담긴 문서를 얻기 위해서는 직접 문서를 검토해야 하며, 많은 시간이 투자 된다는 어려움이 있다. 이러한 사용자들의 어려움을 줄이기 위하여 문서의 핵심을 유지하며 양을 줄이는 다중문서요약기업에 대한 연구가 활발히 진행되어왔다. 본 논문에서는 효율적이고 빠른 문서 요약을 위하여 폭소노미 시스템인 플리커를 통하여 문서 내에 존재하는 각 단어들의 클러스터를 획득하고, 이를 기반으로 단어들의 중요도를 분석하여 중요문장을 추려내는 다중문서요약 기법을 제안한다.

Automatic Summarization of Basketball Video Using the Score Information (스코어 정보를 이용한 농구 비디오의 자동요약)

  • Jung, Cheol-Kon;Kim, Eui-Jin;Lee, Gwang-Gook;Kim, Whoi-Yul
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.32 no.8C
    • /
    • pp.738-744
    • /
    • 2007
  • In this paper, we proposed a method for content based automatic summarization of basketball game videos. For meaningful summary, we used the score information in basketball videos. And the score information is obtained by recognizing the digits on the score caption and analyzing the variation of the score. Generally, important events of basketball are the 3-point shot, one-sided runs, the lead changes, and so on. We have detected these events using score information and made summaries and highlights of basketball video games.

Unsupervised News Article Summarization Using VNA Sets (VNA 집합을 이용한 뉴스기사의 중요문장 추출)

  • Na, Jong-Yeol;Sin, Ji-Ae;Choe, Gi-Seon
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.165-168
    • /
    • 2007
  • 본 연구에서는 문서의 문장들을 순위화하여 추출하는 일반적인 문서 요약 방법론을 소개한다. 첫 번째 단계는 주제와 관련되는 동사, 명사, 형용사(VNA) 단어들의 집합을 구하여 각 문장의 주제 관련성 정도를 결정하며, 두 번째 단계는 단어들의 의존관계를 통해 각 문장의 정보 함유량을 판단한다. 두 개의 방법은 모두 주제와 관련된 정보를 많이 내포하는 문장에 중요도를 부여하고 있다. 이러한 방법은 주제와 연관성이 높고 정보전달성이 높은 문서요약을 만들기 위함이다. 생성된 문서요약본의 성능평가는 문서요약의 결과로 추출된 문장들과 설문에 의해 추출된 문장들의 일치율에 의해 시행되었으며 68%의 일치율을 보였다.

  • PDF

Summarizing User's Daily Life with ConceptNet and KeyGraph (컨셉넷과 키그래프를 이용한 일상생활 요약)

  • Lee, Young-Seol;Kim, Kyung-Joong;Cho, Sung-Bae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.244-249
    • /
    • 2006
  • 모바일 기기에서 수집된 데이터를 바탕으로 사용자의 기억을 되살리거나 사용자 맞춤형 서비스를 제공하기 위해서는 사용자가 하루 동안 수행한 수많은 행동이나 겪은 사건들을 기록할 필요가 있다. 그러나 사용자의 하루 동안 발생한 모든 일을 보여주기 보다는 사용자에게 있어서 중요한 일만 보여주는 것이 사용자의 행동을 분석하고 사용자에게 맞는 서비스를 제공하는 데 더 도움이 될 것이다. 이전의 연구에서는 키그래프를 이용하여 사용자의 하루를 요약하려고 시도하였으나 사용자로부터 얻은 데이터에 직접 키그래프를 적용한 결과로 얻은 데이터는 사람이 직관적으로 그 중요성을 이해하기 힘들었다. 이를 해결하기 위해 보다 상위 수준의 정보에 키그래프를 적용하였다. 본 논문에서는 스마트 폰에서 수집된 GPS 위치 정보를 장소정보로 변경하여 컨셉넷에 입력하고 관련된 개념을 추출한다. 컨셉넷(ConceptNet)은 수많은 어휘들의 연관관계를 의미망 형태로 표현한 것으로 사람이 일상생활에서 이용하는 상식을 포함하고 있다. 컨셉넷에서 추출된 개념들로 문서를 생성하고 생성된 문서에 키그래프 알고리즘을 적용하여 사용자가 수행한 행동에 관련된 개념 중 핵심적인 개념을 추출한다. 이렇게 추출된 개념들은 사용자가 하루 동안 수행한 행동이나 경험을 요약할 수 있는 정보가 된다. 3명의 사용자로부터 수집한 데이터로 제안한 방법의 성능을 평가해 본 결과, 직관적으로 중요한 경험에 관계된 개념을 얻을 수 있었다.

  • PDF

Enhanced Meta Process Implementation For Growing Data Warehouse (데이터웨어하우스 성장에 따른 개선된 메타프로세스 구현)

  • Lee, Dong-Won;Moon, Seung-Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.04a
    • /
    • pp.7-9
    • /
    • 2000
  • 데이터 웨어하우스는 기업의 의사 결정 과정을 향상시킬 수 있게 하는 정보기술이다. 대표적인 정의로는 '기업의 의사결정 과정을 지원하기 위한 주제 중심적이고 통합적이며 시간성을 가지는 비휘발성 자료의 집합 '이다.[1] 즉, 기업들이 보유하고 있는 분산된 대량의 데이터를 추출, 변환, 통합하여 요약된 읽기 전용의 데이터베이스로 구축함으로써, 경영분석이나 기업내의 의사 결정 지원 자료로 주로 활용된다. 데이터 웨어하우스의 경우, 일반사용자는 웨어하우스내에 저장된 데이터를 직접 이용하는 경우가 대부분이다. 따라서, 데이터의 구조와 의미에 대한 일반 사용자의 이해가 필요하게 되었다. 즉, 데이터의 추출 및 정제규칙, 데이터의 통합규칙, 요약알고리즘, 데이터 처리스케쥴 등을 알아야만 한다. 메타데이터는 최소한의 데이터 구조, 데이터의 요약에 사용된 알고리즘, 운영 데이터베이스와 데이터 웨어하우스사이의 대응관계와 같은 정보를 포함하여야 한다.[3] 여기서 변환프로세스에 대한 정보를 데이터의 형식에 대한 정보와 일반적인 데이터들과 차별화하여 메타프로세스라 한다.[5] 메타프로세스는 데이터를 변환하여 데이터 웨어하우스에 적재하는 과정에서 생성되는 메타데이터의 일부로써 데이터 웨어하우스에 통합된 자료들이 어떤 변환과정을 거쳐 생성된 자료인지를 알려주는 변환프로세스에 관한 정보를 제공한다. 본 연구에서는 대부분의 데이터 웨어하우스에서 구현되고 있는 메타데이터들은 데이터 항목의 속성정보를 위주로 한 것이며, 변환 프로세스와 관련된 데이터 관리가 미약하다. 따라서, 데이터 웨어하우스의 메타데이터 중 메타프로세스 정보의 추출 및 관리 시스템을 제안하는 것이다.

  • PDF

A Hybrid Comparing Method of a Similar Frame for Generating Video Summarization Sequences (동영상 요약 시퀀스 생성을 위한 하이브리드 유사 프레임 비교 기법)

  • Ock, Chang-Seok;Kwon, Dae-Gun;Cho, Hwan-Gue
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.394-397
    • /
    • 2012
  • 멀티미디어의 규모가 급격하게 늘어나고 있는 현재, 영화와 같은 동영상은 용량에 있어 사진과 비교했을 때 상당한 크기를 가지고 있고 그만큼 많은 정보를 담고 있다. 이렇게 많은 정보를 얻기 위해 사용자들은 많은 시간을 소비해야 한다. 이러한 비효율적인 측면의 보완을 위해 동영상의 각 프레임의 유사도를 판단하여 유사한 프레임들은 하나로 모으고, 유사하지 않은 프레임들은 구분하여 요약된 시퀀스로 보여줄 수 있는 방법이 필요하다. 이러한 관점에서 봤을 때 동영상은 시간적 순서에 따라 프레임이 배열되어 있고 인근 프레임 간에는 Coherence가 존재한다는 장점이 있다. 따라서 우리는 이러한 장점을 최대한 이용하여 동영상의 요약 시퀀스를 생성하기 위해 일차적으로 필요한 유사 프레임을 비교할 수 있는 기법을 제안한다. 제안하는 기법은 각 프레임의 공간적인 정보를 활용 할 수 있는 특징점 기반의 기법과, 각 프레임의 색 분포 정보를 활용 할 수 있는 히스토그램 기반의 기법을 Hybrid하게 적용하여 유사 프레임을 판단한다. 제안한 기법을 통해 도출한 결과를 통계학적으로 검증을 위해 널리 사용되는 Precision과 Recall을 이용하여 검증한다.

News Recommendation Exploiting Document Summarization based on Deep Learning (딥러닝 기반의 문서요약기법을 활용한 뉴스 추천)

  • Heu, Jee-Uk
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.22 no.4
    • /
    • pp.23-28
    • /
    • 2022
  • Recently smart device(such as smart phone and tablet PC) become a role as an information gateway, using of the web news by multiple users from the web portal has been more important things. However, the quantity of creating web news on the web makes hard to catch the information which the user wants and confuse the users cause of the similar and repeated contents. In this paper, we propose the news recommend system using the document summarization based on KoBART which gives the selected news to users from the candidate news on the news portal. As a result, our proposed system shows higher performance and recommending the news efficiently by pre-training and fine-tuning the KoBART using collected news data.

Improving the effectiveness of document extraction summary based on the amount of sentence information (문장 정보량 기반 문서 추출 요약의 효과성 제고)

  • Kim, Eun Hee;Lim, Myung Jin;Shin, Ju Hyun
    • Smart Media Journal
    • /
    • v.11 no.3
    • /
    • pp.31-38
    • /
    • 2022
  • In the document extraction summary study, various methods for selecting important sentences based on the relationship between sentences were proposed. In the Korean document summary using the summation similarity of sentences, the summation similarity of the sentences was regarded as the amount of sentence information, and the summary sentences were extracted by selecting important sentences based on this. However, the problem is that it does not take into account the various importance that each sentence contributes to the entire document. Therefore, in this study, we propose a document extraction summary method that provides a summary by selecting important sentences based on the amount of quantitative and semantic information in the sentence. As a result, the extracted sentence agreement was 58.56% and the ROUGE-L score was 34, which was superior to the method using only the combined similarity. Compared to the deep learning-based method, the extraction method is lighter, but the performance is similar. Through this, it was confirmed that the method of compressing information based on semantic similarity between sentences is an important approach in document extraction summary. In addition, based on the quickly extracted summary, the document generation summary step can be effectively performed.