Search | Korea Science

A Dynamic Signature Declustering Method using Signature Difference (요약 차이를 이용한 요약화일 동적 분산 기법)

Kang, Hyung-Il;Kang, Seung-Heon;Yoo, Jae-Soo;Im, Byoung-Mo
- Journal of KIISE:Databases
- /
- v.27 no.1
- /
- pp.79-89
- /
- 2000
For processing signature file in parallel, an effective signature file declustering method is needed. The Linear Code Decomposition Method(LCDM) used for the Hamming Filter may give a good performance in some cases, but due to its static property, it fails to evenly decluster signature file when signature are skewed. In addition, it has other problems such as limited scalability and non-determinism. In this paper we propose a new signature file declustering method, called Inner-product method, which overcomes those problems in the LCDM. The Inner-product method declusters signature file dynamically based on the signature difference which is computed by using signature inner product. we show through the simulation experiment that the Inner-product outperforms the LCDM under various data workloads.
PDF

Hybrid Document Summarization using a TextRank Algorithm and an Attentive Recurrent Neural Networks (TextRank 알고리즘과 주의 집중 순환 신경망을 이용한 하이브리드 문서 요약)

Jeong, Seok-won;Lee, Hyeon-gu;Kim, Harksoo
- Annual Conference on Human and Language Technology
- /
- 2017.10a
- /
- pp.47-50
- /
- 2017
문서 요약은 입력 문서가 가진 주제를 유지하면서 크기가 축약된 새로운 문서를 생성하는 것이다. 문서 요약의 방법론은 크게 추출 요약과 추상 요약으로 구분된다. 추출 요약의 경우 결과가 문서 전체를 충분히 대표하지 못하거나 문장들 간의 호응이 떨어지는 문제점이 있다. 최근에는 순환 신경망 구조의 모델을 이용한 추상 요약이 활발히 연구되고 있으나, 이러한 방법은 입력이 길어지는 경우 정보가 누락된다는 문제점을 가지고 있다. 본 논문에서는 이러한 단점들을 해소하기 위해 추출 요약으로 입력 문서의 중요한 일부 문장들을 선별하고 이를 추상 요약의 입력으로 사용했을 때의 성능 변화를 관찰한다. 추출 요약을 통해 원문 대비 30%까지 문서를 요약한 후 요약을 생성했을 때, ROUGE-1 0.2802, ROUGE-2 0.1294, ROUGE-L 0.3254의 성능을 보였다.
PDF

Hybrid Document Summarization using a TextRank Algorithm and an Attentive Recurrent Neural Networks (TextRank 알고리즘과 주의 집중 순환 신경망을 이용한 하이브리드 문서 요약)

Jeong, Seok-won;Lee, Hyeon-gu;Kim, Harksoo
- 한국어정보학회:학술대회논문집
- /
- 2017.10a
- /
- pp.47-50
- /
- 2017
문서 요약은 입력 문서가 가진 주제를 유지하면서 크기가 축약된 새로운 문서를 생성하는 것이다. 문서 요약의 방법론은 크게 추출 요약과 추상 요약으로 구분된다. 추출 요약의 경우 결과가 문서 전체를 충분히 대표하지 못하거나 문장들 간의 호응이 떨어지는 문제점이 있다. 최근에는 순환 신경망 구조의 모델을 이용한 추상 요약이 활발히 연구되고 있으나, 이러한 방법은 입력이 길어지는 경우 정보가 누락된다는 문제점을 가지고 있다. 본 논문에서는 이러한 단점들을 해소하기 위해 추출 요약으로 입력 문서의 중요한 일부 문장들을 선별하고 이를 추상 요약의 입력으로 사용했을 때의 성능 변화를 관찰한다. 추출 요약을 통해 원문 대비 30%까지 문서를 요약한 후 요약을 생성했을 때, ROUGE-1 0.2802, ROUGE-2 0.1294, ROUGE-L 0.3254의 성능을 보였다.
PDF

Category-wise Neural Summarizer with Class Activation Map (클래스 활성화 맵을 이용한 카테고리 의존적 요약)

Kim, So-Eon;Park, Seong-Bae
- Annual Conference on Human and Language Technology
- /
- 2019.10a
- /
- pp.287-292
- /
- 2019
다양한 매체를 통해 텍스트 데이터가 빠르게 생성되면서 요약된 텍스트에 대한 수요가 증가하고 있다. 시퀀스-투-시퀀스 모델의 등장과 attention 기법의 출현은 추상적 요약의 난도를 낮추고 성능을 상승시켰다. 그러나 그동안 진행되어 온 attention 기반의 시퀀스-투-시퀀스 모델을 통한 요약 관련 연구들은 요약 시 텍스트의 카테고리 정보를 이용하지 않았다. 텍스트의 카테고리 정보는 Class Activation Map(CAM)을 통해 얻을 수 있는데, 텍스트를 요약할 때 핵심이 되는 단어와 CAM에서 높은 수치를 보이는 단어가 상당수 일치한다는 사실은 요약문 생성이 텍스트의 카테고리에 의존적일 필요가 있음을 증명한다. 본 논문에서는 요약문 생성 시 집중 정도에 대한 정보를 CAM을 통해 전달하여 attention matrix를 보강할 수 있는 모델을 제안하였다. 해당 모델을 사용하여 요약문을 생성하고 대표적인 요약 성능 지표인 ROUGE로 측정한 결과, attention 기반의 시퀀스-투-시퀀스 모델이 질이 떨어지는 요약문을 생성할 때 attention의 성능을 보강하여 요약문의 질을 높일 수 있음을 알 수 있었다.
PDF

Text Extraction and Summarization from Web News (웹 뉴스의 기사 추출과 요약)

Han, Kwang-Rok;Sun, Bok-Keun;Yoo, Hyoung-Sun
- Journal of the Korea Society of Computer and Information
- /
- v.12 no.5
- /
- pp.1-10
- /
- 2007
Many types of information provided through the web including news contents contain unnecessary clutters. These clutters make it difficult to build automated information processing systems such as the summarization, extraction and retrieval of documents. We propose a system that extracts and summarizes news contents from the web. The extraction system receives news contents in HTML as input and builds an element tree similar to DOM tree, and extracts texts while removing clutters with the hyperlink attribute in the HTML tag from the element tree. Texts extracted through the extraction system are transferred to the summarization system, which extracts key sentences from the texts. We implement the summarization system using co-occurrence relation graph. The summarized sentences of this paper are expected to be transmissible to PDA or cellular phone by message services such as SMS.
PDF

Summary Generation of a Document with Out-of-vocabulary Words (어휘 사전에 없는 단어를 포함한 문서의 요약문 생성 방법)

Lee, Tae-seok;Kang, Seung-Shik
- Annual Conference on Human and Language Technology
- /
- 2018.10a
- /
- pp.530-531
- /
- 2018
문서 자동 요약은 주요 단어 또는 문장을 추출하거나 문장을 생성하는 방식으로 요약한다. 최근 연구에서는 대량의 문서를 딥러닝하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 추출 요약이나 생성 요약 모두 핵심 단어를 인식하는 것이 매우 중요하다. 학습할 때 각 단어가 문장에서 출현한 패턴으로부터 의미를 인식하고 단어를 선별하여 요약한다. 결국 기계학습에서는 학습 문서에 출현한 어휘만으로 요약을 한다. 따라서 학습 문서에 출현하지 않았던 어휘가 포함된 새로운 문서의 요약에서 기존 모델이 잘 작동하기 어려운 문제가 있다. 본 논문에서는 학습단계에서 출현하지 않은 단어까지도 중요성을 인식하고 요약문을 생성할 수 있는 신경망 모델을 제안하였다.
PDF

Multi Sentence Summarization Method using Similarity Clustering of Word Embedding (워드 임베딩의 유사도 클러스터링을 통한 다중 문장 요약 생성 기법)

Lee, Pil-Won;Song, Jin-su;Shin, Yong-Tae
- Proceedings of the Korea Information Processing Society Conference
- /
- 2021.05a
- /
- pp.290-292
- /
- 2021
최근 인코더-디코더 구조의 자연어 처리모델이 활발하게 연구가 이루어지고 있다. 인코더-디코더기반의 언어모델은 특히 본문의 내용을 새로운 문장으로 요약하는 추상(Abstractive) 요약 분야에서 널리 사용된다. 그러나 기존의 언어모델은 단일 문서 및 문장을 전제로 설계되었기 때문에 기존의 언어모델에 다중 문장을 요약을 적용하기 어렵고 주제가 다양한 여러 문장을 요약하면 요약의 성능이 떨어지는 문제가 있다. 따라서 본 논문에서는 다중 문장으로 대표적이고 상품 리뷰를 워드 임베딩의 유사도를 기준으로 클러스터를 구성하여 관련성이 높은 문장 별로 인공 신경망 기반 언어모델을 통해 요약을 수행한다. 제안하는 모델의 성능을 평가하기 위해 전체 문장과 요약 문장의 유사도를 측정하여 요약문이 원문의 정보를 얼마나 포함하는지 실험한다. 실험 결과 기존의 RNN 기반의 요약 모델보다 뛰어난 성능의 요약을 수행했다.
https://doi.org/10.3745/PKIPS.y2021m05a.290 인용 PDF

Learning Contextual Meaning Representations of Named Entities for Correcting Factual Inconsistent Summary (개체명 문맥의미표현 학습을 통한 기계 요약의 사실 불일치 교정)

Park, Junmo;Noh, Yunseok;Park, Seyoung
- Annual Conference on Human and Language Technology
- /
- 2020.10a
- /
- pp.54-59
- /
- 2020
사실 불일치 교정은 기계 요약 시스템이 요약한 결과를 실제 사실과 일치하도록 만드는 작업이다. 실제 요약 생성연구에서 가장 공통적인 문제점은 요약을 생성할 때 잘못된 사실을 생성하는 것이다. 이는 요약 모델이 실제 서비스로 상용화 하는데 큰 걸림돌이 되는 부분 중 하나이다. 본 논문에서는 원문으로부터 개체명을 가져와 사실과 일치하는 문장으로 고치는 방법을 제안한다. 이를 위해서 언어 모델이 개체명에 대한 문맥적 표현을 잘 생성할 수 있도록 학습시킨다. 그리고 학습된 모델을 이용하여 원문과 요약문에 등장한 개체명들의 문맥적 표현 비교를 통해 적절한 단어로 교체함으로써 요약문의 사실 불일치를 해소한다. 제안 모델을 평가하기 위해 추상 요약 데이터를 이용해 학습데이터를 만들어 학습하고, 실제 시나리오에서 적용가능성을 검증하기 위해 모델이 요약한 요약문을 이용해 실험을 수행했다. 실험 결과, 자동 평가와 사람 평가에서 제안 모델이 비교 모델보다 높은 성능을 보여주었다.
PDF

Document Summarization using Semantic Feature and Hadoop (하둡과 의미특징을 이용한 문서요약)

Kim, Chul-Won
- Journal of the Korea Institute of Information and Communication Engineering
- /
- v.18 no.9
- /
- pp.2155-2160
- /
- 2014
In this paper, we proposes a new document summarization method using the extracted semantic feature which the semantic feature is extracted by distributed parallel processing based Hadoop. The proposed method can well represent the inherent structure of documents using the semantic feature by the non-negative matrix factorization (NMF). In addition, it can summarize the big data document using Hadoop. The experimental results demonstrate that the proposed method can summarize the big data document which a single computer can not summarize those.
https://doi.org/10.6109/jkiice.2014.18.9.2155 인용 PDF KSCI

Program Slicing using Abstract Interpretation (요약 해석을 이용한 프로그램 슬라이싱)

Jeong, In-Sang;Chang, Byeong-Mo
- Journal of KIISE:Software and Applications
- /
- v.28 no.8
- /
- pp.551-559
- /
- 2001
정적 슬라이싱과 동적 슬라이싱의 차이는 동적 슬라이싱은 프로그램에 주어진 입력을 가정하는 반면에 정정 슬라이싱은 입력에 대한 가정을 하지 않는다는 점이다. 동적 슬라이싱은 실행-시간 정보를 이용할 수 있으므로 정적 슬라이싱보다 적은 슬라이스를 만들 수 있으나 특정 입력 상태에만 적용될 수 있다는 제한을 갖는다. 이 논문은 초기 상태들의 집합에 대해서 프로그래을 슬라이싱하는 요약 프로그램 슬라이싱이라는 새로운 기법을 제시한다. 이 방법은 프로그램으로부터 슬라이스를 구하는데 요약 해석을 이용한다. 요약 해석을 프로그램 실행 없이 프로그램의 실행-시간 동작에 대한 안전한 정보를 제공한다. 따라서 결과적으로 얻은 요약 슬라이스는 주어진 입력 상태들의 집합에 대해서 정적으로 계산되었다는 점에서 동적 슬라이스와는 다르다. 또한 요약 프로그램 슬라이싱은 배열과 같은 자료구조를 정적 슬라이싱보다 정확하게 다룰 수 있으며 슬라이스 크기도 줄일 수 있다.
PDF

Search Result 1,976, Processing Time 0.025 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)