• Title/Summary/Keyword: 문장 추출

Search Result 702, Processing Time 0.03 seconds

Question Similarity Analysis in dialogs with Automatic Feature Extraction (자동 추출 자질을 이용한 대화 속 질의 문장 유사성 분석)

  • Oh, KyoJoong;Lee, DongKun;Lim, Chae-Gyun;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.347-351
    • /
    • 2018
  • 이 논문은 대화 시스템에서 질의를 이해하기 위해 딥 러닝 모델을 통해 추출된 자동 추출 자질을 이용하여 문장의 유사성을 분석하는 방법에 대해 기술한다. 문장 간 유사성을 분석하기 위한 자동 추출 자질로써, 문장 내 표현 순차적 정보를 반영하기 위한 RNN을 이용하여 생성한 문장 벡터와, 어순에 관계 없이 언어 모델을 학습하기 위한 CNN을 이용하여 생성한 문장 벡터를 사용한다. 이렇게 자동으로 추출된 문장 임베딩 자질은 금융서비스 대화에서 입력 문장을 분류하거나 문장 간 유사성을 분석하는데 이용된다. 유사성 분석 결과는 질의 문장과 관련된 FAQ 문장을 찾거나 답변 지식을 찾는데 활용된다.

  • PDF

Method of Extracting the Topic Sentence Considering Sentence Importance based on ELMo Embedding (ELMo 임베딩 기반 문장 중요도를 고려한 중심 문장 추출 방법)

  • Kim, Eun Hee;Lim, Myung Jin;Shin, Ju Hyun
    • Smart Media Journal
    • /
    • v.10 no.1
    • /
    • pp.39-46
    • /
    • 2021
  • This study is about a method of extracting a summary from a news article in consideration of the importance of each sentence constituting the article. We propose a method of calculating sentence importance by extracting the probabilities of topic sentence, similarity with article title and other sentences, and sentence position as characteristics that affect sentence importance. At this time, a hypothesis is established that the Topic Sentence will have a characteristic distinct from the general sentence, and a deep learning-based classification model is trained to obtain a topic sentence probability value for the input sentence. Also, using the pre-learned ELMo language model, the similarity between sentences is calculated based on the sentence vector value reflecting the context information and extracted as sentence characteristics. The topic sentence classification performance of the LSTM and BERT models was 93% accurate, 96.22% recall, and 89.5% precision, resulting in high analysis results. As a result of calculating the importance of each sentence by combining the extracted sentence characteristics, it was confirmed that the performance of extracting the topic sentence was improved by about 10% compared to the existing TextRank algorithm.

Improving the effectiveness of document extraction summary based on the amount of sentence information (문장 정보량 기반 문서 추출 요약의 효과성 제고)

  • Kim, Eun Hee;Lim, Myung Jin;Shin, Ju Hyun
    • Smart Media Journal
    • /
    • v.11 no.3
    • /
    • pp.31-38
    • /
    • 2022
  • In the document extraction summary study, various methods for selecting important sentences based on the relationship between sentences were proposed. In the Korean document summary using the summation similarity of sentences, the summation similarity of the sentences was regarded as the amount of sentence information, and the summary sentences were extracted by selecting important sentences based on this. However, the problem is that it does not take into account the various importance that each sentence contributes to the entire document. Therefore, in this study, we propose a document extraction summary method that provides a summary by selecting important sentences based on the amount of quantitative and semantic information in the sentence. As a result, the extracted sentence agreement was 58.56% and the ROUGE-L score was 34, which was superior to the method using only the combined similarity. Compared to the deep learning-based method, the extraction method is lighter, but the performance is similar. Through this, it was confirmed that the method of compressing information based on semantic similarity between sentences is an important approach in document extraction summary. In addition, based on the quickly extracted summary, the document generation summary step can be effectively performed.

Event Sentence Extraction for Information Extraction (정보 추출을 위한 이벤트 문장 추출)

  • Kim, Tae-Hyun;Lim, Soo-Jong;Yun, Bo-Hyun;Park, Sang-Gyu
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.325-331
    • /
    • 2002
  • 정보추출 시스템의 목적은 관심의 대상이 되는 특정 정보를 선택적으로 찾아내 제시하는데 있다. 따라서 도메인 정보에 의존적인 방법으로 정보추출이 이루어질 수밖에 없고, 이에 따른 도메인 정보 구축의 부담이 컸다. 이러한 부담을 줄이기 위해 본 연구에서는 특정 주제영역과 관련한 문서로부터 자동으로 이벤트 문장을 추출하는 시스템을 제안한다. 이벤트 문장이란, 특정도메인에서 다루어지는 이벤트의 구체적인 내용을 포함하고 있는 문장이다. 이러한 문장을 추출함으로써 기본적인 수준의 정보추출 요구를 만족시킬 수 있을 뿐만 아니라, 주출된 이벤트 문장을 도메인 정보 구축에 활용할 수 있을 것이다. 본 연구에서는 동사, 명사, 명사구, 및 3W 자질을 이용하여 문장추출의 성능을 최대화하기 위한 방안을 제안하고, 세 개의 평가 도메인을 대상으로 실험을 수행하였다. 실험 결과, when 및 where 자질과 동사, 명사. 명사구의 가중치를 이용하여 문장 가중치를 계산함으로써 최적의 이벤트 문장추출 성능을 얻을 수 있음을 알 수 있었다.

  • PDF

Efficient Summarization Using Zero Anaphora Resolution (한국어 영 대용어 처리를 통한 문서요약의 성능 향상)

  • 구상옥;전명희;김미진;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.555-557
    • /
    • 2003
  • 본 논문에서는 보다 간결한 요약문을 생성하기 위하여. 문장 전체를 추출하는 것이 아니라 문장의 일부분을 요약으로 추출한다. 그런데 한국어의 경우 문장 구조상 반복되는 문장성분을 생략하는 영 대용 문제가 빈번하게 발생하기 때문에, 문장의 일부분 추출시. 생략된 성분을 복원하지 않으면 요약문의 의미가 불완전하고 모호해 질 수 있다. 본 논문에서는 문서 안에서 중요한 부분을 추출한 뒤, 생략된 성분을 복원하여 요약문의 가독성을 놓이는 방법을 제안한다. Luhn의 방법을 이용하여 문서내의 중요 클러스터를 추출하였고, 기존의 문장분할 및 영 대용어 복원 알고리즘을 사용하여 생략된 성분을 복원하였다. 본 논문에서 제안된 요약 방법은 신문기사와 같이 문장의 수는 많지 않고, 문장의 길이가 비교적 긴 문서를 짧은 문장으로 요약하는 데 효율적이다.

  • PDF

Clausal Segmentation for Event Sentences Using Named Entity Co-occurrence Information (개체명 공기 정보를 이용한 이벤트 문장의 단문 구조 분석)

  • Lim, Soo-Jong;Kim, Tae-Hyun;Hwang, Yi-Gyu;Yun, Bo-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.593-596
    • /
    • 2002
  • 정보추출이란 자연어로 작성된 문서 집합에서 원하는 정보를 선택하여 구조화된 표현으로 생성하는 것을 말한다. 문장 단위로 정보 추출 작업을 수행할 때 추출되는 정보를 보유한 문장을 이벤트 문장이라고 정의하고 이러한 이벤트 문장의 구조를 분석하여 최종적으로 유용한 정보를 추출하기 위해서는 이벤트 문장의 구조를 파악하기 위해 이벤트 문장을 단문으로 분할하여 구조를 분석한다. 본 연구에서는 단문 구조 분석을 위해 일반적인 한국어 문장의 특성과 용언의 조사 정보를 이용하고 이러한 정보로 분석할 수 없는 문장에 대해서는 공기 정보를 사용한다. 사용되는 공기 정보는 개체명이 많이 사용되는 이벤트 문장의 특성을 이용하기 위하여 개체명으로 확장된 명사(개체명)-조사-용언의 공기 정보를 구축하여 사용한다. 개체명 확장된 공기 정보는 일반 공기 정보에 비해 이벤트 문장에서 F-Measure 기준으로 약 2%의 성능향상을 보인다.

  • PDF

Extracting Comparative Elements from Comparative Sentences (비교 문장으로부터 비교 요소 자동 추출)

  • Yang, Seon;Ko, Young-Joong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.225-228
    • /
    • 2011
  • 본 논문은 비교 마이닝(comparison mining) 의 일환인 비교 요소 자동 추출에 관하여 연구한다. 비교 마이닝은 텍스트 마이닝의 한 분야로서 대용량의 텍스트를 대상으로 비교 관계롤 자동 분석하며, 비교 문장인지 아닌지를 식별하는 단계, 비교 타입을 분류하는 단계, 다양한 비교 요소들을 추출하는 단계, 추출된 요소를 분석 및 요약하는 단계 등을 거치게 된다. 본 연구에서는 특정 타입의 비교 문장이 주어졌을때, 그 문장에서 비교 요소를 자동으로 추출하는 단계의 과제를 수행하며, 우열 비교 타입 및 최상급 타입 문장들을 대상으로 비교 주체, 비교 대상, 비교 술어를 추출한다. 실험 과정으로는, 우선 비교 요소 후보들을 선정하고, 그 후 각 요소별로 확률을 계산하여 가장 높은 수치를 기록한 요소를 정답으로 채택하게 된다. 확률 계산은 지지 벡터 기계 (Support Vector Machine)를 이용한다. 인터넷 상의 다양한 도메인에서 추출된 비교 문장들을 대상으로 비교 요소 추출을 수출한 결과, 정확도 86.81 %의 우수한 성능을 산출 할 수 있었다.

Sentence Cohesion & Subject driving Keywords Extraction for Document Classification (문서 분류를 위한 문장 응집도와 주어 주도의 주제어 추출)

  • Ahn Heui-Kook;Roh Hi-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.463-465
    • /
    • 2005
  • 문서분류 시 문서의 내용을 표현하기 위한 자질로서 사용되는 단어의 출현빈도정보는 해당 문서의 주제어를 표현하기에 취약한 점을 갖고 있다. 즉, 키워드가 문장에서 어떠한 목적(의미)으로 사용되었는지에 대한 정보를 표현할 수가 없고, 문장 간의 응집도가 강한 문장에서 추출되었는지 아닌지에 대한 정보를 표현할 수가 없다. 따라서, 이 정보로부터 문서분류를 하는 것은 그 정확도에 있어서 한계를 갖게 된다. 본 논문에서는 이러한 문서표현의 문제를 해결하기위해, 키워드를 선택할 때, 자질로서 문장의 역할(주어)정보를 추출하여 가중치 부여방식을 통하여 주어주도정보량을 추출하였다. 또한, 자질로서 문장 내 키워드들의 동시출현빈도 정보를 추출하여 문장 간 키워드들의 연관성정도를 시소러스에 담아내었다. 그리고, 이로부터 응집도 정보를 추출하였다. 이 두 정보의 통합으로부터 문서 주제어를 결정함으로서, 문서분류를 위한 주제어 추출 시 불필요한 키워드의 삽입을 줄이고, 동시 출현하는 키워드들에 대한 선택 기준을 제공하고자 하였다. 실험을 통해 한번 출현한 키워드라도, 문장을 주도하는 주어로서 사용될 경우와 응집도 가중치가 높을 경우에 주제어로서의 선택될 가능성이 향상되고, 문서분류를 위해 좀 더 세분화된 키워드 점수화가 가능함을 확인하였다. 따라서, 선택된 주제어가 문서분류의 정확도에 있어서 향상을 가져올 수 있을 것으로 기대한다.

  • PDF

Event Sentence Extraction for Online Trend Analysis (온라인 동향 분석을 위한 이벤트 문장 추출 방안)

  • Yun, Bo-Hyun
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.9
    • /
    • pp.9-15
    • /
    • 2012
  • A conventional event sentence extraction research doesn't learn the 3W features in the learning step and applies the rule on whether the 3W feature exists in the extraction step. This paper presents a sentence weight based event sentence extraction method that calculates the weight of the 3W features in the learning step and applies the weight of the 3W features in the extraction step. In the experimental result, we show that top 30% features by the $TF{\times}IDF$ weighting method is good in the feature filtering. In the real estate domain of the public issue, the performance of sentence weight based event sentence extraction method is improved by who and when of 3W features. Moreover, In the real estate domain of the public issue, the sentence weight based event sentence extraction method is better than the other machine learning based extraction method.

An Extraction Algorithm of Dynamic Program Slice Using Variable-Variable Relationships (변수-변수 관련성을 이용한 동적 프로그램 조각 추출 알고리즘)

  • Kim, Tae-Hee;Kim, Byung-Ki
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.11
    • /
    • pp.2874-2883
    • /
    • 1998
  • 프로그램 조각화 기법은 프로그램을 이해하기 쉬운 조각 단위로 분해하여 소프트웨어 개발자나 유지보수다사 프로그램을 쉽게 이해할 수 있도록 지원한는 방법이다. 본 논문ㅇ세는 변수-변수 관련성을 이용하여 정확하고 수행 가능한 프로그램 조각을 추출하는 동적 프로그램 조각 추축 알고리즘을 제안한다. 각 문장에서 변경되는 변수와 참조되는 변수로 나누어서 변수 집합을 계산하고, 선언부에 있는 문장에 대해 변수-변수 관련성을 계산한다. 변수-변수 관련성을 계산할 때는 선언부의 변수가 다른 문장에서 변경되는 변수로 사용된 경우와 참조되는 변수로 사용된 경우를 별도로 조사하여 변경되는 변수 집합은 무조건 관련 집합에 포함시키고, 문장에서 참조되는 변수들은 문장들을 다시 비교하여 기준 변수와 관련된 문장만을 추출하여 관련 집합에 포함시킨다. 제안한 알고리즘은 C 언어를 대상으로 실험한 결과 정확하고 수행 가능한 동적 조각을 추출하였고, 기존의 방법들보다 관련 문자을 찾기 위한 문장의 비교횟수를 평균 42%까지 감소시켰다. 기준 변수가 많을수록 기준 변수와 관련이 없는 변수가 많을수록 문장의 비교 횟수가 현저하게 감소하였다.

  • PDF