• Title/Summary/Keyword: 중심 문장 특성

Search Result 74, Processing Time 0.026 seconds

Method of Extracting the Topic Sentence Considering Sentence Importance based on ELMo Embedding (ELMo 임베딩 기반 문장 중요도를 고려한 중심 문장 추출 방법)

  • Kim, Eun Hee;Lim, Myung Jin;Shin, Ju Hyun
    • Smart Media Journal
    • /
    • v.10 no.1
    • /
    • pp.39-46
    • /
    • 2021
  • This study is about a method of extracting a summary from a news article in consideration of the importance of each sentence constituting the article. We propose a method of calculating sentence importance by extracting the probabilities of topic sentence, similarity with article title and other sentences, and sentence position as characteristics that affect sentence importance. At this time, a hypothesis is established that the Topic Sentence will have a characteristic distinct from the general sentence, and a deep learning-based classification model is trained to obtain a topic sentence probability value for the input sentence. Also, using the pre-learned ELMo language model, the similarity between sentences is calculated based on the sentence vector value reflecting the context information and extracted as sentence characteristics. The topic sentence classification performance of the LSTM and BERT models was 93% accurate, 96.22% recall, and 89.5% precision, resulting in high analysis results. As a result of calculating the importance of each sentence by combining the extracted sentence characteristics, it was confirmed that the performance of extracting the topic sentence was improved by about 10% compared to the existing TextRank algorithm.

Text Structuring using Centering Theory (중심화 이론을 이용한 텍스트 구조화)

  • Roh, Ji-Eun;Na, Seung-Hoon;Lee, Jong-Hyeok
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.6
    • /
    • pp.572-583
    • /
    • 2007
  • This paper investigates Centering-based metrics to evaluate ordering of utterances for text structuring. We point out a problem of MIN.NOCB metric which has been regarded as the simplest and best measure to evaluate coherence of ordering within Centering framework, and propose a new Centering-based metric, MAX.CPS as an alternative or supplementary one. This paper introduces a framework which pre-estimates the effectiveness of a metric on a given input ordering, and selects an applicable metric according to the pre-estimation result. Using this framework, we propose a new policy which can generate more optimal ordering within Centering framework. Moreover, we evaluate several kinds of Cf-ranking methods in terms of Centering-based metrics, and find that simply ranking entities by their linear order is generally the most suitable because of characteristics in Korean.

A Long Sentence Segmentation for the Efficient Analysis in English-Korean Machine Translation (영한 기계번역에서 효율적인 분석을 위한 긴 문장의 분할)

  • Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.89-96
    • /
    • 2005
  • 본 연구에서는 영한 기계 번역에서 20단어 이상의 긴 문장을 보다 정확히 분석하기 위하여 문장을 복수개의 의미 있는 절로 분할하고자 한다. 긴 문장은 구문 분석을 시도할 때, 시간적으로 또는 공간적으로 급격히 증가하는 자원을 소모시킨다. 이러한 문제를 해결하기 위하여, 본 연구에서는 긴 문장에서 분할 가능한 지점을 인식하여 이러한 지점을 중심으로 여러 개의 절을 생성한 후, 이 절을 개별적으로 분석하고자 하였다. 문장을 분할하기 위해서 일단 문장 내부에 존재하고 있는 분할이 가능한 지점을 선택하고, 선택된 지점을 중심으로 문맥 정보를 표현하는 입력 벡터를 생성하였다. 그리고 Support Vector Machine (SVM)을 이용하여 이러한 후보 지점의 특성을 학습하여 향후 긴 문장이 입력되었을 때 보다 정확하게 분할점을 찾고자 하였다. 본 논문에서는 SVM의 보다 좋은 학습과 분류를 위하여 내부 커널로써 다항 커널 (polynomial kernel)을 사용하였다. 그리고 실험을 통하여 약 0.97의 f-measure 값을 얻을 수 있었다.

  • PDF

한글 인식과정에서의 안구운동 특성분석

  • 김창희;이동춘
    • Proceedings of the ESK Conference
    • /
    • 1995.04a
    • /
    • pp.199-208
    • /
    • 1995
  • 본 연구에서는 사람이 한글을 읽는 동안에 문자인식에 영향을 미치는 문장구조의 여러 요소 중 글자크기와 줄간간격에 대한 주시시간과 오독률을 분석함으로써 한글 인식에 있어서 사람에게 적합한 문장구조를 제시하는 데 그 목적이 있다고 할 수 있다. 실험에서는 남녀 각 5명씩의 피실험자에게 아이카메라를 착용시킨 후, 40cm 거리에서 문장중심과 피실험자의 시선이 일치되게 하여, 각기 다른 문장구조를 가 지는 9개의 실험예문(B5용지)을 소리내어 읽게 하였다. 실험결과로 부터 글자크기 와 줄간간격은 읽기수행도(reading performance)에 영향을 미치는 것으로 나타났다. 이를 이용하여 인쇄물의 제작시에 적용시켜 읽기수행도를 제고시킬 수 있다.

  • PDF

Graph Learning System for Analyzing Bias among News Using Keyword Distance Model (주제어 문장거리를 이용한 뉴스 편향성 분석 그래프 학습)

  • Cho Chanwoo;Cho Chanhyung
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.533-538
    • /
    • 2023
  • 문서에서 저자의 의도와 주제, 그 안에 포함된 감성을 분석하는 것은 자연어 연구의 핵심적인 주제이다. 이와 유사하게 특정 글에 포함된 정치적 문화적 편향을 분석하는 것 역시 매우 의미 있는 연구주제이다. 우리는 최근 발생한 한 사건에 대하여 여러 신문사와 해당 신문사에서 생산한 기사를 중심으로 해당 글의 정치적 편향을 정량화 하는 방법을 제시한다. 그 방법은 선택된 주제어들의 문장 공간에서의 거리를 중심으로 그래프를 생성하고, 생성된 그래프의 기계학습을 통하여 편향과 특징을 분석하였다. 그리고 그 그래프들의 시간적 변화를 추적하여 특정 신문사에서 특정 사건에 대한 입장이 시간적으로 어떻게 변화하였는지를 동적으로 보여주는 그래프 애니메이션 시스템을 개발하였다. 실험을 위하여 최근 이슈에 대하여 12개의 신문사에서 약 2000여 개의 기사를 수집하였다. 그 결과, 약 82%의 정확도로 일반적으로 알려진 정치적 편향을 예측할 수 있었다. 또한, 학습 데이터에 쓰이지 않은 신문기사를 활용하여도 같은 정도의 정확도를 보임을 알 수 있었다. 우리는 이를 통하여 신문기사에서의 정치적 편향은 작성자나 신문사의 특성이 아니라 주제어들의 문장 공간에서의 거리 관계로 특성화할 수 있음을 보였다. 할 수 있다.

  • PDF

The semantic of Korean Reiprocal Expressions (한국어 상호 표현(Reciprocal Expressions)의 의미 상호성 술어와 배분적 양화사의 의미 기여를 중심으로)

  • 조지은;남승호;이정민
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.05a
    • /
    • pp.121-127
    • /
    • 2000
  • 지금까지 상호 표현(reciprocal expressions)이나 상호성(reciprocity)의 개념에 대한 연구는 영어의 'each other'를 중심으로 이뤄졌다. 그런데 한국어의 상호 대명사 '서로'는 'each other'와 달리, 그 자체로 배분성(distributivity)을 갖지 않는다. 오히려 다양한 배분 표현들과 공기함으로써 상호성을 구체화한다. 특히, 배분적 양화사는 상호 표현이 쓰인 문장에 강한 상호성(strong reciprocity)을 부여한다. 이외에도 한국어의 상호성 실현에는 함께 쓰인 술어가 중요한 역할을 한다. 우선, 술어가 대칭적(symmetric)이거나, 상호 대명사(reciprocal)'서로'를 논항으로 취하면, 문장은 일차적으로 상호성을 갖게된다. 또한, 술어가 반가법(anti-additive)함수로서의 의미 특성을 갖는 경우는, 논항이 복수 연접 명사구로 구성되었을 때, 논항을 그룹(group)으로 해석하는 것을 선호한다. 본고는 상호성 술어(reciprocated predicates)와 배분적 양화사의 의미 기여를 중심으로, 한국어 상호 표현의 다양한 의미·통사적 특징을 밝히는 것을 목표로 하며, 이를 통해 상호성의 개념이 고정적이거나 문맥에 따라, 임의로 정해지는 무질서한 것이 아니라, 함께 쓰인 배분적 양화사나 술어의 의미 특성에 따라 합성적으로(compositionally) 실현되는 것임을 보이고자 하였다.

  • PDF

Comprehension Processes and Stuctures of Korean Relative Clause Sentence (한국어 관계절 문장의 이해 과정과 구조)

  • 김영진
    • Korean Journal of Cognitive Science
    • /
    • v.6 no.2
    • /
    • pp.5-27
    • /
    • 1995
  • Based on the given data if three experiments that measured word-by-word reading times of the Korean relative-clause sentences,parsing strategies and performance structures in comprehending Korean sentences were suggested.First,results of the significantily longer reading time of nouns than verbs suggested that Korean parsing processing would be primarily occurred at nouns.Seond,four parsing strategies were proposed to explain increased reading times,working memory loads,and parallel function effects.Third,performance structures of sentence comprehension were constructed from the interword reading time differences.The proposed strategies and structures seem to account for the patterns of word-by-word reading times of the five types of the Korean relative-clause se various ideas for further experimentation were discussed.

  • PDF

Syntactic and Semantic Integration Processes during Korean Sentence Comprehension: using ERPs as an neurophysiological index (ERP로 확인된 한국어 문장 이해과정에서의 통사 및 의미 처리특성 연구)

  • Kim, Choong-Myung;Lee, Kyoung-Min
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.259-263
    • /
    • 2004
  • 본 연구는 머리어-후행언어(head-final language)로 분류되는 한국어의 통사 및 의미 처리 과정의 언어간(cross linguistic) 일반성과 언어내(intra-language) 특이성을 ERP(event- related potentials) 실험결과를 통해 알아보고자 하였다. 한국어 문장처리 과정에서의 통사 및 의미 처리특성은, 우선 이들을 지표하는 각각의 오류문을 통해 P600과 N400 이라는 언어일반의 처리과정을 보이면서도 각 성분의 영역분포는 오류가 출현된 위치에 따라 분기하고 있음을 관찰할 수 있었다. 곧, 문미위치의 술어오류에서 중심-두정 부위의 활성화 우세로 각 오류간 영역분화를 보이는 패턴을 새롭게 확인하였다. 이로써 오류의 유형별 재분류과정으로 드러난 오류출현 위치가 오류의 유형 내에 영향을 끼치는 한 변수가 될 수 있으며. 이는 이들 보어 및 술어를 구성하는 고유의 범주 특성으로 해석할 수 있는 근거가 될 수 있음도 아울러 확인하였다.

  • PDF

Building an RST-tagged Corpus and its Classification Scheme for Korean News Texts (한국어 수사구조 분류체계 수립 및 주석 코퍼스 구축)

  • Noh, Eunchung;Lee, Yeonsoo;Kim, YeonWoo;Lee, Do-Gil
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.33-38
    • /
    • 2016
  • 수사구조는 텍스트의 각 구성 성분이 맺고 있는 관계를 의미하며, 필자의 의도는 논리적인 구조를 통해서 독자에게 더 잘 전달될 수 있다. 따라서 독자의 인지적 효과를 극대화할 수 있도록 수사구조를 고려하여 단락과 문장 구조를 구성하는 것이 필요하다. 그럼에도 불구하고 지금까지 수사구조에 기초한 한국어 분류체계를 만들거나 주석 코퍼스를 설계하려는 시도가 없었다. 본 연구에서는 기존 수사구조 이론을 기반으로, 한국어 보도문 형식에 적합한 30개 유형의 분류체계를 정제하고 최소 담화 단위별로 태깅한 코퍼스를 구축하였다. 또한 구축한 코퍼스를 토대로 중심문장을 비롯한 문장 구조의 특징과 분포 비율, 신문기사의 장르적 특성 등을 살펴봄으로써 텍스트에서 응집성의 실현 양상과 구문상의 특징을 확인하였다. 본 연구는 한국어 담화 구문에 적합한 수사구조 분류체계를 설계하고 이를 이용한 주석 코퍼스를 최초로 구축하였다는 점에서 의의를 갖는다.

  • PDF

Clause Boundary Identification Using Support Vector Machines (SVM모델을 이용한 절 경계 인식)

  • Lee, Hyun-Ju;Kim, Sang-Soo;Park, Seong-Bae;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.151-156
    • /
    • 2004
  • 여러 개의 절로 이루어진 긴 문장에서 절 단위를 인식해냄으로써 구문분석의 복잡도를 크게 줄일 수 있다. 본 논문에서는 SVM 모델을 이용하여 한국어 문장에서 절의 경계를 인식하는 방법을 제안하였다. 첫 번째 단계로 중심어가 후행하는 한국어 문장의 특성을 고려하여 절의 끝점을 먼저 찾고, 첫 번째 단계의 결과인 절의 끝점 정보와 절의 끝점 인식을 위한 정보보다 더 전역적인 정보를 이용해 절의 시작점을 인식하는 두 번째 단계로 나누어 진행하였다. 구문구조 부착 말뭉치를 이용하여 학습하고 실험한 결과, F-score 86.87%와 단어 단위의 정확도 96.63%의 성능을 나타내었다.

  • PDF