• Title/Summary/Keyword: 문장 의미 비교

Search Result 147, Processing Time 0.024 seconds

Reading comparison study through sentence-level comparison (문장 의미 비교를 활용한 독해 시스템 개선 방안 모색)

  • Han, Sangdo;Yu, Hwanjo;Lee, Gary Geunbae;Myaeng, Sung-Hyon
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.270-272
    • /
    • 2018
  • 본 연구에서는 질의-본문 간 문장 비교 정보가 reading comprehension task 의 성능 향상에 도움이 되는지를 확인해 보았다. 기존의 reading comprehension 방법론이 질의-본문 간 의미 비교정보를 활용하지만, 본문 전체를 대상으로 한 비교이기 때문에 문장 단위의 정보가 활용되지 못하는 단점이 있었다. 실험에 사용한 데이터는 대표적인 RC 데이터 중 하나인 NewsQA[5] 를 이용하였으며, 질의-본문 문장 간 비교를 통한 성능 향상의 잠재력을 확인하였다.

  • PDF

Methodology of Developing Train Set for BERT's Sentence Similarity Classification with Lexical Mismatch (어휘 유사 문장 판별을 위한 BERT모델의 학습자료 구축)

  • Jeong, Jaehwan;Kim, Dongjun;Lee, Woochul;Lee, Yeonsoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.265-271
    • /
    • 2019
  • 본 논문은 어휘가 비슷한 문장들을 효과적으로 분류하는 BERT 기반 유사 문장 분류기의 학습 자료 구성 방법을 제안한다. 기존의 유사 문장 분류기는 문장의 의미와 상관 없이 각 문장에서 출현한 어휘의 유사도를 기준으로 분류하였다. 이는 학습 자료 내의 유사 문장 쌍들이 유사하지 않은 문장 쌍들보다 어휘 유사도가 높기 때문이다. 따라서, 본 논문은 어휘 유사도가 높은 유사 의미 문장 쌍들과 어휘 유사도가 높지 않은 의미 문장 쌍들을 학습 자료에 추가하여 BERT 유사 문장 분류기를 학습하여 전체 분류 성능을 크게 향상시켰다. 이는 문장의 의미를 결정짓는 단어들과 그렇지 않은 단어들을 유사 문장 분류기가 학습하였기 때문이다. 제안하는 학습 데이터 구축 방법을 기반으로 학습된 BERT 유사 문장 분류기들의 학습된 self-attention weight들을 비교 분석하여 BERT 내부에서 어떤 변화가 발생하였는지 확인하였다.

  • PDF

Dissociation of the semantic and syntactic processing reflected on fMRI in Korean sentences (기능적 자기공명영상에 나타난 한글 의미.통사 문장 처리의 해리)

  • 이홍재;이동훈;남기춘;이은정;문찬홍;유재옥;나동규
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.405-410
    • /
    • 2000
  • 본 연구에서는 기능적 자기공명영상을 이용하여 한글 문장의 의미와 통사 처리에 관한 뇌의 활성화 양상을 비교함으로써 한글문장 이해의 과정에 대한 신경해부학적 증거를 찾고자하였다. 6명의 자원자를 대상으로 문장진위판다과제를 이용하여 활성화를 유도하였다. 1.5T 초전도 자기공명영상 장치에서 EPI로 BOLD 기법을 이용하여 기능적 영상을 얻었으며, 영상 후 처리는 SPM99 분석 프로그램을 이용하였다. 의미관련·통사관련 문장 모두 좌·우 전두회(frontal gyrus) 영역에서 활성화되었다. 의미와 통사처리 영역을 구분하기 위하여 감산법을 적용한 결과, 의미처리는 좌반구의 중측두회(middle temporal gyrus) 영역에서, 통사처리는 우반구의 하전두회(BA44) 부위에서 더 많이 활성화되었다. 의미처리에서 더 우세한 성향을 띠는 부위로 밝혀진 중측두회 영역은 의미처리시에 활성화되는 영역으로 보고하는 기존의 연구와 일치하는 결과이다. 의미와 통사 문장처리시의 뇌 활성화 양상은 뇌의 여러 영역에서 중첩되어 있기는 하지만, 특정영역에서의 차이를 보이고 있으므로, 의미와 통사처리기는 다른 기전(mechanism)에 의해서 일어남을 시사해 준다.

  • PDF

Syntactic and Semantic Analysis of Korean Verb 'Kat-' ('같다' 구문의 통사.의미적 특성)

  • Nam, Yun-Jin;Han, Young-Gyun
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.385-402
    • /
    • 1992
  • 용언 '같다'는 다양한 의미를 지니는데, 그 가운데 [동일]이나 [유사]를 나타내는 '같다' 구문은 '비교'의 논리가 적용되는 문장들로서 문장을 이루는 명사구의 의미 특성, 명사구 사이의 의미관계, 문장 유형등의 요소에 따라 의미 해석이 달라진다. 이 유형의 '같다' 구문은 특정 문형의 실현이 명사구들의 의미 관계에 따라 제약을 받으며, 또 실현되는 경우에도 [동일]이나 [유사]라는 [비교]의 의미를 갖지 못하고 [비유]의 의미를 나타내게 된다. 이러한 의미범주의 변화는, 특정조건하에서의 '비교'가 현실논리에서는 성립할 수 없는 반면 언어논리에서는 수용될 때 나타나는 두 논리간의 괴리를 보완하는 기제인 것으로 생각된다. 한편, [동일]이나 [유사]를 나타내는 '같다'와 [추측] 혹은 [불확실한 단정]을 나타내는 '같다'는 통사구조와 의미해석 논리에서 다른 양상을 보인다. 이들은 항상 '(-ㄴ/ㄹ) 것 같다'와 같은 구성양식을 갖는데, 그럼에도 불구하고 단문구조로 해석되는 것이다.

  • PDF

The error character Revision System of the Korean using Sememe (의미소를 이용한 한국어 오류 문자 교정 시스템)

  • 박현재;박해선;강원일;손영선
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2003.09b
    • /
    • pp.31-34
    • /
    • 2003
  • 현재 구현되어 있는 한국어 철자 교정 시스템은 문장의 문법 정보나 연어 관계로부터 문장의 오류를 처리하는 방식을 쓰고 있다. 본 논문에서는, 홑문장에서 의미소 사이의 관계를 이용하여 오타 문자를 수정하고 오타에 의한 의미적인 오류가 있을 때에는 의미에 해당하는 적절한 단어를 대체하여 제공하는 시스템을 제안한다. 단어의 뜻에 따라 체언은 의미 트리를 형성하고, 서술어는 주어 및 목적어의 체언과 의미 관계를 정의한다. 오류가 포함된 문장에서, 의미 관계를 비교, 분석하여 주어 및 목적어의 체언이 틀렸을 경우에는 서술어로부터, 서술어가 틀렸을 경우에는 주어 및 목적어의 체언으로부터, 수식어가 틀렸을 경우에는 체언 또는 서술어로부터 정의된 상호 의미 관계를 이용하여 한 문자에 대한 오타를 수정하고 오타에 의한 의미적 오류가 발견될 때에는 상기와 같은 철자 교정 방법을 적용하였다.

  • PDF

Two-Level Clausal Segmentation Algorithm using Sense Information (의미 정보를 이용한 이단계 단문 분할 알고리즘)

  • Park, Hyun-Jae;Lee, Su-Seon;Woo, Yo-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.237-241
    • /
    • 1999
  • 단문 분할은 한 문장에 중심어인 용언이 복수개인 경우 용언을 중심으로 문장을 나누는 방법이다. 기존의 방법은 정형화된 문장의 경우 효율적인 결과를 얻을 수 있으나 구문적으로 복잡한 문장인 경우는 한계를 보였다. 본 논문에서는 이러한 한계를 극복하기 위해 구문 정보의 단문 분할이 아닌 의미 정보를 활용하여 복잡한 문장을 효율적으로 단문으로 분할하는 방법을 제안한다. 정형화된 문장의 경우와 달리 일상적인 문장은 문장의 구조적 애매성이나 조사의 생략 등이 빈번하므로 의미 수준에서의 단문 분할이 필요하다. 본 논문에서는 의미 영역에서 단문 분할의 할 경우 기존의 방법들의 애매성을 해소할 수 있다는 점을 보인다. 이를 위해, 먼저 하위범주화 사전과 시소러스의 의미 정보를 이용하여 용언과 보어 성분간의 의존구조를 1차적으로 작성하고 이후 구문적인 정보와 기타 문법적인 지식을 사용하여 기타 성분을 의존구조에 점진적으로 포함시켜가는 이단계 단문 분할 알고리즘을 제안한다. 제안된 이단계 단문 분할 방법의 유용성을 보이기 위해 ETRI-KONAN의 말뭉치 중 20,000문장을 반 자동적인 방법으로 술어와 보어 성분간의 의존구조를 태깅한 후 본 논문에서 제안한 방법과 비교하는 실험을 수행한다.

  • PDF

Measuring Similarity of Korean Sentences based on BERT (BERT 기반 한국어 문장의 유사도 측정 방법)

  • Hyeon, Jonghwan;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.383-387
    • /
    • 2019
  • 자연어 문장의 자동 평가는 생성된 문장과 정답 문장을 자동으로 비교 및 평가하여, 두 문장 사이의 의미 유사도를 측정하는 기술이다. 이러한 자연어 문장 자동 평가는 기계 번역, 자연어 요약, 패러프레이징 등의 분야에서 자연어 생성 모델의 성능을 평가하는데 활용될 수 있다. 기존 자연어 문장의 유사도 측정 방법은 n-gram 기반의 문자열 비교를 수행하여 유사도를 산출한다. 이러한 방식은 계산 과정이 매우 간단하지만, 자연어의 다양한 특성을 반영할 수 없다. 본 논문에서는 BERT를 활용한 한국어 문장의 유사도 측정 방법을 제안하며, 이를 위해 ETRI에서 한국어 말뭉치를 대상으로 사전 학습하여 공개한 어절 단위의 KorBERT를 활용한다. 그 결과, 기존 자연어 문장의 유사도 평가 방법과 비교했을 때, 약 13%의 성능 향상을 확인할 수 있었다.

  • PDF

Two-Level Clausal Segmentation using Sense Information (의미 정보를 이용한 이단계 단문분할)

  • Park, Hyun-Jae;Woo, Yo-Seop
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.9
    • /
    • pp.2876-2884
    • /
    • 2000
  • Clausal segmentation is the method that parses Korean sentences by segmenting one long sentence into several phrases according to the predicates. So far most of researches could be useful for literary sentences, but long sentences increase complexities of the syntax analysis. Thus this paper proposed Two-Level Clausal Segmentation using sense information which was designed and implemented to solve this problem. Analysis of clausal segmentation and understanding of word senses can reduce syntactic and semantic ambiguity. Clausal segmentation using Sense Information is necessary because there are structural ambiguity of sentences and a frequent abbreviation of auxiliary word in common sentences. Two-Level Clausal Segmentation System(TLCSS) consists of Complement Selection Process(CSP) and Noncomplement Expansion Process(NEP). CSP matches sentence elements to subcategorization dictionary and noun thesaurus. As a result of this step, we can find the complement and subcategorization pattern. Secondly, NEP is the method that uses syntactic property and the others methods for noncomplement increase of growth. As a result of this step, we acquire segmented sentences. We present a technique to estimate the precision of Two-Level Clausal Segmentation System, and shows a result of Clausal Segmentation with 25,000 manually sense tagged corpus constructed by ETRl-KONAN group. An Two-Level Clausal Segmentation System shows clausal segmentation precision of 91.8%.

  • PDF

The error character Revision System of the Korean using Semantic relationship of sentence component (문장 성분의 의미 관계를 이용한 한국어 오류 문자 교정 시스템)

  • Park, Hyun-Jae;Park, Hae-Sun;Kang, One-Il;Sohn, Young-Sun
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.14 no.1
    • /
    • pp.28-32
    • /
    • 2004
  • Till now, Korean spelling proofreading system has corrected words of a sentence from the relationship of a collocation or the grammatical information of the sentence. In this paper, we propose a system that corrects a word using the relationship among the sememes in a single sentence and substitutes an apt word for a word of the sentence that has the meaningful mistake by a mistyping. The proposed system makes several sentences that are able to communicate with each sememe. The substantives forms meaning tree according to the meaning of the word and the predicate of a sentence defines the meaningful relationship between a substantives of the subject and the object. After this system compares and analyzes the relationship of meaning, it corrects the mistyping of a word in a single sentence that includes an error. If the system finds out the semantic error by the mistyping, it applies the spelling proofreading method that proposed in this paper.

A three-step sentence searching method for implementing a chatting system (채팅 시스템 구현을 위한 3단계 문장 검색 방법)

  • Jeon, Won-Pyo;Song, Yoeng-Kil;Kim, Hark-Soo
    • Journal of Advanced Marine Engineering and Technology
    • /
    • v.37 no.2
    • /
    • pp.205-212
    • /
    • 2013
  • The previous chatting systems have generally used methods based on lexical agreement between users' input sentences and target sentences in a database. However, these methods often raise well-known lexical disagreement problems. To resolve some of lexical disagreement problems, we propose a three-step sentence searching method that is sequentially applied when the previous step is failed. The first step is to compare common keyword sequences between users' inputs and target sentences in the lexical level. The second step is to compare sentence types and semantic markers between users' input and target sentences in the semantic level. The last step is to match users's inputs against predefined lexico-syntactic patterns. In the experiments, the proposed method showed better response precision and user satisfaction rate than simple keyword matching methods.