• Title/Summary/Keyword: 의미적 중의성 해소

Search Result 70, Processing Time 0.021 seconds

A Word Sense Disambiguation for Korean Language Using Deep Learning (딥러닝을 이용한 한국어 어의 중의성 해소)

  • Kim, Hong-Jin;Kim, Hark-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.380-382
    • /
    • 2019
  • 어의 중의성 문제는 자연어 분석 과정에서 공통적으로 발생하는 문제로 한 가지의 단어 표현이 여러 의미로 해석될 수 있기 때문에 발생한다. 이를 해결하기 위한 어의 중의성 해소는 입력 문장 중 여러 개의 의미로 해석될 수 있는 단어가 현재 문맥에서 어떤 의미로 사용되었는지 분류하는 기술이다. 어의 중의성 해소는 입력 문장의 의미를 명확하게 해주어 정보검색의 성능을 향상시키는데 중요한 역할을 한다. 본 논문에서는 딥러닝을 이용하여 어의 중의성 해소를 수행하며 기존 모델의 단점을 극복하여 입력 문장에서 중의적 단어를 판별하는 작업과 그 단어의 의미를 분류하는 작업을 동시에 수행하는 모델을 제안한다.

  • PDF

Unsupervised Korean Word Sense Disambiguation using CoreNet (코어넷을 활용한 비지도 한국어 어의 중의성 해소)

  • Han, Kijong;Nam, Sangha;Kim, Jiseong;Hahm, YoungGyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.153-158
    • /
    • 2017
  • 본 논문은 한국어 어휘 의미망인 코어넷(CoreNet)을 활용한 비지도학습 방식의 한국어 어의 중의성 해소(Word Sense Dsiambiguation)에 대한 연구이다. 어의 중의성 해소의 실질적인 응용을 위해서는 합리적인 수준으로 의미 후보를 나눌 필요성이 있다. 이를 위해 동형이의어와 코어넷의 개념체계를 활용하여 의미 후보를 나누어서 진행하였으며 이렇게 나눈 것이 실제 활용에서 의미가 있음을 실험을 통해 보였다. 접근 방식으로는 문맥 속에서 서로 영향을 미치는 어휘의 의미들을 동시에 고려하여 중의성 해소를 할 수 있도록 마코프랜덤필드와 의존구조 분석을 바탕으로 한 지식 기반 모델을 사용하였다. 이 과정에서도 코어넷의 개념체계를 활용하였다. 이 방식을 통해 임의의 모든 어휘에 대해 중의성 해소를 하도록 직접 구축한 데이터 셋에 대하여 80.9%의 정확도를 보였다.

  • PDF

Unsupervised Korean Word Sense Disambiguation using CoreNet (코어넷을 활용한 비지도 한국어 어의 중의성 해소)

  • Han, Kijong;Nam, Sangha;Kim, Jiseong;Hahm, YoungGyun;Choi, Key-Sun
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.153-158
    • /
    • 2017
  • 본 논문은 한국어 어휘 의미망인 코어넷(CoreNet)을 활용한 비지도학습 방식의 한국어 어의 중의성 해소(Word Sense Dsiambiguation)에 대한 연구이다. 어의 중의성 해소의 실질적인 응용을 위해서는 합리적인 수준으로 의미 후보를 나눌 필요성이 있다. 이를 위해 동형이의어와 코어넷의 개념체계를 활용하여 의미 후보를 나누어서 진행하였으며 이렇게 나눈 것이 실제 활용에서 의미가 있음을 실험을 통해 보였다. 접근 방식으로는 문맥 속에서 서로 영향을 미치는 어휘의 의미들을 동시에 고려하여 중의성 해소를 할 수 있도록 마코프랜덤필드와 의존구조 분석을 바탕으로 한 지식 기반 모델을 사용하였다. 이 과정에서도 코어넷의 개념체계를 활용하였다. 이 방식을 통해 임의의 모든 어휘에 대해 중의성 해소를 하도록 직접 구축한 데이터 셋에 대하여 80.9%의 정확도를 보였다.

  • PDF

An Iterative Approach to Graph-based Word Sense Disambiguation Using Word2Vec (Word2Vec을 이용한 반복적 접근 방식의 그래프 기반 단어 중의성 해소)

  • O, Dongsuk;Kang, Sangwoo;Seo, Jungyun
    • Korean Journal of Cognitive Science
    • /
    • v.27 no.1
    • /
    • pp.43-60
    • /
    • 2016
  • Recently, Unsupervised Word Sense Disambiguation research has focused on Graph based disambiguation. Graph-based disambiguation has built a semantic graph based on words collocated in context or sentence. However, building such a graph over all ambiguous word lead to unnecessary addition of edges and nodes (and hence increasing the error). In contrast, our work uses Word2Vec to consider the most similar words to an ambiguous word in the context or sentences, to rebuild a graph of the matched words. As a result, we show a higher F1-Measure value than the previous methods by using Word2Vec.

  • PDF

Statistical Word Sense Disambiguation based on using Variant Window Size (가변길이 윈도우를 이용한 통계 기반 동형이의어의 중의성 해소)

  • Park, Gi-Tae;Lee, Tae-Hoon;Hwang, So-Hyun;Lee, Hyun Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.40-44
    • /
    • 2012
  • 어휘가 갖는 의미적 중의성은 자연어의 특성 중 하나로 자연어 처리의 정확도를 떨어트리는 요인으로, 이러한 중의성을 해소하기 위해 언어적 규칙과 다양한 기계 학습 모델을 이용한 연구가 지속되고 있다. 의미적 중의성을 가지고 있는 동형이의어의 의미분별을 위해서는 주변 문맥이 가장 중요한 자질이 되며, 자질 정보를 추출하기 위해 사용하는 문맥 창의 크기는 중의성 해소의 성능과 밀접한 연관이 있어 신중히 결정되어야 한다. 본 논문에서는 의미분별과정에 필요한 문맥을 가변적인 크기로 사용하는 가변길이 윈도우 방식을 제안한다. 세종코퍼스의 형태의미분석 말뭉치로 학습하여 12단어 32,735문장에 대해 실험한 결과 용언의 경우 평균 정확도 92.2%로 윈도우를 고정적으로 사용한 경우에 비해 향상된 결과를 보였다.

  • PDF

Word sense disambiguation using dynamic sized context and distance weighting (가변 크기 문맥과 거리가중치를 이용한 동형이의어 중의성 해소)

  • Lee, Hyun Ah
    • Journal of Advanced Marine Engineering and Technology
    • /
    • v.38 no.4
    • /
    • pp.444-450
    • /
    • 2014
  • Most researches on word sense disambiguation have used static sized context regardless of sentence patterns. This paper proposes to use dynamic sized context considering sentence patterns and distance between words for word sense disambiguation. We evaluated our system 12 words in 32,735sentences with Sejong POS and sense tagged corpus, and dynamic sized context showed 92.2% average accuracy for predicates, which is better than accuracy of static sized context.

An Effect of Semantic Relatedness on Entity Disambiguation: Using Korean Wikipedia (개체중의성해소에서 의미관련도 활용 효과 분석: 한국어 위키피디아를 사용하여)

  • Kang, In-Su
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.25 no.2
    • /
    • pp.111-118
    • /
    • 2015
  • Entity linking is to link entity's name mentions occurring in text to corresponding entities within knowledge bases. Since the same entity mention may refer to different entities according to their context, entity linking needs to deal with entity disambiguation. Most recent works on entity disambiguation focus on semantic relatedness between entities and attempt to integrate semantic relatedness with entity prior probabilities and term co-occurrence. To the best of my knowledge, however, it is hard to find studies that analyze and present the pure effects of semantic relatedness on entity disambiguation. From the experimentation on Korean Wikipedia data set, this article empirically evaluates entity disambiguation approaches using semantic relatedness in terms of the following aspects: (1) the difference among semantic relatedness measures such as NGD, PMI, Jaccard, Dice, Simpson, (2) the influence of ambiguities in co-occurring entity mentions' set, and (3) the difference between individual and collective disambiguation approaches.

An Enhanced Method for Unsupervised Word Sense Disambiguation using Korean WordNet (한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 방법의 성능 향상)

  • Kwon, Soonho;Kim, Minho;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.693-696
    • /
    • 2010
  • 자연언어처리에서 어의 중의성 해소(word sense disambiguation)는 어휘의 의미를 정확하게 파악하는 기술로 기계번역, 정보검색과 같은 여러 응용 분야에서 중요한 역할을 한다. 본 논문에서는 한국어 어휘의미망(Korlex)을 이용한 비감독 어의 중의성 해소 방법을 제안한다. 의미미부착 말뭉치에서 추출한 통계 정보와 한국어 어휘의미망의 관계어 정보를 이용함으로써 자료 부족문제를 완화하였다. 또한, 중의성 어휘와 공기어휘 간의 거리 가중치, 의미별 사용 정보 가중치를 사용하여 언어적인 특징을 고려하여 본 논문의 기반이 되는 PNUWSD 시스템보다 성능을 향상하였다. 본 논문에서 제안하는 어의 중의성 해소 방법의 평가를 위해 SENSEVAL-2 한국어 데이터를 이용하였다. 중의성 어휘의 의미별 관계어와 지역 문맥 내 공기어휘 간의 카이제곱을 이용하였을 때 68.1%의 정확도를 보였고, 중의성 어휘와 공기어휘 간의 거리 가중치와 의미별 사용 정보 가중치를 사용하였을 때 76.9% 정확도를 보여 기존의 방법보다 정확도를 향상하였다.

Homonym Disambiguation based on Average Mutual Information (평균 상호정보량에 기반한 동음이의어 중의성 해소)

  • Hur, Jeong;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.159-166
    • /
    • 2005
  • 자연언어처리의 목적은 컴퓨터가 자연어를 이해할 수 있도록 하여, 인간에게 다양한 정보를 정확하고 빠르게 전달할 수 있도록 하고자 하는 것이다. 이를 위해서는 언어의 의미를 정확히 파악하여야 하는데, 어휘 의미 중의성 해소가 필수적인 기술이다. 본 연구에서는 평균 상호정보량에 기반한 동음이의어 의미 중의성 해소 기술을 소개한다. 사전 뜻풀이를 이용하는 기존 연구들은 어휘들간의 정확한 매칭에 의존하기 때문에 자료부족 현상이 심각하였다. 그러나, 본 연구에서는 어휘들간의 연관계수인 상호정보량을 이용함으로써 이 문제를 완화시켰다. 또한, 상호정보량을 가지는 어휘 쌍의 비율, 의미 별 빈도 정보와 뜻풀이의 길이를 가중치로 반영하였다. 본 시스템의 평가를 위해 질의응답 평가셋의 500여 개의 질의와 정답단락을 대상으로 동음이의어 의미 중의성 해소 평가셋을 구축하였다. 평가셋에 기반하여 두 가지 유형의 실험을 수행하였다. 실험 결과는 평균 상호정보량만을 이용하였을 때 62.04%의 정확률을 보였고, 가중치를 활용하였을 때 83.42%의 정확률을 보였다.

  • PDF

Word Sense Disambiguation using Word2Vec (Word2Vec를 이용한 단어 의미 모호성 해소)

  • Kang, Myung Yun;Kim, Bogyum;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.81-84
    • /
    • 2015
  • 자연어 문서에 출현하는 단어에는 중의적 단어가 있으며, 이 단어에서 발생되는 의미 모호성은 대개 그 문맥에 따라 해소된다. 의미 모호성 해소 연구 중, 한국어 단어 공간 모델 방법은 의미 태그 부착 말뭉치를 이용하여 단어의 문맥 정보를 구축하고 이를 이용하여 모호성을 해결하는 연구로서 비교적 좋은 성능을 보였다. 본 연구에서는 Word2Vec를 이용하여 기존 연구인 한국어 단어 공간 모델의 단어 벡터를 효과적으로 축소할 수 있는 방법을 제안한다. 세종 형태 의미 분석 말뭉치로 실험한 결과, 제안한 방법이 기존 성능인 93.99%와 유사한 93.32%의 정확률을 보이면서도 약 7.6배의 속도 향상이 있었다.

  • PDF