• 제목/요약/키워드: 중의성해소

검색결과 175건 처리시간 0.028초

Word2Vec을 이용한 반복적 접근 방식의 그래프 기반 단어 중의성 해소 (An Iterative Approach to Graph-based Word Sense Disambiguation Using Word2Vec)

  • 오동석;강상우;서정연
    • 인지과학
    • /
    • 제27권1호
    • /
    • pp.43-60
    • /
    • 2016
  • 지식기반을 이용한 비지도 방법의 단어 중의성 해소 연구는 그래프 기반 단어 중의성 해소 방법에 중점을 두고 있다. 그래프 기반 방법은 중의성 단어와 문맥이나 문장에서 같이 등장한 단어들과 의미그래프를 구축하여 연결 관계를 보고 중의성을 해소한다. 하지만, 모든 중의성 단어를 가지고 의미 그래프를 구축하게 되면 불필요한 간선과 노드 정보가 추가되어 오류를 증가시킨다는 단점이 있다. 본 연구에서는 이러한 문제를 해결하고자 반복적 접근 방식의 그래프 기반 단어 중의성 해소 방식을 사용한다. 이 방식은 모든 중의성 단어들을 특정 기준에 의해서 단어를 매칭 하고 매칭 된 단어들을 반복적으로 그래프를 재구축하여 단어중의성을 해소한다. 본 연구에서는 Word2Vec을 이용하여 문맥이나 문장 내에 중의성 단어와 의미적으로 가장 유사한 단어끼리 매칭하고, 매칭 된 단어들을 순서대로 그래프를 재구축하여 중의성 단어의 의미를 결정하였다. 결과적으로 Word2Vec의 단어 벡터정보를 이용하여 이전에 연구 되었던 그래프 기반 방법과 반복적 접근 방식의 그래프 기반 방법보다 더 높은 성능을 보여준다.

  • PDF

어휘지도(UWordMap)를 이용한 용언의 다의어 중의성 해소 (Word Sense Disambiguation of Polysemy Predicates using UWordMap)

  • 배영준;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-170
    • /
    • 2013
  • 한국어 어휘의 의미를 파악하기 위하여 어휘의 의미 중의성을 해결하는 것은 중요한 일이다. 본 논문에서는 한국어 다의어 기반의 어휘 의미망과 용언의 논항정보 등의 관계가 포함된 어휘지도(UWordMap)를 사용하여 용언의 의미 중의성 해소에 대한 연구를 진행한다. 기존의 의미 중의성 해소 연구와 같은 동형이의어 단위가 아닌 다의어 단위의 용언 의미 중의성 해소 시스템을 개발하였다. 실험결과 실험말뭉치로 품사 태그 부착 말뭉치를 사용했을 때 동형이의어 단위 정확률은 96.44%였고, 다의어 단위 정확률은 67.65%였다. 실험말뭉치로 동형이의어 태그 부착 말뭉치를 사용했을 때 다의어 단위 정확률은 77.22%로 전자의 실험보다 약 10%의 높은 정확률을 보였다.

  • PDF

다중 파스 여과에 기반한 한국어의 구조적 중의성 해소 (Resolving Structural Ambiguity of Korean Based on Multiple Parse Filtering)

  • 엄미현;신대규;임병준;나동렬
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.443-451
    • /
    • 1996
  • 본 논문은 한국어의 구문 분석시 생기는 구조적 중의성 현상들 중 명사구를 용언에 부각할 때 발생하는 많은 중의성과 관형용언구가 명사구를 수식할 때 발생하는 중의성들을 해소하는 방법에 대해 다룬다. 대부분의 한국어 문장들이 이러한 중의성 현상을 포함한다. 우리는 문장 분석시 나타나는 다중 파스들을 스택을 이용하여 관리하여 중의성에 의한 다중 파스들을 비교하여 적합하지 않은 파스들을 여과하므로써 중의성을 해소한다. 중의성 해소를 위한 정보원으로서 격 정보와 통계 정보를 이용하는 알고리즘을 제시한다.

  • PDF

어절별 중의성 해소 정보를 이용한 품사 태깅의 성능 향상 (Improving Part-of-speech Tagging by using Resolution Information for Individual Ambiguous Word)

  • 박희근;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.134-139
    • /
    • 2007
  • 품사 태깅 시스템에서 규칙 정보와 통계 정보는 상호보완적으로 사용되어 품사 태깅의 성능을 향상시킨다. 하지만, 두 가지 정보로는 품사 태깅의 성능을 향상시키기에는 한계가 있다. 이에 본 논문에서는 어절별 중의성 해소 정보를 이용하여 품사 태깅 시스템의 정확률을 향상시키는 방법에 대해서 기술한다. 통계 정보는 21세기 세종계획의 천만 어절 균형 말뭉치와 태그 부착 말뭉치에서 추출한 trigram 형태의 중의성 어절 및 품사 태그열 출현 빈도 정보를 이용하여 구축하였고, 규칙 정보는 보조용언, 숙어, 관용적 표현 등을 이용하여 구축하였다. 어절별 중의성 해소 정보는 세종 천만 어절 균형 말뭉치의 중의성 어절에서 고빈도 상위 50%에 해당하는 어절을 대상으로 해당 어절의 의미정보와 문맥정보를 고려하여 구축되었고, 이것은 통계 정보를 이용한 품사 태깅 전에 적용되어 분석 후보를 줄여준다. 또한, 학습을 통하여 어절별 중의성 해소 정보를 수정 및 보강하여 잘못된 품사 태깅 결과를 보정해준다. 이와 같이 통계 정보와 규칙 정보를 이용한 품사 태깅 시스템에 고빈도 중의성 어절에 대한 어절별 중의성 해소 정보를 이용함으로써 품사 태깅의 성능을 향상시킬 수 있었다.

  • PDF

개체중의성해소에서 의미관련도 활용 효과 분석: 한국어 위키피디아를 사용하여 (An Effect of Semantic Relatedness on Entity Disambiguation: Using Korean Wikipedia)

  • 강인수
    • 한국지능시스템학회논문지
    • /
    • 제25권2호
    • /
    • pp.111-118
    • /
    • 2015
  • 개체 링킹은 텍스트에 출현하는 개체 표현을 위키피디아 등의 지식베이스 항목으로 연결하는 작업이다. 동일한 개체 표현을 공유하는 서로 다른 개체들의 존재로 인해 개체 링킹에서는 개체 표현의 중의성을 해소할 필요가 있다. 개체 중의성 해소를 위한 최근 연구에서는 공기 개체 의미관련도를 중심으로 개체 출현 선험 확률와 공기 용어 정보 등을 결합하는 시도들이 주류를 형성하고 있다. 그러나 의미관련도의 왕성한 활용에도 불구하고 의미관련도 기반 방법이 개체중의성해소에 미치는 순수 효과를 분석 제시한 연구는 찾기 힘들다. 이 연구는 NGD, PMI, Jaccard, Dice, Simpson 등 서로 다른 의미관련도 지표의 차이, 공기개체집합 내 중의성 정도의 차이, 개별적/집단적 중의성해소 방식의 차이의 세 가지 관점에서 의미관련도 기반 개체중의성해소 방법들을 한국어 위키피디아 데이터를 사용하여 실험적으로 평가한 결과를 제시한다.

URI 중의성 해소 및 오류 감소를 위한 LDA 기반 접근법 (LDA-based Approach for URI Disambiguation and Error Reduction)

  • 김지성;김영식;함영균;황도삼;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.107-111
    • /
    • 2014
  • URI 중의성 해소 문제는 주어진 문서 내의 특정 단어에 연결 가능한 여러 URI가 주어졌을 때 진짜 URI 하나를 선택해내는 문제라고 할 수 있다. 이 문제는 다양한 해결법들이 존재할 수 있지만 기존에 연구된 문서의 문맥 간 유사도를 이용하여 해결하는 방법을 본 논문에서는 사용한다. 문맥 간 유사도를 이용하는 방법은 영어 디비피디아 URI spotting에서 TF*ICF방법으로 이미 연구가 되어있다. 본 논문에서는 Latent Dirichlet Allocation을 이용하여 URI 중의성 해소 문제를 다룰 것이며 그 범위를 한국어 디비피디아로 한정한다. 새로 제안하는 방법이 URI 중의성 해소 문제를 얼마나 잘 해결하며, 기존의 연구와 비교하여 얼마나 향상될 수 있는지를 분석한다. 또한 기존의 방법과 새로 제안한 방법 각자가 고유하게 풀 수 있는 문제가 존재함을 보이고, 두 방법을 병합하였을 때 보다 높은 성능에 도달할 수 있음을 전망한다.

  • PDF

의미 중의성 해소를 위한 품사의 역할 : 영어와 한국어 비교 (Role of POS Tags in Word Sense Disambiguation : A comparison of English and Korean)

  • 조정미;김길창;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.407-411
    • /
    • 1998
  • 본 논문은 의미 중의성 해소에 있어서 품사 태깅의 중요성을 언급한 Wilks의 논문 [6]을 근거로 하여 한국어 의미 중의성 해소에 있어서의 품사 태깅의 역할을 살펴보고, 영어의 경우와 비교, 분석한다. 한국어 사전과 코퍼스를 각각 대상으로 품사 태깅을 이용한 의미 중의성 실험 결과, 한국어의 경우는 영어의 경우보다 품사를 이용한 의미 중의성 해소율이 떨어지는 결과를 보이고 있다.

  • PDF

통계정보에 기반을 둔 한국어 어휘중의성해소 (Korean Lexical Disambiguation Based on Statistical Information)

  • 박하규;김영택
    • 한국통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.265-275
    • /
    • 1994
  • 어휘중의성 해소는 음성 인식/생성, 정보 검색, 발뭉치 태킹 등 자연언어 처리에서 가장 기초가 되는 분야 중의 하나이다. 본 논문은 말뭉치로부터 추출된 통계정보를 이용하는 한국어 어휘중의성해소 기법에 대해 기술한다. 이 기법에서는 좀더 정밀한 중의성해소를 위해 품사태그 대신 형태소분석 결과에 해당하는 토큰태그를 사용하고 있다. 본 논문에서 제안한 어휘선택함수는 어미나 조사의 호응 관계등 한국어의 어휘적 특성을 잘 반영하기 때문에 상당히 높은 정확성을 보여준다. 그리고 활용분야에 적합하게 사용될 수 있도록 유일선택 방식과 다중선택 방식이라는 두가지 중의성해소 방식을 지원하고 있다.

  • PDF

한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 방법의 성능 향상 (An Enhanced Method for Unsupervised Word Sense Disambiguation using Korean WordNet)

  • 권순호;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.693-696
    • /
    • 2010
  • 자연언어처리에서 어의 중의성 해소(word sense disambiguation)는 어휘의 의미를 정확하게 파악하는 기술로 기계번역, 정보검색과 같은 여러 응용 분야에서 중요한 역할을 한다. 본 논문에서는 한국어 어휘의미망(Korlex)을 이용한 비감독 어의 중의성 해소 방법을 제안한다. 의미미부착 말뭉치에서 추출한 통계 정보와 한국어 어휘의미망의 관계어 정보를 이용함으로써 자료 부족문제를 완화하였다. 또한, 중의성 어휘와 공기어휘 간의 거리 가중치, 의미별 사용 정보 가중치를 사용하여 언어적인 특징을 고려하여 본 논문의 기반이 되는 PNUWSD 시스템보다 성능을 향상하였다. 본 논문에서 제안하는 어의 중의성 해소 방법의 평가를 위해 SENSEVAL-2 한국어 데이터를 이용하였다. 중의성 어휘의 의미별 관계어와 지역 문맥 내 공기어휘 간의 카이제곱을 이용하였을 때 68.1%의 정확도를 보였고, 중의성 어휘와 공기어휘 간의 거리 가중치와 의미별 사용 정보 가중치를 사용하였을 때 76.9% 정확도를 보여 기존의 방법보다 정확도를 향상하였다.

한국어 단어 공간 모델을 이용한 단어 의미 중의성 해소 (Word Sense Disambiguation using Korean Word Space Model)

  • 박용민;이재성
    • 한국콘텐츠학회논문지
    • /
    • 제12권6호
    • /
    • pp.41-47
    • /
    • 2012
  • 한국어 단어의 의미 중의성 해소 방법들은 주로 소규모의 의미 태그 부착 말뭉치나 사전 정보 등을 이용하여 엔트로피 정보, 조건부 확률, 상호정보 등을 각각 계산하고 이를 중의성 해소에 이용하는 방법 등으로 다양하게 제안되었다. 본 논문에서는 대규모로 구축된 의미 태그 부착 말뭉치를 이용하여 한국어 단어 벡터를 추출하고 이 벡터들 사이의 유사도를 계산하여 단어 의미 중의성을 해소하는 단어 공간 모델 방법을 제안한다. 세종 형태의미분석 말뭉치를 사용하여 학습하고 임의의 200문장(583 단어 종류)에 대해 평가한 결과, 정확도가 94%로 기존의 방법에 비해 매우 우수했다.