• 제목/요약/키워드: Sense disambiguation

검색결과 112건 처리시간 0.023초

의미 부착이 없는 데이터로부터의 학습을 통한 의미 중의성 해소 (Word Sense Disambiguation From Unlabelled Data)

  • 박성배;장병탁;김영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.330-332
    • /
    • 2000
  • 의미 모호성 해소는 문맥상의 한 단어의 올바른 의미를 밝히는 것으로, 대부분의 자연언어처리 응용에서 가장 중요한 문제 중 하나이다. 말뭉치로부터 얻어진 예제로부터 의미 모호성 해소 방법을 학습하기 위해서는 답이 알려져 있는 대량의 학습 예제가 필요하지만, 답이 알려져 있는 예제를 구하는 일은 사람의 간섭을 필요로 하므로 매우 비싼 작업이다. 본 논문에서는 답이 알려져 있는 학습 예제로 어느 정도 학습한 수, 답이 알려져 있지 않은 예제로 학습을 보충하는 방법을 통해 사람의 간섭을 최소화하였다. 결정트리 학습을 통한 한국어 명사에 대한 의미 결정 실험 결과, 본 논문에서 제안한 방법은 가장 많은 분포를 보이는 의미를 선택하는 경우보다 평균적으로 33.6%의 성능 향상을 보이며, 이는 전체 학습 예제의 답이 모두 알려져 있는 경우와 거의 비슷한 결과이다. 따라서, 한국어와 같이 신뢰할 만한 의미 부착 말뭉치가 없는 경우에 본 논문에서 제시된 방법은 매우 효율적이다.

  • PDF

복합명사 의미사전을 이용한 동음이의어 중의성 해소 (Homonym Disambiguation using Sense-Tagged Compound Noun Dictionary)

  • 허정;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.538-540
    • /
    • 2005
  • 본 논문에서는 평균 상호정보량에 기반하고 복합명사 의미사전을 이용한 동음이의어 중의성 해소 기술에 대해서 소개한다. 평균 상호정보량을 이용한 방법은 사전의 뜻풀이를 이용하는 기존 방법의 자료부족문제를 완화시킨다. 복합명사 의미사전은 복합명사를 구성하는 단일영사들의 의미제약 관계를 이용하여 구축된다. 기 구축된 복합명사 의미사전은 어휘 의미 중의성의 정확률을 향상시키고, 연산 시간을 줄여 시스템의 효율성을 극대화시킨다. 평균 상호정보량을 이용한 실험에서는 $62.04\%$의 정확률로 LESK의 방법에 비해 $6.06\%$의 향상이 있었고, 복합명사 의미사전을 이용하였을 때는 $68.13\%$의 정확률로 $12.76\%$의 정확률 향상이 있었다.

  • PDF

WordNet을 이용한 한국어 시소러스 자동 구축 (Using WordNet for the Automatic Construction of Korean Thesaurus)

  • 이창기;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.156-163
    • /
    • 1999
  • 최근의 자연어 처리 분야의 연구들에서 광범위하고 완전한 어휘 지식 베이스의 필요성이 입증되었다. 영어권의 경우, 이에 대한 연구가 오래 전부터 있어 왔고, 그 결과로 현재 주로 사용되고 있는 개념체계에는 Roget's Thesaurus와 WordNet 등이 있다. 이러한 개념체계들은 자연어 처리의 여러 응용 분야에서 중요한 역할을 담담하고 있지만, 다른 언어의 경우 널리 사용되고 있는 개념체계가 없는 실정이다. 본 논문에서는 Princeton 대학의 WordNet을 기반으로 한영 사전과 국어 사전을 이용하여 한국어 명사의 개념체계를 자동으로 구축함으로써, 이미 구축되어진 다른 언어의 개념체계를 이용하여 새로운 언어의 개념체계를 자동으로 구축할 수 있음을 보인다. 먼저 한영 사전과 국어 사전으로부터 뽑아낸 한국어 단어 일부의 의미를 다양한 WSD(Word Sense Disambiguation) 방법을 적용시켜 WordNet의 synset에 자동으로 연결시킬 수 있음을 보인다. 그리고 각각의 자동변환으로 나온 결과들에 대해서 적용율과 정확도를 비교하도록 한다.

  • PDF

유사어를 이용한 단어 의미 중의성 해결 (Word Sense Disambiguation using Semantically Similar Words)

  • 서희철;이호;백대호;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.304-309
    • /
    • 1999
  • 본 논문에서는 의미계층구조에 나타난 유사어 정보를 이용해서 단어 의미 중의성을 해결하고자 한다. 의미계층구조를 이용한 기존의 방법에서는 의미 벡터를 이용해서 단어 의미 중의성을 해결했다. 의미 벡터는 의미별 학습 자료에서 획득되는 것으로 유사어들의 공통적인 특징만을 이용하고, 유사어 개별 특징은 이용하지 않는다. 본 논문에서는 유사어 개별 특징을 이용하기 위해서 유사어 벡터를 이용해서 단어 의미 중의성을 해결한다. 유사어 벡터는 유사어별 학습 자료에서 획득되는 것으로, 유사어의 개별 정보를 가지고 있는 벡터이다. 세 개의 한국어 명사에 대한 실험 결과, 의미 벡터를 이용하는 것보다 유사어 벡터를 이용하는 경우에 평균 9.5%정도의 성능향상이 있었다.

  • PDF

어휘 간의 관계를 고려한 중의성 해소 방법 및 수화 생성 시스템에의 응용 (Word Sense Disambiguation Considering Words Relations and Its Application to Sign Language Generation System)

  • 김상철;박광현;변증남
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.124-128
    • /
    • 2008
  • 어휘 중의성 해소는 다양한 분야에서 중요한 위치를 차지하고 있는 자연어처리 관련 문제이다. 본 논문에서는 어휘 중의성 해소의 실제 응용과 관련하여 문헌 내에 여러 개의 중의어가 존재할 때의 중의성 해소 문제를 다룬다. 기존의 연구에서는 다루지 않았던 다수의 중의어가 존재할 때의 중의성 해소 문제에 대하여 고찰한 후, 중의어 간의 연관성을 이용한 중의성 해소 개념을 제시한다. 또한 이를 이용한 구체적인 해소 방안 제안 및 본 연구의 한국어-한국수화 번역 시스템에의 응용 예를 소개한다. 결론 및 향후 과제에서는 본 논문에서 언급된 방법의 향후 개선 방안에 관하여 언급한다.

  • PDF

통계기만 의미중의성 해소를 이용한 정보검색 (Informal ion Retrieval using Word Sense Disambiguation based on Statintical Method)

  • 허정;김현진;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.508-510
    • /
    • 2002
  • 인터넷의 발전과 더불어 기하급수적으로 늘어난 디지털 정보를 대상으로 사용자의 요구를 만족시키는 정보검색을 하기 위해 자연어처리 기술이 많이 응용되고 있다. 본 논문에서는 정보검색에 자연어 처리 기술 중, 의미중의성 해소(WSD) 기술을 적용하였다. HANTEC 12만 문서를 대상으로 9개의 중의성 단어를 실험한 결과 67.8%의 정확률을 보였다. 본 실험을 통해 WSD의 오분석이 정보검색의 정확률에 상당히 민감한 결과를 초래함을 알 수 있었다. 그리고, WSD 기술이 정보검색에 적용된 떼 발생할 수 있는 여러 문제점들에 대하여 논의하였고, 이 문제점의 근원적인 해결방안은 WSD기술의 발전에 있다는 것을 알 수 있었다.

  • PDF

어휘지도(UWordMap)를 이용한 용언의 다의어 중의성 해소 (Word Sense Disambiguation of Polysemy Predicates using UWordMap)

  • 배영준;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-170
    • /
    • 2013
  • 한국어 어휘의 의미를 파악하기 위하여 어휘의 의미 중의성을 해결하는 것은 중요한 일이다. 본 논문에서는 한국어 다의어 기반의 어휘 의미망과 용언의 논항정보 등의 관계가 포함된 어휘지도(UWordMap)를 사용하여 용언의 의미 중의성 해소에 대한 연구를 진행한다. 기존의 의미 중의성 해소 연구와 같은 동형이의어 단위가 아닌 다의어 단위의 용언 의미 중의성 해소 시스템을 개발하였다. 실험결과 실험말뭉치로 품사 태그 부착 말뭉치를 사용했을 때 동형이의어 단위 정확률은 96.44%였고, 다의어 단위 정확률은 67.65%였다. 실험말뭉치로 동형이의어 태그 부착 말뭉치를 사용했을 때 다의어 단위 정확률은 77.22%로 전자의 실험보다 약 10%의 높은 정확률을 보였다.

  • PDF

의미 애매성 해소를 이용한 WordNet 자동 매핑 (Automatic WordNet mapping using word sense disambiguation)

  • 이창기;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.262-268
    • /
    • 2000
  • 본 논문에서는 어휘 의미 애매성 해소와 영어 대역어 사전 그리고 외국언어에 존재하는 개념체계를 이용하여 한국어 개념체계를 자동으로 구축하는 방법을 기술한다. 본 논문에서 사용하는 방법은 기존의 개념체계 구축 방법들에 비해 적은 노력과 시간을 필요로 한다. 또한 상기한 자동 구축 방법에서 사용하는 어휘 의미 애매성 해소를 위한 6가지 feature도 함께 설명한다.

  • PDF

사전 뜻풀이말에서 추출한 의미 정보에 기반한 의미 중의성 해결 (Word-Sense Disambiguation based on Semantic Informations extracted from Definitions in Dictionary)

  • 허정;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.269-276
    • /
    • 2000
  • 본 연구에서는 사전의 뜻풀이말에서 의미 정보를 추출하고, 이 의미 정보를 확률 통계적 방법에 적용하여 의미 중의성을 해결하는 모델을 제안한다. 사전의 뜻풀이말에 동형이의어를 포함하고 있는 표제어와 뜻풀이말을 구성하는 보통 명사, 형용사와 동사를 의미 정보로 추출한다. 비교적 중의성이 자주 발생하는 9개의 동형이의어 명사를 대상으로 실험하였다. 학습에 이용된 데이터로 정확률을 실험하는 내부 실험의 결과, 체언류(보통 명사)와 용언류(동사, 형용사)의 가중치를 0.9/0.1로 주는 것이 가장 정확률이 높았다. 외부 실험은 국어 정보베이스와 ETRI 코퍼스를 이용하여 1,796문장을 실험하였는데, 평균 79.73%의 정확률을 보였다.

  • PDF

Word2Vec를 이용한 단어 의미 모호성 해소 (Word Sense Disambiguation using Word2Vec)

  • 강명윤;김보겸;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-84
    • /
    • 2015
  • 자연어 문서에 출현하는 단어에는 중의적 단어가 있으며, 이 단어에서 발생되는 의미 모호성은 대개 그 문맥에 따라 해소된다. 의미 모호성 해소 연구 중, 한국어 단어 공간 모델 방법은 의미 태그 부착 말뭉치를 이용하여 단어의 문맥 정보를 구축하고 이를 이용하여 모호성을 해결하는 연구로서 비교적 좋은 성능을 보였다. 본 연구에서는 Word2Vec를 이용하여 기존 연구인 한국어 단어 공간 모델의 단어 벡터를 효과적으로 축소할 수 있는 방법을 제안한다. 세종 형태 의미 분석 말뭉치로 실험한 결과, 제안한 방법이 기존 성능인 93.99%와 유사한 93.32%의 정확률을 보이면서도 약 7.6배의 속도 향상이 있었다.

  • PDF