• Title/Summary/Keyword: 동형이의어

Search Result 62, Processing Time 0.024 seconds

An Improved Homonym Disambiguation Model based on Bayes Theory (Bayes 정리에 기반한 개선된 동형이의어 분별 모델)

  • Lee, Wang-Woo;Lee, Jae-Hong;Lee, Soo-Dong;Ock, Cheol-Young;Kim, Hyun-Gee
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.465-471
    • /
    • 2001
  • 본 연구에서는 동형이의어 분별을 위하여 허정(2000)이 제시한 "사전 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템" 이 가지는 문제점과 향후 연구과제로 제시한 문제들을 개선하기 위하여 Bayes 정리에 기반한 동형이의어 분별 모델을 제안한다. 의미 분별된 사전 뜻풀이말 코퍼스에서 동형이의어를 포함하고 있는 뜻풀이말을 구성하는 체언류(보통명사), 용언류(형용사, 동사) 및 부사류(부사)를 의미 정보로 추출한다. 동형이의어의 의미별 사전 출현 빈도수가 비교적 균등한 기존 9개의 동형이의어 명사를 대상으로 실험하여 비교하였고, 새로 7개의 동형이의어 용언(형용사, 동사)을 추가하여 실험하였다. 9개의 동형이의어 명사를 대상으로 한 내부 실험에서 평균 99.37% 정확률을 보였으며 1개의 동형이의어 용언을 대상으로 한 내부 실험에서 평균 99.53% 정확률을 보였다. 외부 실험은 국어 정보베이스와 ETRI 코퍼스를 이용하여 9개의 동형이의어 명사를 대상으로 평균 84.42% 정확률과 세종계획의 350만 어절 규모의 외부 코퍼스를 이용하여 7개의 동형이의어 용언을 대상으로 평균 70.81%의 정확률을 보였다.

  • PDF

An Improved Homonym Disambiguation Model based on Bayes Theory (Bayes 정리에 기반한 개선된 동형이의어 분별 모텔)

  • 김창환;이왕우
    • Journal of the Korea Computer Industry Society
    • /
    • v.2 no.12
    • /
    • pp.1581-1590
    • /
    • 2001
  • This paper asserted more developmental model of WSD(word sense disambiguation) than J. Hur(2000)'s WSD model. This model suggested an improved statistical homonym disambiguation Model based on Bayes Theory. This paper using semantic information(co-occurrence data) obtained from definitions of part of speech(POS) tagged UMRD-S(Ulsan university Machine Readable Dictionary(Semantic Tagged)). we extracted semantic features in the context as nouns, predicates and adverbs from the definitions in the korean dictionary. In this research, we make an experiment with the accuracy of WSD system about major nine homonym nouns and new seven homonym predicates supplementary. The inner experimental result showed average accuracy of 98.32% with regard to the most Nine homonym nouns and 99.53% for the Seven homonym predicates. An Addition, we save test on Korean Information Base and ETRI's POS tagged corpus. This external experimental result showed average accuracy of 84.42% with regard to the most Nine nouns over unsupervised learning sentences from Korean Information Base and ETRI Corpus, 70.81 % accuracy rate for the Seven predicates from Sejong Project phrase part tagging corpus (3.5 million phrases) too.

  • PDF

Homonym disambiguation using syntactic pattern and recursive definition network (구문패턴과 순환 뜻풀이망을 이용한 동형이의어 분별)

  • 이왕우;최호섭;옥철영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.457-459
    • /
    • 2002
  • 뜻풀이에서 추출한 의미 정보를 이용만 통계시인 방법의 기존 동형이의어 분별 시스템에는 불필요한 의미 정보들을 많이 가지고 있었다. 그리고 동형이의어간의 의미정보가 서로 교차하는 부분이 많아 확률적인 결정에 오류를 발생시켰다. 본 논문에서는 뜻풀이에서 구문패턴을 분석하여 보다 정제된 의미 정보를 추출하였고, 구문패턴에 속하는 어휘들의 하위어를 사전에서 자동 추출하여 부족한 의미 정보를 보완하였다. 또한, 구문패턴으로 분별할 수 없는 일부 동형이의어들은 순환 뜻풀이 망(RDN)을 이용하여 동형이의어를 분별하였다. 이러한 방법으로 동형이의어 분별을 통해 기존 연구보다 8%의 정확률 향상을 가져왔다.

  • PDF

A Homonym Disambiguation System Based on Statistical Model Using Sense Category and Distance Weights (의미범주 및 거리 가중치를 고려한 통계기반 동형이의어 분별 시스템)

  • Kim, Jun-Su;Kim, Chang-Hwan;Lee, Wang-Woo;Lee, Soo-Dong;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.487-493
    • /
    • 2001
  • 본 논문에서는 Bayes 정리를 적용한 통계기반 동형이의어 분별 시스템에 대한 외부실험 결과를 분석하여, 정확률 향상을 위한 의미범주 가중치 및 인접 어절에 대한 거리 가중치 모델을 제시한다. 의미 분별된 사전 뜻풀이말 코퍼스(120만 어절)에서 구축된 의미정보를 이용한 통계기반 동형이의어 분별 시스템을 사전 뜻풀이말 문장에 출현하는 동형이의어 의미 분별에 적용한 결과 상위 고빈도 200개의 동형이의어에 대해 평균 98.32% 정확률을 보였다. 내부 실험에 사용된 200개의 동형이의어 중 49개(체언 31개, 용언 18개)를 선별하여 이들 동형이의어를 포함하고 있는 50,703개의 문장을 세종계획 품사 부착 코퍼스(350만 어절)에서 추출하여 외부 실험을 하였다. 분별하고자 하는 동형이의어의 앞/뒤 5어절에 대해 의미범주 및 거리 가중치를 부여한 실험 결과 기존 통계기반 분별 모델 보다 2.93% 정확률이 향상되었다.

  • PDF

Disambiguation of Korean Homonym Using Lexical Co-occurrencing Set and Thesaurus (어휘 공기 집합과 시소러스를 활용한 한국어 동형이의에 분별)

  • Lee, Wang-Woo;Choe, Ho-Seop;Kim, Jun-Su;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.152-157
    • /
    • 2003
  • 본 논문은 한국어 정보처리에서 발생하는 어휘 중의성 문제 중에 동형이의어 분별의 중의성을 해결하기 위하여, 유용한 구문 패턴을 바탕으로 사전 뜻풀이와 150만 어절의 말뭉치에서 어휘 공기 집합을 추출하여 동형이의어의 분별에 이용하였다. 특히, 용언류 동형이의어를 분별할 때에는 어휘 공기 집합의 자료 부족문제를 해결하기 위하여 시소러스를 이용한 어휘 공기 집합의 확장 방법을 제시한다. 시소러스 확장을 통한 분석에서 동형이의어의 분별이 실패할 경우 제한된 어절을 대상으로 통계적인 분석을 시도하여 동형이의어를 분별한다. 중의성이 높은 469개 동형이의어에 대하여 2가지 실험을 통해 각각 90.05%와 92.23%의 정확률을 얻을 수 있었다.

  • PDF

Refinement of Semantic-Information for WSD Using Mutual Information (상호정보량을 이용한 동형이의어 분별용 의미정보의 정제)

  • 김준수;이왕우;김창환;옥철영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.460-463
    • /
    • 2002
  • 사전 뜻풀이에서 추출된 기존의 의미정보는 동형이의어가 포함된 뜻풀이에서 명사, 용언을 모두 추출하는 방법을 이용하여 단어 중의성 해소에 부적절만 정보를 상당수 포함하게 되었다. 이러만 부적절한 정보 때문에 오분석이나 과분석이 발생하게 된다. 그러므로 기존의 의미정보에서 동형이의어 분별에 유용한 정보만을 선택하는 기준이 필요하게 되었다. 본 논문에서는 사전 뜻풀이에서 동형이의어와 의미정보 사이의 상호정보량을 계산하고 임계치를 선정하여 의미정보를 선택제약하는 방법을 이용하였다. 임계치에 의해 제한된 의미정보의 효율성을 실험하기 위한 다양만 동형이의어 분별 실험들을 수행하였다.

  • PDF

Disambiguation of Homograph Suffixes using Lexical Semantic Network(U-WIN) (어휘의미망(U-WIN)을 이용한 동형이의어 접미사의 의미 중의성 해소)

  • Bae, Young-Jun;Ock, Cheol-Young
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.1 no.1
    • /
    • pp.31-42
    • /
    • 2012
  • In order to process the suffix derived nouns of Korean, most of Korean processing systems have been registering the suffix derived nouns in dictionary. However, this approach is limited because the suffix is very high productive. Therefore, it is necessary to analyze semantically the unregistered suffix derived nouns. In this paper, we propose a method to disambiguate homograph suffixes using Korean lexical semantic network(U-WIN) for the purpose of semantic analysis of the suffix derived nouns. 33,104 suffix derived nouns including the homograph suffixes in the morphological and semantic tagged Sejong Corpus were used for experiments. For the experiments first of all we semantically tagged the homograph suffixes and extracted root of the suffix derived nouns and mapped the root to nodes in the U-WIN. And we assigned the distance weight to the nodes in U-WIN that could combine with each homograph suffix and we used the distance weight for disambiguating the homograph suffixes. The experiments for 35 homograph suffixes occurred in the Sejong corpus among 49 homograph suffixes in a Korean dictionary result in 91.01% accuracy.

A Korean Homonym Disambiguation Model Based on Statistics Using Weights (가중치를 이용한 통계 기반 한국어 동형이의어 분별 모델)

  • 김준수;최호섭;옥철영
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.11
    • /
    • pp.1112-1123
    • /
    • 2003
  • WSD(word sense disambiguation) is one of the most difficult problems in Korean information processing. The Bayesian model that used semantic information, extracted from definition corpus(1 million POS-tagged eojeol, Korean dictionary definitions), resulted in accuracy of 72.08% (nouns 78.12%, verbs 62.45%). This paper proposes the statistical WSD model using NPH(New Prior Probability of Homonym sense) and distance weights. We select 46 homonyms(30 nouns, 16 verbs) occurred high frequency in definition corpus, and then we experiment the model on 47,977 contexts from ‘21C Sejong Corpus’(3.5 million POS-tagged eojeol). The WSD model using NPH improves on accuracy to average 1.70% and the one using NPH and distance weights improves to 2.01%.

Korean POS and Homonym Tagging System using HMM (HMM을 이용한 한국어 품사 및 동형이의어 태깅 시스템)

  • Kim, Dong-Myoung;Bae, Young-Jun;Ock, Cheol-Young;Choi, Ho-Soep;Kim, Chang-Hwan
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.12-16
    • /
    • 2008
  • 기존의 자연언어처리 연구 중 품사 태깅과 동형이의어 태깅은 별개의 문제로 취급되었다. 그로 인해 두 문제를 해결하기 위한 모델 역시 서로 다른 모델을 사용하였다. 이에 본 논문은 품사 태깅 문제와 동형이의어 태깅 문제는 모두 문맥의 정보에 의존함에 착안하여 은닉마르코프모델을 이용하여 두 가지 문제를 해결하는 시스템을 구현하였다. 제안한 시스템은 품사 및 동형이의어 태깅된 세종 말뭉치 1100만여 어절에 대해 unigram과 bigram을 추출 하였고, unigram을 이용하여 어절의 생성확률 사전을 구축하고 bigram을 이용하여 전이확률 사전을 구축하였다. 구현된 시스템의 성능 확인을 위해 비학습 말뭉치 261,360 어절에 대해 실험하였고, 실험결과 품사 태깅 99.74%, 동형이의어 태깅 97.41%, 품사 및 동형이의어 태깅 97.78%의 정확률을 보였다.

  • PDF

Implementation Tagging System of Korea Homonym (한국어 동형이의어 태깅 시스템 구현)

  • Kim, Jun-Su;Choe, Ho-Seop;Lee, Wang-Woo;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.24-30
    • /
    • 2002
  • 본 논문은 한국어 정보처리에서 발생하는 단어 중의성 문제를 해결하기 위하여, 사전 뜻풀이 말뭉치에서 추출하여 구축한 의미정보 데이터베이스(Semantic Information Database)와 이를 활용한 단어 중의성 해결 모델을 이용한 실용적인 동형이의어 태깅 시스템 개발을 목적으로 한다. 중 소규모의 국어사전 150,000여 개의 표제어 전체의 뜻풀이에 품사 태그를 부착한 117만 어절 규모의 뜻풀이 말뭉치를 구축한 후 사전에 등재된 14,000여 개의 동형이의어 중 뜻풀이에 나타나는 8,164개의 동형이의어에 표제어 어깨번호를 이용한 의미 태그를 부착함으로써, 대량의 동형이의어 분별을 위한 공기(coocurrence)하는 단어와 빈도(frequency)정보를 추출하여 데이터베이스화 할 수 있었다. 본 동형이의어 태깅 시스템의 정확률 측정과 문제점 발견을 위해 (21세기 세종 계획) 프로젝트에서 제공하는 150만 어절 의미 태그 부착 말뭉치를 대상으로 실험한 결과 세종 150만 의미 태그 부착 말뭉치에 고빈도로 출현하는 469개 어휘(총 출현 횟수 249.249개)에 대한 정확률이 91.58%로 나타났다.

  • PDF