• 제목/요약/키워드: word sense information

검색결과 141건 처리시간 0.033초

의미 경계의 현실화를 위한 공기정보의 자동 군집화 (Automatic word sense clustering using collocation for practical sense boundaries)

  • 신사임;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.559-561
    • /
    • 2004
  • 본 논문에서는 다의어의 현실적인 의미 분포의 결정에 대해 이야기 하고자 한다. 수동으로 구축한 의미체계인 사전이나 시소러스들은 그 의미구분의 경개가 모호하고 비현실적인 부분이 많아서 언어처리 시스템의 적용에 문제점으로 지적되고 있다. 그러므로, 본 연구에서는 대용량 코퍼스에서 추출한 공기정보와 자동 군집화 방법들을 사용하여 실질적인 다의어의 의미 경계를 발견하는 방법을 제안하였다. 수동 구축된 사전과 코퍼스 기반 사전의 다의어 의미 분포와 비교해 본 결과, 본 논문에서 제안한 방법의 결과가 코퍼스 기반 사전의 의미 분포와 매우 유사한 결과를 보이는 것을 확인할 수 있었다.

  • PDF

한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 방법의 성능 향상 (An Enhanced Method for Unsupervised Word Sense Disambiguation using Korean WordNet)

  • 권순호;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.693-696
    • /
    • 2010
  • 자연언어처리에서 어의 중의성 해소(word sense disambiguation)는 어휘의 의미를 정확하게 파악하는 기술로 기계번역, 정보검색과 같은 여러 응용 분야에서 중요한 역할을 한다. 본 논문에서는 한국어 어휘의미망(Korlex)을 이용한 비감독 어의 중의성 해소 방법을 제안한다. 의미미부착 말뭉치에서 추출한 통계 정보와 한국어 어휘의미망의 관계어 정보를 이용함으로써 자료 부족문제를 완화하였다. 또한, 중의성 어휘와 공기어휘 간의 거리 가중치, 의미별 사용 정보 가중치를 사용하여 언어적인 특징을 고려하여 본 논문의 기반이 되는 PNUWSD 시스템보다 성능을 향상하였다. 본 논문에서 제안하는 어의 중의성 해소 방법의 평가를 위해 SENSEVAL-2 한국어 데이터를 이용하였다. 중의성 어휘의 의미별 관계어와 지역 문맥 내 공기어휘 간의 카이제곱을 이용하였을 때 68.1%의 정확도를 보였고, 중의성 어휘와 공기어휘 간의 거리 가중치와 의미별 사용 정보 가중치를 사용하였을 때 76.9% 정확도를 보여 기존의 방법보다 정확도를 향상하였다.

의미 정보를 이용한 이단계 단문분할 (Two-Level Clausal Segmentation using Sense Information)

  • 박현재;우요섭
    • 한국정보처리학회논문지
    • /
    • 제7권9호
    • /
    • pp.2876-2884
    • /
    • 2000
  • 단문분할은 한 문장에 용언이 복수개 있을 때 용언을 중심으로 문장을 나누는 방법이다. 기존의 방법은 정형화된 문장의 경우 비교적 효율적인 결과를 얻을 수 있으나, 구문적으로 복잡한 문장인 경우는 한계를 보였다. 본 논문에서는 이러한 한계를 극복하기 위해서 구문 정보만이 아니라, 의미 정보를 활용하여 단문을 분할하는 방법을 제안한다. 정형화된 문장의 경우와 달리 일상적인 문장은 무장 구조의 모호성이나 조사의 생략 등이 빈번하므로 의미 수준에서의 단문분할이 필요하다. 의미 영역에서 단문분할을 하면 기존의 구문 의존적인 방법들에서 발생하는 모호성을 상당수 해소할 수 있게 된다. 논문에서는 먼저 하위범주와 사전과 시소러스의 의미 정보를 이용하여 용언과 보어성분 간의 의존구조를 우선적으로 파악하고, 구문적인 정보와 기타 문법적인 지식을 사용하여 기타 성분을 의존구조에 점진적으로 포함시켜가는 이단계 단문분할 알고리즘을 제안한다. 제안된 이단계 단문분할 방법의 유용성을 보이기 위해 ETRI-KONAN의 말뭉치 중 25,000문장을 수작업으로 술어와 보어성분 간의 의존구조를 태깅한 후 본 논문에서 제안한 방법과 비교하는 실험을 수행하였으며, 이때 단문분할의 결과는 91.8%의 정확성을 보였다.

  • PDF

가중치를 이용한 통계 기반 한국어 동형이의어 분별 모델 (A Korean Homonym Disambiguation Model Based on Statistics Using Weights)

  • 김준수;최호섭;옥철영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권11호
    • /
    • pp.1112-1123
    • /
    • 2003
  • 본 논문은 한국어 정보처리에서 발생하는 어휘 중의성 문제 중 한국어에서 그 심각성이 큰 동형이의어 중의성을 해결하기 위하여, 사전 뜻풀이 말뭉치에서 구축한 의미정보(Semantic Information)와 이를 이용한 기존의 통계기반 동형이의어 분별 모델에 대한 실험 결과를 분석하여, 정확률 향상을 위한 새로운 동형이의어 NPH(New Prior Probability of Homonym sense) 가중치 및 인접 어절에 대한 거리 가중치 적용 모델을 제안한다. 사전 뜻풀이 말뭉치의 상위 고빈도 동형이의어 200개 중 중의성이 높은 46개(명사 30개, 동사 16개)를 선별하고, 21세기 세종 계획에서 제공하는 350만 어절 품사 부착 말뭉치에서 이들 동형이의어를 포함하는 47,977개의 문장을 추출하여 실험을 하였다. 기존의 통계기반 동형이의어 분별 모델에서는 72.08%(명사78.12%, 동사 62.45%)의 정확률을 나타냈으나, NPH 가중치를 부여한 실험 결과 정확률이 평균 1.70% 향상되었으며, NPH와 거리 가중치를 함께 이용한 결과 평균 2.01% 정확률이 향상되었다.

온라인 구전정보특성과 정보신뢰성이 지각된 정보유용성과 정보수용성에 미치는 영향 (The Effects of e-WOM's Information Characteristics and Reliability of e-WOM's Information on e-WOM's Perceived Usefulness and Acceptance)

  • 김영훈
    • 한국조리학회지
    • /
    • 제24권1호
    • /
    • pp.151-163
    • /
    • 2018
  • Today, the development of internet brings many changes in formation exploration and acceptance. Not only the customers can come into contact much information about the firm and its product by quick and easy search, but also they produce information by themselves or can spread the information via the internet. Nowadays, customers are progressive information explorer and producer on online. In this sense, this study examined the effects of e-word-of-mouth information characteristics on the consumer's perceived usefulness and perceived acceptance of e-word-of-mouth information in the food service industry in order to suggest directions to enhances marketing strategies for marketer. The research model for this study was designed based on the hypothesis that the characteristics of e-word-of-mouth information and credibility of the information influenced both the user's perceived usefulness and acceptance. Based on total 277 customers obtained from the empirical research, this study reviewed validity, reliability and fitness of research model. The analysis results on these factors are as follow. First, the characteristics of e-word-of-mouth information; vividness, consensus, direction had an influence on the customer's perceived usefulness. Second, the characteristics of e-word-of-mouth information; vividness, consensus, direction had an influence on the customer's perceived acceptance. Third, the reliability of information had an influence on the customer's perceived usefulness and the credibility of e-word-of-mouth information perceived acceptance. Fourth, the customer's perceived usefulness had an influence on the customer's perceived acceptance.

A Distance Approach for Open Information Extraction Based on Word Vector

  • Liu, Peiqian;Wang, Xiaojie
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권6호
    • /
    • pp.2470-2491
    • /
    • 2018
  • Web-scale open information extraction (Open IE) plays an important role in NLP tasks like acquiring common-sense knowledge, learning selectional preferences and automatic text understanding. A large number of Open IE approaches have been proposed in the last decade, and the majority of these approaches are based on supervised learning or dependency parsing. In this paper, we present a novel method for web scale open information extraction, which employs cosine distance based on Google word vector as the confidence score of the extraction. The proposed method is a purely unsupervised learning algorithm without requiring any hand-labeled training data or dependency parse features. We also present the mathematically rigorous proof for the new method with Bayes Inference and Artificial Neural Network theory. It turns out that the proposed algorithm is equivalent to Maximum Likelihood Estimation of the joint probability distribution over the elements of the candidate extraction. The proof itself also theoretically suggests a typical usage of word vector for other NLP tasks. Experiments show that the distance-based method leads to further improvements over the newly presented Open IE systems on three benchmark datasets, in terms of effectiveness and efficiency.

동사 어휘의미망의 반자동 구축을 위한 사전정의문의 중심어 추출 (The Extraction of Head words in Definition for Construction of a Semi-automatic Lexical-semantic Network of Verbs)

  • 김혜경;윤애선
    • 한국언어정보학회지:언어와정보
    • /
    • 제10권1호
    • /
    • pp.47-69
    • /
    • 2006
  • Recently, there has been a surge of interests concerning the construction and utilization of a Korean thesaurus. In this paper, a semi-automatic method for generating a lexical-semantic network of Korean '-ha' verbs is presented through an analysis of the lexical definitions of these verbs. Initially, through the use of several tools that can filter out and coordinate lexical data, pairs constituting a word and a definition were prepared for treatment in a subsequent step. While inspecting the various definitions of each verb, we extracted and coordinated the head words from the sentences that constitute the definition of each word. These words are thought to be the main conceptual words that represent the sense of the current verb. Using these head words and related information, this paper shows that the creation of a thesaurus could be achieved without any difficulty in a semi-automatic fashion.

  • PDF

다의어 분별 정확률 개선을 위한 보조사의 통사격 결정 (Determining a Syntactic Case of Auxiliary Postposition for Improving Accuracy of Polysemy Word-Sense-Disambiguation)

  • 신준철;옥철영
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.102-104
    • /
    • 2016
  • 하위범주화는 술어와 보어간의 의존 관계를 정의하는 언어정보로서 다의어 태깅이나 이 외에 자연어처리의 다양한 곳에 이용될 수 있다. 그러나 하위범주화에서 다루는 필수논항은 격조사로 표현되어 실제로 한국어에서 자주 나타나는 보조사는 여기에 포함되지 않는다. 이런 문제 때문에 하위범주화네 나타난 격조사만을 그대로 이용하려고 하면 재현율에 큰 문제가 발생하게 된다. 본 논문에서는 문장에서 격조사 대신 보조사가 사용되었을 때 하위범주화의 필수논항으로 인정할 수 있는 방법을 제시하고, 특히 보조사에 적용할 경우에 생기는 이점을 실험으로 증명한다.

  • PDF

코어넷을 활용한 비지도 한국어 어의 중의성 해소 (Unsupervised Korean Word Sense Disambiguation using CoreNet)

  • 한기종;남상하;김지성;함영균;최기선
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.153-158
    • /
    • 2017
  • 본 논문은 한국어 어휘 의미망인 코어넷(CoreNet)을 활용한 비지도학습 방식의 한국어 어의 중의성 해소(Word Sense Dsiambiguation)에 대한 연구이다. 어의 중의성 해소의 실질적인 응용을 위해서는 합리적인 수준으로 의미 후보를 나눌 필요성이 있다. 이를 위해 동형이의어와 코어넷의 개념체계를 활용하여 의미 후보를 나누어서 진행하였으며 이렇게 나눈 것이 실제 활용에서 의미가 있음을 실험을 통해 보였다. 접근 방식으로는 문맥 속에서 서로 영향을 미치는 어휘의 의미들을 동시에 고려하여 중의성 해소를 할 수 있도록 마코프랜덤필드와 의존구조 분석을 바탕으로 한 지식 기반 모델을 사용하였다. 이 과정에서도 코어넷의 개념체계를 활용하였다. 이 방식을 통해 임의의 모든 어휘에 대해 중의성 해소를 하도록 직접 구축한 데이터 셋에 대하여 80.9%의 정확도를 보였다.

  • PDF

상호 정보를 이용한 어의 모호성 해소에 관한 연구 (A Study on Resolving Word Sense Ambiguity Using Mutual Information)

  • 전미선;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.369-373
    • /
    • 1994
  • 정보 검색 시스템의 정확성은 색인어의 정확성과 질의 해석의 정확성에 의존한다. 한국어 정보 검색분야에서는 한국어의 특성을 고려하는 것이 무엇보다 중요하다. 한국어의 문서 색인과 질의 해석시 야기되는 어의 모호성(word sense ambiguity)을 가지는 단어에 대해서는 어의 모호성을 해소한 정확한 색인과 질의 해석이 전제되어야 정확한 문서를 검색해낼 수 있다. 본 논문은 한국어 문서 색인시 동음이의어(homonym)에 의해 발생하는 어의 모호성을 해소하기 위한 방안에 대해 다루고 있으며 의미적 관련 정보를 이용할 것을 제안하고 타당성을 보이는 실험 결과를 제시한다.

  • PDF