• 제목/요약/키워드: word sense information

검색결과 141건 처리시간 0.023초

정제된 의미정보와 시소러스를 이용한 동형이의어 분별 시스템 (A Korean Homonym Disambiguation System Using Refined Semantic Information and Thesaurus)

  • 김준수;옥철영
    • 정보처리학회논문지B
    • /
    • 제12B권7호
    • /
    • pp.829-840
    • /
    • 2005
  • 단어 의미 중의성 해소는 자연언어처리 분야에 매우 중요한 부분이다. 본 논문에서는 사전 뜻풀이 특성을 이용해 기존의 의미정보를 정제하고 유용한 정보인 확률정보, 거리정보 및 격정보 등을 추가한 WSD 모델을 제안하였으며, 사전을 기반으로 구축된 "울산대학교 어휘 지능망(UOU-Word Intelligent Network: U-WIN)" 상의 단어 계층적 구조(시소러스)를 이용하여 의미정보의 자료 부족 문제를 해소하는 모델을 제시하였"다. "21세기 세종 계획"에서 제공하는 150만 어절 규모의 의미 태그 말뭉치를 대상으로 한 실험에서 최다 빈도 의미 결정(Maximum Frequence Class, MFC, 정확률 베이스라인)에 비해 $18.97\%$(명사 $21.73\%$, 동사 $17.11\%$) 정확률 향상을 보였으며, 기존의 확률 가중치와 어절 거리 가중치를 이용한 모델에 비해서는 $10.49\%$(명사 $8.84\%$, 동사 $11.51\%$)의 정확률 향상되었다. 또한 시소러스를 사용하지 않고 확률정보, 거리정보, 격정보 만을 이용한 모델에 비해 $6.12\%$(명사 $5.29\%$, 동사 $6.64\%$) 높은 정확률을 보였다.

웹 사용자 누적 사용정보 기반의 키워드 검색 모델 (A Keyword Search Model based on the Collected Information of Web Users)

  • 윤성희
    • 한국전자통신학회논문지
    • /
    • 제7권4호
    • /
    • pp.777-782
    • /
    • 2012
  • 본 논문은 웹 검색 시스템의 사용자 질의에 대한 키워드 색인 기반의 검색 과정에서 적합 문서를 선별하기 위해 검색 키워드의 의미정보와 사용자의 누적 사용정보를 사용하여 검색 성능을 향상시키는 방법을 소개한다. 검색 키워드 의미 정보를 이용하는 검색 방법은 검색 결과로서 의미적으로 무관한 많은 문서들을 배제할 수 있고, 사용자의 누적된 사용정보는 관심사에 중심을 둔 검색문서들을 상위에 제시할 수 있다. 검색 키워드의 의미정보 지식베이스를 구축하고, 검색 문서들을 색인어와 해당 의미범주로 분류하며, 사용자의 정답 문서 참조 행위에 대한 누적 정보를 순위 결정에 반영하여 검색 성능을 향상시킬 수 있다.

세종 전자사전과 준지도식 학습 방법을 이용한 용언의 어의 중의성 해소 (Word Sense Disambiguation of Predicate using Semi-supervised Learning and Sejong Electronic Dictionary)

  • 강상욱;김민호;권혁철;오주현
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권2호
    • /
    • pp.107-112
    • /
    • 2016
  • 국립국어원의 주관으로 10년에 걸쳐 구축된 21세기 세종 계획의 결과물들은 한국어를 대상으로 한 대부분의 자연언어 처리 시스템 및 연구에 널리 이용되고 있다. 21세기 세종 계획의 결과물 중, 세종 전자사전은 한국어 어휘의 내재정보에 대한 체계적인 분석 정보를 담고 있어 세종 전자사전 내의 상세 정보를 이용하여 어의 중의성 해소(Word Sense Disambiguation) 규칙을 구축하는 데 이용할 수 있다. 하지만 한국어의 특성상 다양한 문형과 논항이 출현할 수 있으므로 문형과 논항에 대한 모든 정보를 담을 수 없는 단점이 존재한다. 본 연구에서는 세종 전자사전의 용언 하위범주화 정보와 한국어 어휘의미망(Korean Lexico-semantic Network)을 이용하여 구축한 어의 중의성 해소 규칙을 준지도 학습 방법을 이용하여 논항의 선택제약 정보를 확장 및 일반화한다.

온톨로지 구축 및 단어 의미 중의성 해소에의 활용 (Ontology Construction and Its Application to Disambiguate Word Senses)

  • 강신재
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.491-500
    • /
    • 2004
  • 본 논문은 기존의 다양한 언어자원들을 이용하여 온톨로지를 구축하고, 이를 단어의미 중의성 해소에 활용하는 방법을 제시하고 있다. 온톨로지를 실용적으로 구축하기 위해서는 가도카와 시소러스의 개념 체계에 격 관계와 기타 의미관계와 같은 다른 의미관계를 추가하여 확장하는 방법을 선택하였다. 구축된 온톨로지를 단어 의미 중의성 해소에 활용하기 위해서는, 결합가 정보를 포함하고 있는 전자사전을 먼저 이용하여 단어의 의미를 결정하고, 결정하지 못한 단어의 의미는 온톨로지를 이용하여 결정하는 절차를 거친다. 이를 위해 온톨로지 내 개념들간의 상호정보가 말뭉치의 통계 정보에 근거하여 계산되는데, 이를 가중치로 간주하면 온톨로지는 가중치 그래프로 생각할 수 있으므로 개념간 경로를 통하여 개념간 연관도를 알아 볼 수 있다. 실제 기계번역 시스템에서 본 방법은 온톨로지를 사용하지 않은 방법보다 9%의 성능 향상을 가져오는 결과를 얻을 수 있었다.

반복적 기법을 사용한 그래프 기반 단어 모호성 해소 (Graph-Based Word Sense Disambiguation Using Iterative Approach)

  • 강상우
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권2호
    • /
    • pp.102-110
    • /
    • 2017
  • 최근 자연어 처리 분야에서 단어의 모호성을 해소하기 위해서 다양한 기계 학습 방법이 적용되고 있다. 지도 학습에 사용되는 데이터는 정답을 부착하기 위해 많은 비용과 시간이 필요하므로 최근 연구들은 비지도 학습의 성능을 높이기 위한 노력을 지속적으로 시도하고 있다. 단어 모호성 해소(word sense disambiguation)를 위한 비지도 학습연구는 지식 기반(knowledge base)를 이용한 방법들이 주목받고 있다. 이 방법은 학습 데이터 없이 지식 기반의 정보을 이용하여 문장 내에서 모호성을 가지는 단어의 의미를 결정한다. 지식 기반을 이용한 방법에는 그래프 기반방식과 유사도 기반 방법이 대표적이다. 그래프 기반 방법은 모호성을 가지는 단어와 그 단어가 가지는 다양한 의미들의 집합 간의 모든 경로에 대한 의미 그래프를 구축한다는 장점이 있지만 불필요한 의미 경로가 추가되어 오류를 증가시킨다는 단점이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 그래프 구축을 위해 불필요한 간선들을 배제하면서 반복적으로 그래프를 재구축하는 모델을 제안한다. 또한, 구축된 의미 그래프에서 더욱 정확한 의미를 예측하기 위해 하이브리드 유사도 예측 모델을 적용한다. 또한 제안된 모델은 다국어 어휘 의미망 사전인 BabelNet을 사용하기 때문에 특정 언어뿐만 아니라 다양한 언어에도 적용 가능하다.

상호정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해소 (Homonym Disambiguation based on Mutual Information and Sense-Tagged Compound Noun Dictionary)

  • 허정;서희철;장명길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권12호
    • /
    • pp.1073-1089
    • /
    • 2006
  • 자연언어처리의 목적은 컴퓨터가 자연어를 이해할 수 있도록 하여, 인간에게 다양한 정보를 정확하고 빠르게 전달할 수 있도록 하고자 하는 것이다. 이를 위해서는 언어의 의미를 정확히 파악하여야 하는데, 어휘 의미 중의성 해소가 필수적인 기술이다. 본 연구는 상호정보량과 기 분석된 복합명사 의미사전에 기반한 동음이의어 의미 중의성 해소를 위한 기술을 소개한다. 사전 뜻풀이를 이용하는 기존 기술들은 어휘들간의 정확한 매칭에 의존하기 때문에 자료 부족 현상이 심각하였다. 그러나, 본 연구에서는 어휘들간의 연관계수인 상호정보량을 이용함으로써 이 문제를 완화시켰다. 또한, 언어적인 특징을 반영하기 위해서 상호정보량을 가지는 어휘 쌍의 비율 가중치, 의미 별 비율 가중치와 뜻풀이의 길이 가중치를 사용하였다. 그리고, 복합명사를 구성하는 단일명사들은 서로의 의미를 제약한다는 것에 기반하여 고빈도 복합명사에 대해서 의미를 부착한 의미사전을 구축하였고, 이를 동음이의어 중의성 해소에 활용하였다. 본 시스템의 평가를 위해 질의응답 평가셋의 200 여 개의 질의와 정답단락을 대상으로 동음이의어 의미 중의성 해소 평가셋을 구축하였다. 평가셋에 기반하여 네 유형의 실험을 수행하였다. 실험 결과는 상호 정보량만을 이용하였을 때 65.06%의 정확률을 보였고, 가중치를 활용하였을 때 85.35%의 정확률을 보였다. 또한, 복합명사 의미분석 사전을 활용하였을 때는 88.82%의 정확률을 보였다.

정보량과 개념적 밀도를 이용한 단어 의미 중의성 해결 (Word Sense Disambiguation using the Information Content and the Conceptual Density)

  • 조미영;김판구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.445-448
    • /
    • 2005
  • 기존의 정보 검색은 단순 키워드 매칭에 의한 패턴 매칭으로 의미적 정보 검색에는 한계가 있다. 이를 해결하기 위한 많은 연구가 이루어졌으나 질의 혹은 문서에 중의적 의미를 가진 단어를 포함하고 있는 경우에 검색시 문제가 되었다. 이에 본 논문에서는 WordNet기반의 단어 빈도수를 고려한 정보량과 단어 영역내 존재하는 노드 수를 고려한 개념적 밀도를 이용한 WSD(Word Sense Disambiguation)를 제안한다. SemCor를 이용하여 테스트한 결과 두 요소를 결합한 방법에 의해 WSD가 약 20% 향상되었다.

  • PDF

양방향 LSTM을 적용한 단어의미 중의성 해소 감정분석 (Emotion Analysis Using a Bidirectional LSTM for Word Sense Disambiguation)

  • 기호연;신경식
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.197-208
    • /
    • 2020
  • 어휘적 중의성이란 동음이의어, 다의어와 같이 단어를 2개 이상의 의미로 해석할 수 있는 경우를 의미하며, 감정을 나타내는 어휘에서도 어휘적 중의성을 띄는 경우가 다수 존재한다. 이러한 어휘들은 인간의 심리를 투영한다는 점에서 구체적이고, 풍부한 맥락을 전달하는 특징이 있다. 본 연구에서는 양방향 LSTM을 적용하여 중의성을 해소한 감정 분류 모델을 제안한다. 주변 문맥의 정보를 충분히 반영한다면, 어휘적 중의성 문제를 해결하고, 문장이 나타내려는 감정을 하나로 압축할 수 있다는 가정을 기반으로 한다. 양방향 LSTM은 문맥 정보를 필요로 하는 자연어 처리 연구 분야에서 자주 활용되는 알고리즘으로 본 연구에서도 문맥을 학습하기 위해 활용하고자 한다. GloVe 임베딩을 본 연구 모델의 임베딩 층으로 사용했으며, LSTM, RNN 알고리즘을 적용한 모델과 비교하여 본 연구 모델의 성능을 확인하였다. 이러한 프레임워크는 SNS 사용자들의 감정을 소비 욕구로 연결시킬 수 있는 마케팅 등 다양한 분야에 기여할 수 있을 것이다.

의미 분석을 위한 말뭉치 기반의 온톨로지 학습 (Corpus-Based Ontology Learning for Semantic Analysis)

  • 강신재
    • 한국산업정보학회논문지
    • /
    • 제9권1호
    • /
    • pp.17-23
    • /
    • 2004
  • 본 논문은 한국어정보처리에서 단어의 의미를 결정하기 위한 말뭉치 기반의 온톨로지 학습 방법을 제시하고 있다. 먼저 이미 확보된 전자사전의 정보를 이용하여 단어의 확실한 의미를 우선 결정한 후, 아직 결정하지 못한 단어의 의미는 온톨로지를 이용하여 최종 결정하는 절차를 거친다. 온톨로지를 단어 의미 중의성 해소를 위한 지식베이스로 사용하기 위해서는, 온톨로지 내 개념들간의 상호정보가 말뭉치의 통계 정보에 근거하여 미리 계산된다. 계산된 상호정보 값을 가중치로 간주하면 온톨로지는 가중치 그래프로 생각할 수 있으므로, 개념간 최소 경로를 통하여 개념간 연관도를 알아 볼 수 있다. 실제 기계번역 시스템에서 본 방법은 온톨로지를 사용하지 않은 방법보다 9%의 성능 향상을 가져오는 결과를 얻을 수 있었다.

  • PDF

Word-Sense Classification by Hierarchical Clustering

  • Lau, KenY.K.;Luk RobertW.P.
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 1998년도 Language, Information and Computation = Selected Papers from the 12th Pacific Asia Conference on Language, Information and Computation, Singapore
    • /
    • pp.236-247
    • /
    • 1998
  • PDF