• Title/Summary/Keyword: 동형 이의어

검색결과 62건 처리시간 0.028초

한-X 신경기계번역시스템에서 동형이의어 분별에 따른 변역질 평가 (An Evaluation of Translation Quality by Homograph Disambiguation in Korean-X Neural Machine Translation Systems)

  • 원광복;신준철;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.504-509
    • /
    • 2018
  • Neural machine translation (NMT) has recently achieved the state-of-the-art performance. However, it is reported failing in the word sense disambiguation (WSD) for several popular language pairs. In this paper, we explore the extent to which NMT systems are able to disambiguate the Korean homographs. Homographs, words with different meanings but the same written form, cause the word choice problems for NMT systems. Consistent with the popular language pairs, we discover that NMT systems fail to translate Korean homographs correctly. We provide a Korean word sense disambiguation tool-UTagger to use for improvement of NMT's translation quality. We conducted translation experiments using Korean-English and Korean-Vietnamese language pairs. The experimental results show that UTagger can significantly improve the translation quality of NMT in terms of the BLEU, TER, and DLRATIO evaluation metrics.

  • PDF

Word2Vec를 이용한 단어 의미 모호성 해소 (Word Sense Disambiguation using Word2Vec)

  • 강명윤;김보겸;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-84
    • /
    • 2015
  • 자연어 문서에 출현하는 단어에는 중의적 단어가 있으며, 이 단어에서 발생되는 의미 모호성은 대개 그 문맥에 따라 해소된다. 의미 모호성 해소 연구 중, 한국어 단어 공간 모델 방법은 의미 태그 부착 말뭉치를 이용하여 단어의 문맥 정보를 구축하고 이를 이용하여 모호성을 해결하는 연구로서 비교적 좋은 성능을 보였다. 본 연구에서는 Word2Vec를 이용하여 기존 연구인 한국어 단어 공간 모델의 단어 벡터를 효과적으로 축소할 수 있는 방법을 제안한다. 세종 형태 의미 분석 말뭉치로 실험한 결과, 제안한 방법이 기존 성능인 93.99%와 유사한 93.32%의 정확률을 보이면서도 약 7.6배의 속도 향상이 있었다.

  • PDF

의미 정보를 이용한 한국어 의미역 인식 연구 (A Study of Korean Semantic Role Labeling using Word Sense)

  • 임수종;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.18-22
    • /
    • 2015
  • 기계학습 기반의 의미역 인식에서 주로 어휘, 구문 정보가 자질로 주로 쓰이지만, 의미 정보를 분석하는 의미역 인식은 단어의 의미 정보 또한 매우 주요한 정보이다. 그러나, 기존 연구에서는 의미 정보를 활용할 수 있는 방법이 제한되어 있기 때문에, 소수의 연구만 진행되었다. 본 논문에서는 동형이의어 수준의 의미 애매성 해소 기술, 고유 명사에 대한 개체명 인식 기술, 의미 정보에 기반한 필터링, 유의어 사전을 이용한 클러스터 및 기존 프레임 정보를 확장하는 방법을 제안한다. 제안하는 방법은 기존 연구 대비 뉴스 도메인인 Korean Propbank는 3.14, 위키피디아 문서 기반의 WiseQA 평가셋인 GS 3.0에서는 6.57의 성능 향상을 보였다.

  • PDF

어휘지도(UWordMap)를 활용한 명사와 용언의 다의어 중의성 해소 (Noun and Verb Polysemy Word Sense Disambiguation Using UWordMap)

  • 신준철;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.216-219
    • /
    • 2015
  • 컴퓨터를 이용하여 명사와 용언의 의미를 자동으로 분별하는 것은 기계번역이나 검색 등의 기술에서 아주 중요한 기반 기술이다. 최근에 동형이의어 분별에 대한 연구 결과로 약 96%의 정확률을 보이는 시스템이 개발되었으나, 다의어 분별에 대한 연구는 아직 초기 단계로 일부 어휘만을 한정하여 연구되고 있다. 본 논문에서는 어휘지도를 이용하여 다의어를 분별하는 방법을 연구하였고, 어휘지도에 등록된 모든 일반 명사와 용언을 대상으로 실험하였다. 제안된 알고리즘은 문장에서 나타나는 명사와 용언의 관계를 어휘지도에서 찾고, 그 정보를 기반으로 다의어를 분별하였다. 아직은 그 정확률이 실용적인 수준이라고 볼 수는 없지만, 전체 다의어를 대상으로 실험하였고, 그 실험 결과를 분석함으로써 앞으로의 다의어 분별 연구 방향에 도움될 것으로 판단된다.

  • PDF

말뭉치 기반 부분 어절 기분석 사전의 구축과 형태소 분석 (Construction of Partial Word Morpheme Dictionary based on Tagged Corpus and Korean Morphological Analysis)

  • 신준철;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.67-72
    • /
    • 2011
  • 기존의 말뭉치 기반 한국어 형태소 분석 방법은 대용량의 어절 기분석 사전을 사용하여 분석하고, 그 사전에 없는 어절은 코드 변환, 형태소 분리, 원형 복원 규칙 적용 등을 거치는 복잡한 분석 방법을 통해 후보들을 생성했다. 이 복잡한 분석 방법은 제작과 유지보수, 실행 관점 모두에서 효율적이지 못하며 정확률을 낮추고 속도를 느리게 하는 요인이 된다. 이런 문제를 해결하기 위해 부분 어절의 기분석 사전을 구축하여 사용하는 방법이 연구되었다. 본 논문에서는 대용량의 분석 말뭉치를 통해 부분 어절의 기분석 사전을 구축하고 형태소 분석에 사용하는 방법을 제안한다. 세종 말뭉치로 실험한 결과 재현율이 99.05%였으며, 품사 및 동형이의어 태깅 정확률은 96.76%였다.

  • PDF

정렬기법을 이용한 전문분야 조어단위 대역쌍 추출 (An Alignment method for Extracting English-Korean translations of term constituents)

  • 오종훈;황금하;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.529-531
    • /
    • 2003
  • 전문용어는 전문분야의 개념을 표현하는 언어적 표현이다. 전문용어의 조어단위는 전문용어를 구성하는 최소의 형태적 단위이다. 이러한 조어단위는 전문용어의 의미를 파악하는데 중요할 뿐만 아니라 전문분야 문서에 대한 기계번역과 같은 작업에 중요한 언어자원으로 사용될 수 있다. 하지만‘조어단위와 개념단위의 불일치 문제’, 조어 단위의‘동형이의어’,‘동의이형어’문제 등으로 인하여, 하나의 전문분야 개념을 나타내는 조어단위들의 덩어리를 파악할 필요가 있다. 본 논문에서는 이러한 문제점을 조어분석 된 한영 대역 전문용어사전에 대한 한국어-영어 조어단위 정렬문제로 해결하고자 한다. 본 논문의 기법은 97%의 정확률로 조어단위 간의 정렬을 수행하였다.

  • PDF

지명 노이즈제거 기법을 적용한 트위터 기반 이벤트 탐지 시스템 (Event Detection System Based on Twitter Applied Geographical Name Denoising)

  • 우승민;황병연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1095-1097
    • /
    • 2015
  • 본 논문에서는 트위터 기반 이벤트 탐지에서의 기계학습을 통한 지명 노이즈제거 방식을 제안한다. 이벤트 탐지 시스템은 트위터 사용자 개개인을 이벤트 탐지의 센서로 이용하여 특정 지명에서 발생하는 이벤트를 탐지하였다. 그러나 지명과 동형이의어 관계의 단어가 탐지되어 이벤트 탐지의 정확도를 낮추는 요인이 된다. 이에 본 논문에서는 먼저 노이즈 관련 데이터베이스 구축을 이용하여 제거 필터링을 진행한 후에 기계학습을 이용해서 지명 유무를 결정하였다. 실험결과 본 논문에서 제시하는 예측기법은 89.6%의 신뢰도로 노이즈제거 기법의 필요성을 보였다.

트위터에서의 사례 기반 이벤트 지명 검출 기법 (A Method for Detecting Event-location based on Example in Tweet)

  • 하현수;황병연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1119-1121
    • /
    • 2015
  • 본 논문에서는 트위터 내용을 통해 이벤트를 탐지하는 시스템에서 지명 검출 정확도를 개선하는 방법을 제안한다. SNS를 이용한 개인 정보 유출 사례들이 늘어감에 따라 자신의 위치 정보를 공개하기 꺼려하기 때문에 이벤트가 발생한 지역을 검출하기 위해서는 텍스트 내용을 직접 분석해야한다. 그러나 오타나 줄임말, 동형이의어의 사용으로 정확한 지명 검출에 어려움이 발생하였다. 따라서 정확도를 향상시키기 위해 본 논문에서는 두 가지 지명 검출 기법을 제안한다. 지명 단어에서 발생되는 노이즈를 제거하는 지명 노이즈 제거 기법과 랜드 마크를 이용하여 지명 단어를 확정하는 지명 확정 기법이다. 실험 결과 기존 시스템의 정확도 49%에서 지명 노이즈 제거기법은 56%, 지명 확정 기법은 73%로 각각 향상되었다.

단어 의미 모호성 해소를 위한 군집화된 의미 어휘의 품질 향상 (Improving Clustered Sense Labels for Word Sense Disambiguation)

  • 박정연;신형진;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.268-271
    • /
    • 2022
  • 단어 의미 모호성 해소는 동형이의어의 의미를 문맥에 맞게 결정하는 일이다. 최근 연구에서는 희소 데이터 처리를 위해 시소러스를 사용해 의미 어휘를 압축하고 사용하는 방법이 좋은 성능을 보였다[1]. 본 연구에서는 시소러스 없이 군집화 알고리즘으로 의미 어휘를 압축하는 방법의 성능 향상을 위해 두 가지 방법을 제안한다. 첫째, 의미적으로 유사한 의미 어휘 집합인 범주(category) 정보를 군집화를 위한 초기 군집 생성에 사용한다. 둘째, 다양하고 많은 문맥 정보를 학습해 만들어진 품질 좋은 벡터를 군집화에 사용한다. 영어데이터인 SemCor 데이터를 학습하고 Senseval, Semeval 5개 데이터로 평가한 결과, 제안한 방법의 평균 성능이 기존 연구보다 1.5%p 높은 F1 70.6%를 달성했다.

  • PDF

정제된 의미정보와 시소러스를 이용한 동형이의어 분별 시스템 (A Korean Homonym Disambiguation System Using Refined Semantic Information and Thesaurus)

  • 김준수;옥철영
    • 정보처리학회논문지B
    • /
    • 제12B권7호
    • /
    • pp.829-840
    • /
    • 2005
  • 단어 의미 중의성 해소는 자연언어처리 분야에 매우 중요한 부분이다. 본 논문에서는 사전 뜻풀이 특성을 이용해 기존의 의미정보를 정제하고 유용한 정보인 확률정보, 거리정보 및 격정보 등을 추가한 WSD 모델을 제안하였으며, 사전을 기반으로 구축된 "울산대학교 어휘 지능망(UOU-Word Intelligent Network: U-WIN)" 상의 단어 계층적 구조(시소러스)를 이용하여 의미정보의 자료 부족 문제를 해소하는 모델을 제시하였"다. "21세기 세종 계획"에서 제공하는 150만 어절 규모의 의미 태그 말뭉치를 대상으로 한 실험에서 최다 빈도 의미 결정(Maximum Frequence Class, MFC, 정확률 베이스라인)에 비해 $18.97\%$(명사 $21.73\%$, 동사 $17.11\%$) 정확률 향상을 보였으며, 기존의 확률 가중치와 어절 거리 가중치를 이용한 모델에 비해서는 $10.49\%$(명사 $8.84\%$, 동사 $11.51\%$)의 정확률 향상되었다. 또한 시소러스를 사용하지 않고 확률정보, 거리정보, 격정보 만을 이용한 모델에 비해 $6.12\%$(명사 $5.29\%$, 동사 $6.64\%$) 높은 정확률을 보였다.