• 제목/요약/키워드: 의미 중의성 해소

검색결과 104건 처리시간 0.023초

단어링크와 공기 단어를 이용한 의미중의성 해소 (Word Sense Disambiguation Using Word Link and Word Cooccurrence)

  • 구영석;나동렬
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.21-27
    • /
    • 2002
  • 본 논문은 문장 안에서 의미 중의성을 갖는 단어가 출현했을 때 그 단어가 어떤 의미로 사용되고 있는지 판별해 주는 방법을 제시하고자 한다. 이를 위해서 먼저 중의적 의미를 가지는 단어의 각 의미 (sense) 마다에 대하여 이 의미를 나타내는 주요단어 즉 종자단어와 연관성이 있는 단어들로 벡터를 구성하여 이 의미를 나타내고자 한다. 종자단어와 말뭉치의 문장을 통하여 연결된 경로를 가진 단어는 이 종자단어에 해당하는 의미를 나타내는 데 기여하는 정보로 본 것이다. 경로는 동일 문장에서 나타나는 두 단어 사이는 링크가 있다고 보고 이러한 링크를 통하여 이루어 질 수 있는 연결 관계를 나타낸다. 이 기법의 장점은 데이터 부족으로 야기되는 문제를 경감시킬 수 있다는 점이다. 실험을 위해 Hantec 품사 부착된 말뭉치를 이용하여 의미정보벡터를 구축하였으며 ETRI 품사 부착된 말뭉치에서 중의적 단어가 포함된 문장을 추출하여 실시하였다. 실험 결과 기존의 방법보다 나은 성능을 보임이 밝혀졌다.

  • PDF

양방향 LSTM을 적용한 단어의미 중의성 해소 감정분석 (Emotion Analysis Using a Bidirectional LSTM for Word Sense Disambiguation)

  • 기호연;신경식
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.197-208
    • /
    • 2020
  • 어휘적 중의성이란 동음이의어, 다의어와 같이 단어를 2개 이상의 의미로 해석할 수 있는 경우를 의미하며, 감정을 나타내는 어휘에서도 어휘적 중의성을 띄는 경우가 다수 존재한다. 이러한 어휘들은 인간의 심리를 투영한다는 점에서 구체적이고, 풍부한 맥락을 전달하는 특징이 있다. 본 연구에서는 양방향 LSTM을 적용하여 중의성을 해소한 감정 분류 모델을 제안한다. 주변 문맥의 정보를 충분히 반영한다면, 어휘적 중의성 문제를 해결하고, 문장이 나타내려는 감정을 하나로 압축할 수 있다는 가정을 기반으로 한다. 양방향 LSTM은 문맥 정보를 필요로 하는 자연어 처리 연구 분야에서 자주 활용되는 알고리즘으로 본 연구에서도 문맥을 학습하기 위해 활용하고자 한다. GloVe 임베딩을 본 연구 모델의 임베딩 층으로 사용했으며, LSTM, RNN 알고리즘을 적용한 모델과 비교하여 본 연구 모델의 성능을 확인하였다. 이러한 프레임워크는 SNS 사용자들의 감정을 소비 욕구로 연결시킬 수 있는 마케팅 등 다양한 분야에 기여할 수 있을 것이다.

워드넷과 구글에 기반한 온톨로지 개체의 일반화 (Generalization of Ontology Instances Based on WordNet and Google)

  • 강신재;강인수
    • 한국지능시스템학회논문지
    • /
    • 제19권3호
    • /
    • pp.363-370
    • /
    • 2009
  • 본 논문은 온톨로지의 지식을 확장하기 위하여 웹 페이지 등 텍스트에서 추출된 온톨로지 개체(ontology instances)를 일반화하는 방법을 제시한다. 이를 위해서는 단어 의미 중의성 해소 과정이 필수적인데, 구글, 워드넷과 같은 오픈 API와 어휘 리소스를 이용하여 비교사학습 방법으로 해결하는 방법을 제안한다. 실험 결과 기존 연구에 비해 15.8%의 성능 향상을 얻을 수 있었다.

하위범주화 사전의 구축 및 자동 확장 (Development and Automatic Extraction of Subcategorization Dictionary)

  • 이수선;박현재;우요섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.179-181
    • /
    • 2000
  • 한국어의 통사적, 의미적 중의성 해결을 위해 하위범주화 사전을 구축하였다. 용언에 따라 제한될 수 있는 문형 패턴과 의미역(semantic roles) 정보의 표준을 정하여 이를 부가하였고 구축한 하위범주화 사전이 명사에 대한 의미를 갖고 있는 계층 시소러스 의미사전과 연동하도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 말뭉치와 구문분석된 말뭉치를 통해 검증 작업을 수행했다. 이 과정에서 자동으로 하위범주 패턴에 대한 빈도 정보나, 연어정보, 각 의미역과 용언의 통계적 공기 정보 등을 추출하여 하위범주화사전에 추가시켰다. 또한 여기서 얻은 정보를 기준으로 하위범주화 사전을 자동으로 확장하는 알고리즘을 적용하여 확장시켰다.

  • PDF

영한 기계 번역을 위한 혼합형 N-best 품사 태거 (A Hybrid N-best Part-of-Speech Tagger for English-Korean Machine Translation)

  • 임희석;권철중;이재원;오기은
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.15-19
    • /
    • 1998
  • 기계 번역 시스템에서 품사 태거의 오류는 전체번역 정확률에 결정적인 영향을 미친다. 따라서 어휘 단계의 정보만으로는 중의성 해소가 불가능한 단어에 대해서는 중의성 해소에 충분한 정보를 얻을 수 있는 구문 분석이나 의미 분석 단계까지 완전한 중의성 해소를 유보하는 N-best 품사 태거가 요구된다. 또한 N-best 품사 태거는 단어에 할당되는 평균 품사 개수를 최소화함으로써 상위 단계의 부하를 줄이는 본연의 역할을 수행하여야 한다. 본 논문은 통계 기반 품사 태깅 방법을 이용하여 N-best 후보를 선정하고, 선정된 N-best 후보에 언어 규칙을 적용하여 중의성을 감소시키거나 오류를 보정하는 혼합형 N-best 품사 태깅 방법을 제안한다 제안된 N-best 품사 태거는 6만여 단어의 영어 코퍼스에서 실험한 결과, 단어 당 평균 1.09개의 품사를 할당할 때 0.43%의 오류율을 보인다.

  • PDF

사전 정보를 이용한 단어 중의성 해소 모형에 관한 실험적 연구 (An Experimental Study on an Effective Word Sense Disambiguation Model Based on Automatic Sense Tagging Using Dictionary Information)

  • 이용구;정영미
    • 정보관리학회지
    • /
    • 제24권1호
    • /
    • pp.321-342
    • /
    • 2007
  • 이 연구에서는 수작업 태깅없이 기계가독형 사전을 이용하여 자동으로 의미를 태깅한 후 학습데이터로 구축한 분류기에 대해 의미를 분류하는 단어 중의성 해소 모형을 제시하였다. 자동 태깅을 위해 사전 추출 정보 기반방법과 연어 공기 기반 방법을 적용하였다. 실험 결과, 자동 태깅에서는 복수 자질 축소를 적용한 사전 추출 정보 기반 방법이 70.06%의 태깅 정확도를 보여 연어 공기 기반 방법의 56.33% 보다 24.37% 향상된 성능을 가져왔다. 사전 추출 정보 기반 방법을 이용한 분류기의 분류 정학도는 68.11%로서 연어 공기 기반 방법의 62.09% 보다 9.7% 향상된 성능을 보였다. 또한 두 자동 태깅 방법을 결합한 결과 태깅 정확도는 76.09%, 분류 정확도는 76.16%로 나타났다.

직관 실험 및 코퍼스를 바탕으로 한 의미 중의성 해소 계산 모형 연구 (A Study on the Computational Model of Word Sense Disambiguation, based on Corpora and Experiments on Native Speaker's Intuition)

  • 김동성;최재웅
    • 인지과학
    • /
    • 제17권4호
    • /
    • pp.303-321
    • /
    • 2006
  • 본 논문은 의미 중의성 해소에 대한 화자의 직관의 계산 모형에 대한 연구로 Harris (1964)의 '분포가설'에 근거하여 핵심어와 공기하는 어휘들에 대한 분포적 정규성을 포착하는 언어 직관의 계산 모형을 제안한다. 이를 위해 분포적 정규성에 대한 화자의 처리 계산 모형을 파악하기 위하여 심리언어학적 실험을 실시하고 그 결과를 분석한다. 계산 모형으로는 논리 모형, 확률 모형, 그리고 확률 추론 모형의 세가지 모형이 설정되었다. 실험은 두 가지로 구성되었다. 첫 번째는 100만 어절 코퍼스에서 추출된 문장을 화자 직관으로 의미를 식별하는 실험이었다. 이 실험에서는 응답간 일치도가 98%로 나왔다. 두 번째 실험은, 제한된 환경에서 실험자의 반응을 관찰하기 위한 것으로, 분열문이라는 환경을 통해 핵심어와 공기어사이의 의미 관계를 살펴보았다. 또한 100만 어절 코퍼스에서 관찰된 수치와 실험에서 관찰된 관찰치사이의 상관성을 피어슨의 상관계수로 측정하였다. 그러한 측정 결과 실제 코퍼스에서 관찰되는 현상은 논리모형과 상관성이 있었고, 제한된 환경에서 실시한 결과는 확률 모형과 상관성이 있었다. 이 실험결과는 논리 모형이 우선적으로 의미 분류에 관여하나, 만약 논리 모형이 적용되지 않을 경우 확률 모형이 관여함을 보여 준다. 아울러 의미 결정 모형의 관점에서는 논리 모형이 정확하게 직관모형을 예측할 수 있었고, 확률추론 모형도 직관모형을 근사치에 가깝게 예측할 수 있었다.

  • PDF

의료 문서의 특성을 고려한 단어 모호성 해소 연구 (Word Sense Disambiguation for Coarse-grained Medical Corpus)

  • 송사광;장재원;임명은;맹성현;박수준
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.943-948
    • /
    • 2007
  • 진료 기록 문서(CDA)가 의사들에 의해 작성되기 때문에 많은 전문용어, 약어, 숫자, 기호 등을 포함하고 있다. 본 논문에서는 이러한 특성을 고려하여 문서 내에서 여러 의미로 해석될 수 있는 약어, 중의어 등의 단어 모호성을 해소하고자 의미적 등가 부류를 이용하여 모호성을 해소하였다. 특히 의료문서가 많은 비율의 숫자, 기호를 사용하고 있고 문서 내에서 많은 의미적 유의성을 포함하고 있기 때문에 이들을 불용어로 처리하지 않고 의미적 등가 부류에 포함시킴으로써 진료문서 특성을 반영하였다.

  • PDF

한국어 어휘의 중의성 해결과 관련된 대뇌활동: MEG 연구 (The cerebral activation related to Korean word ambiguity: MEG study)

  • 유기순;김충명;김준식;정천기;남기춘
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2006년도 춘계학술대회
    • /
    • pp.61-65
    • /
    • 2006
  • 본 연구는 한국어 어휘중의성 해결과정에 관련된 대뇌활동을 살펴보기 위하여 MEG(magnetoencephalography)를 이용한 실험을 실시하였다. 일차적으로 기존의 중의성 관련 fMRI 실험 결과들이 MEG를 이용한 신호원 국소화 결과와 유사한 패턴을 보이는지 확인하였고, 본 실험의 주요 목적인 중의성 관련 처리과정에 기저하는 하위 처리과정이 어떠한 기능적 처리 요소들로 분해될 수 있는 지에 대해서도 시간 해상도가 높은 MEG의 특성을 이용하여 관찰하였다. 분석 결과, 한국어 중의어 해소과정의 하위처리 과정은 어휘의미 접속이라는 기본적인 과정 비에, 이들의 의미분지를 유발하는 단서의 유무가 그 활성화 영역의 시간적인 패턴과 중의성 해결을 위한 지속시간에 영향을 미치는 것으로 확인되었다.

  • PDF

외국어로서의 영어 구문 중의성 해결 과정 (Processing of the Syntactic Ambiguity Resolution in English as a Foreign Language)

  • 정유진;이윤형;황유미;남기춘
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 춘계 학술대회
    • /
    • pp.261-266
    • /
    • 2000
  • 글을 이해하기 위해서는 어휘와 어휘간의 연결 및 전체 구조를 아는 것이 필요하다. 이는 비단 한국어뿐만 아니라 영어나 기타 다른 외국어에서도 마찬가지일 것이다. 본고는 두 가지를 고찰하기 위해 진행되었는데 우선 외국어로서 영어를 처리하는데 발생하는 구문적 중의성을 해결하는데 Garden Path Sentence(GPS), Late Closure(LC), PP의 세 문형에 따라 어떻게 해결하는지 알아보기 위한 것이다. 그리고 각 문형의 중의적 어절에서의 반응과 애매성 해소 어절에서의 반응에 따라 sysntactic module이 작용하는 것인지 알아보고자 한다. 예를 들어 "The boat floated down the streams sank"란 Garden Path 문장이 제시된 경우에 독자는 "sank"란 어휘가 제시되기 전까지 "floated"를 동사로 생각하게 되나 다음에 본동사인 "sank"가 제시될 경우 문장의 해석에 혼란을 갖게 될 것이다. 예문에서 "floated"가 문장에서 어떤 역할을 하는지 결정하는 것은 "sank"를 보고서야 가능하다. 이런 구문적 중의성을 해결하는 방식을 알아보기 위해 어절 단위로 제시된 자극을 읽는 자기 조절 읽기 과제(self-paced reading task)를 사용하였다. 각 어절을 읽는데 걸리는 시간을 측정한 실험 결과 GPS, PP, LC 모두 중의성을 지닌 영역이 중의성을 해소한 후와 각각 유형적으로 큰 차이가 없는 것으로 나타났다. 다만 GPS, CGPS, PP와 CPP는 어절 후반으로 갈수록 반응시간이 짧아졌다. 이는 우리나라 사람의 경우 외국어인 영어의 구문 중의성 해소는 구문 분석 단원(syntactic module)에 의한 자동적 처리라기보다 의미를 고려해 가면서 문법지식을 이용해 추론을 통한 구문 분석이라 할 수 있다.에 의한 자동적 처리라기보다 의미를 고려해 가면서 문법지식을 이용해 추론을 통한 구문 분석이라 할 수 있다.많았다(P<0.05).조군인 Group 1에서보다 높은 수준으로 발현되었다. 하지만 $12.5{\;}\mu\textrm{g}/ml$의 T. denticola sonicated 추출물로 전처리한 Group 3에서는 IL-2와 IL-4의 수준이 유의성있게 억제되어 발현되었다 (p < 0.05). 이러한 결과를 통하여 T. denticola에서 추출된 면역억제 단백질이 Th1과 Th2의 cytokine 분비 기능을 억제하는 것으로 확인 되었으며 이 기전이 감염 근관에서 발견되는 T. denticola의 치수 및 치근단 질환에 대한 병인기전과 관련이 있는 것으로 사료된다.을 보였다. 본 실험 결과, $Depulpin^{\circledR}은{\;}Tempcanal^{\circledR}와{\;}Vitapex^{\circledR}$에 비해 높은 세포 독성을 보여주공 있으나, 좀 더 많은 임상적 검증이 필요할 것으로 사료된다.중요한 역할을 하는 것으로 추론할 수 있다.근관벽을 처리하는 것이 필요하다고 사료된다.크기에 의존하며, 또한 이러한 영향은 $(Ti_{1-x}AI_{x})N$ 피막에 존재하는 AI의 함량이 높고, 초기에 증착된 막의 업자 크기가 작을 수록 클 것으로 여겨진다. 그리고 환경의 의미의 차이에 따라 경관의 미학적 평가가 달라진 것으로 나타났다.corner$적 의도에 의한 경관구성의 일면을 확인할수 있지만 엄밀히 생각하여 보면 이러한 예의 경우도 최락의 총체적인 외형은 마찬가지로 $\ulcorner$순응$\lrcorner$의 범위를 벗어나지 않는다. 그렇기 때문에도 $\ulcorner$순응$\lrcorner$$\ulcorner$표현$\lrcorner$의 성격과 형태를 외형상으로 더욱이 공간상에서는 뚜렷하게 경계

  • PDF