• Title/Summary/Keyword: 어휘 처리

Search Result 684, Processing Time 0.025 seconds

The cerebral activation related to Korean word ambiguity: MEG study (한국어 어휘의 중의성 해결과 관련된 대뇌활동: MEG 연구)

  • Yu, Gi-Soon;Kim, Choong-Myung;Kim, June-Sic;Chung, Chun-Kee;Nam, Ki-Chun
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2006.06a
    • /
    • pp.61-65
    • /
    • 2006
  • 본 연구는 한국어 어휘중의성 해결과정에 관련된 대뇌활동을 살펴보기 위하여 MEG(magnetoencephalography)를 이용한 실험을 실시하였다. 일차적으로 기존의 중의성 관련 fMRI 실험 결과들이 MEG를 이용한 신호원 국소화 결과와 유사한 패턴을 보이는지 확인하였고, 본 실험의 주요 목적인 중의성 관련 처리과정에 기저하는 하위 처리과정이 어떠한 기능적 처리 요소들로 분해될 수 있는 지에 대해서도 시간 해상도가 높은 MEG의 특성을 이용하여 관찰하였다. 분석 결과, 한국어 중의어 해소과정의 하위처리 과정은 어휘의미 접속이라는 기본적인 과정 비에, 이들의 의미분지를 유발하는 단서의 유무가 그 활성화 영역의 시간적인 패턴과 중의성 해결을 위한 지속시간에 영향을 미치는 것으로 확인되었다.

  • PDF

Morphological Analyzer of Yonsei Univ., morany: Morphological Analysis based on Large Lexical Database Extracted from Corpus (연세대 형태소 분석기 morany: 말뭉치로부터 추출한 대량의 어휘 데이터베이스에 기반한 형태소 분석)

  • Yoon, Jun-Tae;Lee, Chung-Hee;Kim, Seon-Ho;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.92-98
    • /
    • 1999
  • 본 논문에서는 연세대학교 컴퓨터과학과에서 연구되어 온 형태소 분석 시스템에 대해 설명한다. 연세대학교 자연 언어 처리 시스템의 기본적인 바탕은 무엇보다도 대량의 말뭉치를 기반으로 하고 있다는 점이다. 예컨대, 형태소 분석 사전은 말뭉치 처리에 의해 재구성 되었으며, 3000만 어절로부터 추출되어 수작업에 의해 다듬어진 어휘 데이터베이스는 형태소 분석 결과의 상당 부분을 제한하여 일차적인 중의성 해결의 역할을 담당한다. 또한 복합어 분석 역시 말뭉치에서 얻어진 사전을 바탕으로 이루어진다. 품사 태깅은 bigram hmm에 기반하고 있으며 어휘 규칙 등에 의한 후처리가 보강되어 있다. 이렇게 구성된 형태소 분석기 및 품사 태거는 구문 분석기와 함께 연결되어 이용되고 있다.

  • PDF

A Study on the Human Sensibility Ergonomic Design Supporting System (감성공학적 디자인 요소변환 지원 시스템의 설계에 관한 연구)

  • 한성배;양선모;정기원;김형범;박정호;이순요
    • Proceedings of the ESK Conference
    • /
    • 1996.04a
    • /
    • pp.129-135
    • /
    • 1996
  • 본 논문은 제품을 설계하는데 있어서 고객의 감성을 구체적인 디자인 요소로 변환하는 감성공학적 디자인 요소변환 지원 시스템을 설계하는데 목적이 있다. 감성공학적 디자인 요소변환 지원 시스템은 감성 데이터 처리 서브시스템, 디자인 요소변환 서브시스템, 형상 데이터 처리 서브시스템 등 크게 세 가지의 서브시스템으로구성된다. 감성 데이터 처리 서브시스템은 고객의 제품에 대한 정성적 감성을 분석하여 디지인 요소와 상관성을 나타내기 위한 시스템으로서, 제품을 표현하는 감성어휘를 추출하고 이를 분석하여 디자인 요소로 변환할 수 있게 해주는 데이터베이스를 구축하는 것이다. 디자인 요소변 환 서브시스템은 고객이 원하는 제품의 이미지를 구체적인 디자인 요소와 연결하는 추론 시스템으로서 감성 데이터베이스에 저장되어 있는 어휘 중에서 고객이 선택한 감성어휘에 대해 퍼지 추론을 이용하 여 디자인 요소와의 연결관계를 형성하게 된다. 형상 데이터 처리 서브시스템은 제품의 아이템/카테고 리에 대한 형상을 데이터베이스로 가지고 있으며, 디자인 요소변환 서브시스템에의해선정된 제품정보와 데이터베이스를 연결하여고객이 원하는 제품이 구체적으로 어떠한 형상을 가지게 되는가를 보여주게 된다.

  • PDF

Design and Implementation of Korean Lexical Acquistion Model using Computational Model (계산주의적 모델을 이용한 한국어 어휘습득 모텔 설계 및 구현)

  • Yu, Won-Hee;Park, Ki-Nam;Lyu, Ki-Gon;Lim, Heui-Seok
    • Proceedings of the KAIS Fall Conference
    • /
    • 2007.05a
    • /
    • pp.230-232
    • /
    • 2007
  • 본 논문은 인간의 언어정보처리과정 중 초기 어휘획득(lexical acquisition) 과정을 한국어에 적용시켜 Full-List 모형과 Decomposition 모형의 하이브리드한 형태의 계산주의적 (computational) 어휘정보처리 모델을 구현하고 실험하였다. 실험결과 학습을 통한 언어적 입력의 인간의 어휘획득 과정을 모사(simulate) 할 수 있었고, 특정 문법범주 습득 순서에 대한 이론적 근간을 제시할 수 있었다. 또한 본 연구의 모델에서 자동으로 생성된 Full-List 사전과 Decomposition 사전을 통해 인간의 대뇌 심성표상(mental representation) 형태를 유추할 수 있는 증거를 보였다.

  • PDF

Homonym Disambiguation based on Average Mutual Information (평균 상호정보량에 기반한 동음이의어 중의성 해소)

  • Hur, Jeong;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.159-166
    • /
    • 2005
  • 자연언어처리의 목적은 컴퓨터가 자연어를 이해할 수 있도록 하여, 인간에게 다양한 정보를 정확하고 빠르게 전달할 수 있도록 하고자 하는 것이다. 이를 위해서는 언어의 의미를 정확히 파악하여야 하는데, 어휘 의미 중의성 해소가 필수적인 기술이다. 본 연구에서는 평균 상호정보량에 기반한 동음이의어 의미 중의성 해소 기술을 소개한다. 사전 뜻풀이를 이용하는 기존 연구들은 어휘들간의 정확한 매칭에 의존하기 때문에 자료부족 현상이 심각하였다. 그러나, 본 연구에서는 어휘들간의 연관계수인 상호정보량을 이용함으로써 이 문제를 완화시켰다. 또한, 상호정보량을 가지는 어휘 쌍의 비율, 의미 별 빈도 정보와 뜻풀이의 길이를 가중치로 반영하였다. 본 시스템의 평가를 위해 질의응답 평가셋의 500여 개의 질의와 정답단락을 대상으로 동음이의어 의미 중의성 해소 평가셋을 구축하였다. 평가셋에 기반하여 두 가지 유형의 실험을 수행하였다. 실험 결과는 평균 상호정보량만을 이용하였을 때 62.04%의 정확률을 보였고, 가중치를 활용하였을 때 83.42%의 정확률을 보였다.

  • PDF

Management of Three-Syllable Nouns in Electronic Dictionary based on Morphological Information (형태 정보에 기반한 전자사전에서의 3음절 명사 처리)

  • 이은전;최기선
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.156-162
    • /
    • 2000
  • 언어학적 성과를 효과적으로 반영하고 운용할 수 있는 체계적인 전자 사전 구축을 위해선, 어휘들에 대한 총체적이고 체계적인 언어 정보 제공과 함께 효율적인 처리 방식이 무엇보다도 필요하다. 따라서 이번 전자 사전 구축 작업은 내용 면에서는 형태 정보를 중심으로 다양하고 상세한 어휘 특성들을 체계적으로 제시하였고, 기술 방식에 있어서는 모든 입력 정보를 코드화 시킴으로써 효율성을 추구했다. 또한 연구 과정에서 나타난 문제 유형에 대한 인식과 검토는 앞으로 사전 개발의 원칙 및 방향을 설정하는데 도움을 줄 수 있을 것으로 기대한다. 특히 단어 형성 정보에 있어서 접사 정보가 부착된 파생어 사전은 어휘 확장과 중의성 해결을 하는데 활용될 수 있을 것이다. 본고에서는 3음절 명사 사전 작업의 전반적인 파전, 분류 유형, 어휘 정보, 기술 방법 및 앞으로 논의될 문제 유형들을 담고 있다.

  • PDF

Knowledge Representation of Concept Word Using Cognitive Information in Dictionary (사전에 나타난 인지정보를 이용한 단어 개념의 지식표현)

  • Yun, Duck-Han;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.118-125
    • /
    • 2004
  • 인간의 언어지식은 다양한 개념 관계를 가지며 서로 망(network)의 모습으로 연결되어 있다. 인간의 언어지식의 산물 중에서 가장 체계적이며 구조적으로 언어의 모습을 드러내고 있는 결과물이 사전이라고 할 수 있다. 본 논문에서는 이러한 사전 뜻풀이 말에서 개념 어휘와 자동적인 지식획득을 통하여 의미 정보를 구조적으로 추출한다. 이러한 의미 정보가 추출되면서 동시에 자동적으로 개념 어휘의 의미 참조 모형이 구축된다. 이러한 것은 사전이 표제어 리스트와 표제어를 기술하는 뜻풀이말로 이루어진 구조의 특성상 가능하다. 먼저 172,000여 개의 사전 뜻풀이말을 대상으로 품사 태그와 의미 태그가 부여된 코퍼스에서 의미 정보를 추출하는데, 의미분별이 처리 된 결과물을 대상으로 하기 때문에 의미 중의성은 고려하지 않아도 된다. 추출된 의미 정보를 대상으로 정제 작업을 거쳐 정보이론의 상호 정보량(Ml)을 이용하여 개념 어휘와 의미 정보간에 연관도를 측정한 후, 개념 어휘간의 유사도(SMC)를 구하여 지식표현의 하나로 연관망을 구축한다.

  • PDF

Out of Vocabulary Word Extractor based on a Syllable n-gram (음절 n-gram 기반의 미등록 어휘 추정기 구현)

  • Shin, Junsoo;Hong, Chohee
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.139-141
    • /
    • 2013
  • 다양한 콘텐츠가 생성됨에 따라 신조어 및 미등록어도 다양한 형태로 나타나고 있다. 이러한 신조어 및 미등록어는 텍스트 처리 단계에서 오분석 되어 성능 저하의 원인이 된다. 본 논문은 이러한 문제를 해결하기 위해서 대량의 문서로부터 신조어 및 미등록 어휘를 추정하는 방법에 대해서 제안한다. 제안 방법은 대량의 문서로부터 음절 n-gram을 추출한 뒤, 각 n-gram에서 n을 한음절 축소 및 확장 시켜, (n+1)gram, (n-1)gram을 추가적으로 추출한다. 추출된 음절 n-gram을 기준으로 (n+1)gram, (n-1)gram과의 빈도 차이를 계산하여 빈도차가 급격하게 발생하는 구간을 신조어 및 미등록 어휘로 추정한다. 실험결과 신조어 뿐만 아니라 트위터, 미투데이 등과 같은 도메인에 종속적인 미등록 어휘도 추출되는 것을 확인할 수 있었다.

  • PDF

Abductive Rules for Text Cohesion (글의 응집성을 포착하기 위한 개연규칙)

  • Kim Gon;Yang Jae-Gun;Kim Min-Chan;Bae Jae-Hak
    • Annual Conference of KIPS
    • /
    • 2004.11a
    • /
    • pp.517-520
    • /
    • 2004
  • 본 논문에서는 글의 응집성을 포착하기 위하여 개연규칙을 활용한다. 개연규칙은 문장 구성성분들의 문장간 개연적 연결상황을 나타내고, 글의 인과 성향이나 담화작용을 반영한다. 글을 이해하기 위한 대표적인 속성에는 글에 긴밀성을 부여하는 응집성이 있다. 글의 응집성을 파악하기 위한 대표적인 언어학적 도구나 지식으로는 어휘사슬을 들 수 있다. 이에 본 논문에서는 주어진 예문의 어휘사슬을 개연규칙으로 찾아낸 개연사슬과 비교해 보았다. 그 결과, 중요도가 높은 어휘사슬과 대응하는 개연사슬을 발견할 수 있었다. 개연사슬은 종래의 어휘사슬의 기능을 포함할 뿐만 아니라, 줄거리 단위, 단서구 용법, 문장사이의 개연성 등을 감지하여 문장간의 의미적 연관성을 포착할 수 있다. 이는 개연규칙을 활용하여 글의 화제문을 효과적으로 선별할 수 있음을 보인다.

  • PDF

Development of Automatic Sign Language Translation System using Korean WordNet (한국어 어휘의미망을 이용한 자동 수화 번역 시스템의 개발)

  • Kim, Minho;Choi, Sung-Ki;Kwon, Hyuk-Chul
    • Annual Conference of KIPS
    • /
    • 2013.11a
    • /
    • pp.1358-1361
    • /
    • 2013
  • 한국어와 한국 수화 간 자동 번역을 위해서는 한국어-한국 수화 대역어 사전이 필요하지만, 현재 한국 수화 사전으로 가장 공신력 있는 한국 수화 사전은 등재 어휘 수가 약 12,000개에 불과하다. 이 때문에 한국어를 한국 수화로 자동 번역을 할 때 대치어가 없어 완벽하게 번역이 되지 않는다. 본 연구에서는 한국 수화 사전의 미등재어로 말미암은 번역률 저하를 최소화하고자 한국어 어휘의미망의 동의어와 상 하위어 정보를 이용한다. 또한, 자동 번역에서 빈번하게 발생하는 어의 중의성 문제도 한국어 어휘의미망의 정보를 이용하여 어의 중의성 해소 규칙을 일반화한다.