• Title/Summary/Keyword: 어휘 처리

Search Result 684, Processing Time 0.026 seconds

Cognitive-Neuro Computational Model of Lexical Acquisition in Korean (인지신경기반의 한국어 어휘습득 계산주의적 모델)

  • Yu, Won-Hee;Park, Ki-Nam;Lyu, Ki-Gon;Lim, Heui-Seok;Nam, Ki-Chun
    • Proceedings of the KAIS Fall Conference
    • /
    • 2007.11a
    • /
    • pp.89-91
    • /
    • 2007
  • 본 논문은 인간의 어휘획득(Lexical Aquisition)과정을 하이브리드(hybrid)한 형태의 계산주의적(Computational) 모델을 설계,반복 실험을 통해 인지신경기반의 어휘습득 모델을 구현하고 실험하였다. 이 연구를 통해 인간의 어휘획득 과정을 모사(simulate)할수 있었고, 이로인해 인지신경기반 어휘 정보처리 시스템 개발을 위한 자동어휘 획득, 심성 어휘집 표상, 어휘 인식(word recognition)의 계산주의적 모델 개발에 기여할 수 있을 것이다.

  • PDF

Efficient Vocabulary Optimization Management using VCOR (VCOR를 이용한 효율적인 어휘 최적화 관리)

  • Oh, Sang-Yeob
    • Journal of Korea Multimedia Society
    • /
    • v.13 no.10
    • /
    • pp.1436-1443
    • /
    • 2010
  • In vocabulary recognition system has it's bad points of processing vocabulary unseen triphone and then no got distribution of confidence measure by cannot normalization. According to this problem to improve suggested VCOR(Version Control for Out-of Rejection) system by out-of vocabulary rejection algorithm use vocabulary management optimization and then phone data search support. In VCOR system to provide vocabulary information efficiently offering for user's vocabulary information using extend facet classification that improved for vocabulary measure management function offering accuracy of recognition for vocabulary. In this paper proposed system performance as a result of represent vocabulary dependence recognition rate of 97.56%, vocabulary independence recognition rate of 96.23%.

Un aspect do la recherche lexico-syntaxique doe constructions $\grave{a}$ verbs support on $cor{\acute{e}}en$ (한국어 기능동사 연구의 한 국면)

  • Hong, Chai-Song
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.527-532
    • /
    • 1993
  • 한국어 어휘부 구성에 기능동사(경동사) 구문에 관한 언어정보의 수록은 필수적이다. 범용적 대규모 한국어 어휘자료 database 구축을 위한 기능동사 구문과 언어학적 분석 기술과 관련하여 제기되는 여러 문제들 중에서 기능동사의 어휘적 한정의 문제는, 어휘부 중심의 논의를 펼칠 때, 각별한 중요성을 갖는다. 본 발표에서는 우선 확장된 기능동사 개념에 의거하여 기능동사 정보를 어휘부에 반드시 수록해야 할 논거를 제시하고, 기능동사의 어휘적 한정의 문제를 집중적으로 거론하고자 한다. 요점은 기능동사 구문이 서술명사와 기능동사의 결합에 의해 성립된다고 볼 때 이 두 범주의 어휘적 실현은 예측불가능한 제한적 결합관계에 의해 특징지어지므로, 일정한 서술명사와 결합 가능한 기능동사의 어휘적 형태를 어휘부에서 낱낱이 한정하고 기재하여야 하리라는 것이다. 이를 위한 필수적인 연구작업은 크게 상호보완적인 두 부분으로 이루어진다. 한편 한국어 서술명사의 총체를 목록화하고, 그 개별어휘 하나하나에 대해 가능한 기능동사 구문과, 구체적인 기능동사 어휘를 한정하는 것이 필요하다. 또 한편으로는 한국어 동사의 총체를 목록화하여, 그 개별어휘 하나하나의 가능한 통사적 실현을 체계화하는 과정에서 기능동사 용법을 빠짐없이 가려내는 작업이 요구된다고 보겠다.

  • PDF

Automatic Construction of Korean Two-level Lexicon using Lexical and Morphological Information (어휘 및 형태 정보를 이용한 한국어 Two-level 어휘사전 자동 구축)

  • Kim, Bogyum;Lee, Jae Sung
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.2 no.12
    • /
    • pp.865-872
    • /
    • 2013
  • Two-level morphology analysis method is one of rule-based morphological analysis method. This approach handles morphological transformation using rules and analyzes words with morpheme connection information in a lexicon. It is independent of language and Korean Two-level system was also developed. But, it was limited in practical use, because of using very small set of lexicon built manually. And it has also a over-generation problem. In this paper, we propose an automatic construction method of Korean Two-level lexicon for PC-KIMMO from morpheme tagged corpus. We also propose a method to solve over-generation problem using lexical information and sub-tags. The experiment showed that the proposed method reduced over-generation by 68% compared with the previous method, and the performance increased from 39% to 65% in f-measure.

Semi-automatic Event Structure Frame tagging of WordNet Synset (워드넷 신셋에 대한 사건구조 프레임 반자동 태깅)

  • Im, Seohyun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.101-105
    • /
    • 2018
  • 이 논문은 가장 잘 알려진 어휘부중 하나인 워드넷의 활용 범위 확장을 위해 워드넷 신셋에 "사건구조 프레임(Event Structure Frame)"을 주석하는 연구에 관한 것이다. 워드넷을 비롯하여 현재 사용되고 있는 어휘부는 풍부한 어휘의미정보가 구조화되어 있지만, 사건구조에 관한 정보를 포함하고 있지는 않다. 이 연구의 가장 큰 기여는 워드넷에 사건구조 프레임을 추가함으로써 워드넷과의 연결만으로 핵심적인 어휘의미정보를 모두 추출할 수 있도록 해준다는 점이다. 예를 들어 텍스트 추론, 자연어처리, 멀티 모달 태스크 등은 어휘의미정보와 배경지식(상식)을 이용하여 태스크를 수행한다. 워드넷에 대한 사건구조 주석은 자동사건구조 주석 시스템인 GESL을 이용하여 워드넷 신셋에 있는 예문에 먼저 자동 주석을 하고, 오류에 대해 수동 수정을 하는 반자동 방식이다. 사전 정의된 23개의 사건구조 프레임에 따라 예문에 출현하는 타겟 동사를 분류하고, 해당 프레임과 매핑한다. 현재 이 연구는 시작 단계이며, 이 논문에서는 빈도 순위가 가장 높은 100개의 동사와 각 사건구조 프레임별 대표 동사를 포함하여 총 106개의 동사 레마에 대해 실험을 진행하였다. 그 동사들에 대한 전체 워드넷 신셋의 수는 1337개이다. 예문이 없어서 GESL이 적용될 수 없는 신셋을 제외하면 1112개 신셋이다. 이 신셋들에 대해 GESL을 적용한 결과 F-Measure는 73.5%이다. 향후 연구에서는 워드넷-사건구조 링크를 계속 업데이트하면서 딥러닝을 이용해 GESL 성능을 향상 할 수 있는 방법을 모색할 것이다.

  • PDF

Implementation of Word Sense Disambiguation System based on Korean WordNet (한국어 어휘의미망에 기반을 둔 어의 중의성 해소 시스템의 구현)

  • Kim, Minho;Hwang, Myeong-Jin;Shin, Jong-Hun;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.96-102
    • /
    • 2008
  • 자연언어처리에서 어휘의 의미를 구분하는 것은 기계번역이나 정보검색과 같은 여러 응용 분야에서 매우 중요한 역할을 한다. 국내에서도 여러 어의 중의성 해소 시스템이 소개되었으나 대부분 시스템이 의미 부착 말뭉치를 이용한 감독 학습 방식을 기반으로 두고 있다. 본 논문은 한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 시스템을 소개한다. 일반적으로 감독어의 중의성 해소 시스템은 비감독 어의 중의성 해소 시스템보다 성능은 좋으나 대규모의 의미 부착 말뭉치가 있어야 한다. 그러나 본 시스템은 한국어 어휘의미망과 의미 미부착 말뭉치에서 추출한 어휘 통계정보를 이용해, 의미 부착 말뭉치에서 추출한 의미별 통계 정보를 이용하는 감독 중의성 해소 방법과 같은 효과를 낸다. 본 시스템과 타 시스템의 성능 비교를 위해 'SENSEVAL-2' 평가 대회의 한국어 평가 데이터를 이용하였다. 실험 결과는 추출된 통계 정보를 바탕으로 우도비를 이용하였을 때 정확도 72.09%, 관계어 가중치를 추가로 이용하였을 때 정확도 77.02%로 감독 중의성 해소 시스템보다 높은 성능을 보였다.

  • PDF

Fine-grained Sentiment Lexicon Construction via Semi-supervised Learning (준지도학습을 통한 세부감성 어휘 구축)

  • Jo, Yo-Han;Oh, Hyo-Jung;Lee, Chung-Hee;Kim, Hyun-Ki
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.33-38
    • /
    • 2013
  • 소셜미디어를 통한 여론분석과 브랜드 모니터링에 대한 요구가 증가하면서, 빅데이터로부터 감성을 분석하는 기술에 대한 필요가 늘고 있다. 이를 위해, 본 논문에서는 단순 긍/부정 감성이 아닌 20종류의 세분화된 감성을 분석하기 위한 감성어휘 구축 알고리즘을 제시한다. 감성어휘 구축을 위해서는 준지도학습을 사용하였으며, 도메인에 특화되지 않은 일반 감성어휘를 구축하도록 학습되었다. 학습된 감성어휘를 인물, 스마트기기, 정책 등 다양한 도메인의 트위터 데이터에 적용하여 세부감성을 분석한 결과, 알고리즘의 특성상 재현율이 낮다는 한계를 가지고 있었으나, 대부분의 감성에 대해 높은 정확도를 지닌 감성어휘를 구축할 수 있었고, 감성을 직간접적으로 나타내는 표현들을 학습할 수 있었다.

  • PDF

Pour un traitement lexicographique des proprietes syntaxiques et lexicales des noms coreens (언어사전의 명사항목 구성을 위한 통사 어휘 정보)

  • Hong, Chai-Song
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.96-98
    • /
    • 1989
  • 본 발표는 현대 한국어 어휘에 대한 공시적 시각 우위의 총체적 기술을 지향하는 대규모 언어사전의 명사 항목 내에 표시 되어야할 주요 통사 어휘 정보가 어떠한 것인가 하는 문제를 다룬다. 특히 기간 한국어 사전에서 소홀히 취급되었거나 무시되었으나, 언어학적으로는 중요하고, 따라서 언어 사전에 기록되는 것이 바람직한 한국어 명사의 통사 어휘적 속성의 일부를 소개해 보기로 한다.

  • PDF

The Lexical Sence Tagging for Word Sense Disambiguation (어휘의 중의성 해소를 위한 의미 태깅)

  • 추교남;우요섭
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.201-203
    • /
    • 1998
  • 한국어의 의미 분석을 위해서 의미소가 부여된 말뭉치(Sense-Tagged Corpus)의 구축은 필수적이다. 의미 태깅은 어휘의 다의적 특성으로 인해, 형태소나 구문 태깅에서와 같은 규칙 기반의 처리가 어려웠다. 기존의 연구에서 어휘의 의미는 형태소와 구문적 제약 등의 표층상에서 파악되어 왔으며, 이는 의미 데이터 기반으로 이루어진 것이 아니었기에, 실용적인 결과를 얻기가 힘들었다. 본 연구는 한국어의 구문과 의미적 특성을 고려하고, 용언과 모어 성분간의 의존 관계 및 의미 정보를 나타내는 하위범주화사전과 어휘의 계층적 의미 관계를 나타낸 의미사전(시소러스)을 이용하여, 반자동적인 방법으로 의미소가 부여된 말뭉치의 구축을 위한 기준과 알고리즘을 논하고자 한다.

  • PDF