• Title/Summary/Keyword: 형태소분석

Search Result 628, Processing Time 0.035 seconds

A Plug-In Component-based Korean Morphological Analyzer (플러그인 컴포넌트 기반의 한국어 형태소 분석기)

  • Park, Sangwon;Choi, Donghyun;Kim, Eunkyung;Choi, Keysun
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.197-201
    • /
    • 2010
  • 지식/정보 서비스의 수준이 급격히 발전함에 따라 기반 기술인 자연언어처리의 중요성이 증가했고, 또 여러 분야에서 다양한 목적에 부합하는 자연언어처리 도구를 필요로 하고 있다. 한국어 자연언어처리 기반 기술 중에서 형태소 분석은 기초적이면서도 중요한 분석 단계이다. 하지만 현재까지 개발된 한국어 형태소 분석기들은 대부분 특정 시스템에 맞게 최적화되어 실행 효율성과 정확성을 높이는데 중점을 두고 있다. 이러한 도구들은 접근성과 확장성이 떨어지고 다양한 요구에 유언하게 대처할 수 없는 단점이 있다. 따라서 본 논문에서는 플러그인 형태의 한국어 형태소 분석 컴포넌트들을 이용하여 유연하게 워크플로를 구성하고 다양한 목적에 맞게 활용할 수 있도록 지원하는 한국어 형태소 분석 시스템을 제안한다. 이번 연구를 통해서 보다 많은 사람들이 형태소 분석 기술에 쉽게 접근하고 활용하여, 한국어 분석 기반 기술 및 용용 기술이 더욱 발전 할 수 있을 것으로 기대한다.

  • PDF

Two-Stage Compound Morpheme Segmentation in CRF-based Korean Morphological Analysis (CRF기반 한국어 형태소 분할 및 품사 태깅에서 두 단계 복합형태소 분해 방법)

  • Na, Seung-Hoon;Kim, Chang-Hyun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.13-17
    • /
    • 2013
  • 본 논문은 CRF기반 한국어 형태소 분석 및 품사 태깅 과정에서 발생하는 미등록 복합형태소를 분해하기 위한 단순하고 효과적인 방법을 제안한다. 제안 방법은 1) 복합형태소를 내용형태소와 복합기능형태소로 분리하는 단계, 2) 복합기능형태소를 분해하는 두 단계로 구성된다. 실험 결과, 제안 알고리즘은 Sejong데이터에 대해, 기존의 lattice HMM 대비 높은 복합형태소 분해 정확률 및 두드러진 속도 개선을 보여준다.

  • PDF

Dynamic Oracle for Neural Transition-based Morpheme Segmentation and POS Tagging of Korean (동적 오라클을 이용한 뉴럴 전이기반 한국어 형태소 분석 및 품사 태깅)

  • Min, Jin-Woo;Na, Seung-Hoon;Sin, Jong-Hun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.413-416
    • /
    • 2018
  • 한국어 형태소 분석은 많은 자연어 처리 분야에서 핵심적인 역할을 수행하고 있기 때문에 형태소를 분류하고 형태소에 알맞은 품사를 결정하는 것은 매우 중요하다. 기존의 형태소 분석은 [B, I]등의 태그를 포함된 품사를 음절 단위로 결정하는 방식으로 주로 연구되었다. 본 논문에서는 의존 파싱 분야에서 널리 활용되는 전이 기반 방식을 이용하여 딥러닝 모델을 통해 형태소 분석을 수행한다. 이에 나아가 학습 단계에서 정답으로부터 추출된 정보를 사용하고 평가 단계에서는 예측으로부터 추출된 정보를 사용함으로써 발생하는 차이점을 극복하기 위한 방법론인 동적 오라클을 적용하였다. 실험 결과, 세종 품사 부착 말뭉치 셋에 적용하여 형태소 F1 97.93%, 어절 정확도 96.70%로 기존의 성능을 더욱 향상시켰다.

  • PDF

Multi-level Morphology and Morphological Analysis Model for Korean (다층 형태론과 한국어 형태소 분석 모델)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.140-145
    • /
    • 1994
  • 형태소 분석은 단위 형태소를 분리한 후에 변형이 일어난 형태소의 원형을 복원하고, 분리된 단위 형태소들로부터 단어 형성 규칙에 맞는 연속된 형태소들을 구하는 과정이다. 이러한 일련의 분석 과정은 독립적인 특성이 강하면서 각 모듈이 서로 밀접하게 연관되어 있으므로 Two-level 모델에서는 형태론적 변형뿐만 아니라 형태소 분리 문제를 통합 규칙으로 처리하고 있다. 그러나 한국어에 Two-level 모델을 적응해 보면 형태소 분리와 형태론적 변형이 복합되어 있어서 교착어의 특성과 관계되는 단어 유형을 분석할 때 비효율적인 요소가 발견된다. 따라서 본 논문에서는 교착어인 한국어의 형태소 분석시에 발생하는 문제점들을 해결하는데 적합한 방법론으로 다층 형태론(multi-level morphology)과 다단계 모델(multi-level model)을 제안한다.

  • PDF

An Efficient Recognition Algorithm of the Korean Unknow-words for Morpheme Analyser (형태소 분석기를 위한 효율적인 미등록 명사 추정 알고리즘)

  • Shin, Joon-Choul;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.233-237
    • /
    • 2014
  • 한국어 자료를 자동으로 처리하기 위해서 다양한 형태소 분석기가 연구되었으나, 대부분의 형태소 분석기는 미리 등록된 명사가 아니면 제대로 분석하지 못하는 문제점을 가지고 있다. 본 논문은 기존의 형태소 분석기를 수정하여 미등록 명사를 인식하도록 하는 방법을 소개한다. 이 방법은 비록 학습 알고리즘을 포함하지 않지만 비교적 구현이 쉽고 속도가 빠르며 형태소 분석기의 정확률 향상에 도움이 되었음을 실험으로 검증하였다. 그리고 이 알고리즘을 응용하여 사람이 반자동으로 미등록 명사를 포함할 가능성이 높은 어절을 수집하는 방법을 제안한다.

  • PDF

Korean Morphological Analyzer and POS Tagger Just Using Finite-State Transducers (유한상태변환기만을 이용한 한국어 형태소 분석 및 품사 태깅)

  • Park, Won-Byeong;Kim, Jae-Hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.165-168
    • /
    • 2006
  • 이 논문은 유한상태변환기만을 이용하여 한국어 형태소 분석 및 품사 태깅 시스템을 제안한다. 기존의 한국어 형태소 분석 시스템들은 규칙기반 형태소 분석기가 주를 이루고 한국어 품사 태깅 시스템은 은닉마르코프 모델 기반 품사 태깅이 주를 이루었다. 한국어 형태소 분석의 경우 유한상태변환기를 이용한 경우도 있었으나, 이 방법은 변환기를 작성하기 위한 규칙을 수작업으로 구축해야 하며, 그 규칙에 따라서 사전이 작성되어야 한다. 이 논문에서는 품사 태깅 말뭉치를 이용해서 유한상태변환기에서 필요한 모든 변환 규칙을 자동으로 추출한다. 이런 방법으로 네 종류의 변환기, 즉, 자소분리변환기, 단어분리변환기, 단어형성변환기, 품사결정변환기를 자동으로 구축한다. 구축된 변환기들은 결합연산(composition operation)을 이용하여 하나의 유한상태변환기를 구성하여 한국어 형태소 분석과 동시에 한국어 품사 태깅을 수행한다. 이 방법은 하나의 유한상태변환기만을 이용하기 때문에 복잡도는 선형시간(linear complexity)을 가지면, 형태소 분석기와 품사 태깅 시스템을 매우 짧은 시간 내에 개발 할 수 있었다.

  • PDF

Semi-Automatic Construction of Morphological Pattern Dictionary using the Method of Morphological Synthesis (형태소 합성 기법을 이용한 형태소 패턴 사전의 반자동 구축)

  • Park, In-Cheol
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.12 no.11
    • /
    • pp.5278-5283
    • /
    • 2011
  • One approach for very high speed korean morphological analysis is to use pre-built morphological results in dictionary. It pays the high cost to build this morphological pattern dictionary manually, besides the dictionary may contain errors. This paper proposes a method to generate morphological patterns automatically using Korean morphological synthesis. The experiment shows that we automatically generate 86% morphological patterns for analyzing Korean sentences. It takes 52.68 seconds for the morphological system using the patterns to analyze 403MB Korean corpus on 2.8GHz Window system.

Automatic Construction of Korean Two-level Lexicon using Lexical and Morphological Information (어휘 및 형태 정보를 이용한 한국어 Two-level 어휘사전 자동 구축)

  • Kim, Bogyum;Lee, Jae Sung
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.2 no.12
    • /
    • pp.865-872
    • /
    • 2013
  • Two-level morphology analysis method is one of rule-based morphological analysis method. This approach handles morphological transformation using rules and analyzes words with morpheme connection information in a lexicon. It is independent of language and Korean Two-level system was also developed. But, it was limited in practical use, because of using very small set of lexicon built manually. And it has also a over-generation problem. In this paper, we propose an automatic construction method of Korean Two-level lexicon for PC-KIMMO from morpheme tagged corpus. We also propose a method to solve over-generation problem using lexical information and sub-tags. The experiment showed that the proposed method reduced over-generation by 68% compared with the previous method, and the performance increased from 39% to 65% in f-measure.

Morphological Analysis of Irregular Conjugation in Korean with Micro Combinatory Categorial Grammar (MicroCCG를 이용한 용언의 불규칙 활용의 처리와 한국어 형태소 분석)

  • 이호준;박종철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.531-533
    • /
    • 2003
  • 본 논문에서는 형태소 수준의 결합범주문법을 이용하여 형태소 분석을 포함한 자연언어처리의 여러 단계를 한 단계의 유도과정으로 처리하고 형태소 분석 단계에서 증가하는 애매성과 복잡도를 상위 분석 단계의 정보를 사용하여 줄이는 방법에 대해서 논한다. 한국어에서 나타나는 복잡한 언어 현상 중에 하나인 용언의 불규칙 활용을 확률 정보뿐만 아니라 음운정보를 포함만 통사 정보나 의미 정보 등의 상위 정보를 사용하여 처리하여보고 일반적인 형태소 분석기로서의 발전 가능성에 대해서 알아본다.

  • PDF

Korean Morphological Analysis Considering a Term with Multiple Parts of Speech ("의미적 한 단어" 유형 분석 및 형태소 분석 기법)

  • Hur, Yun-Young;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.128-131
    • /
    • 1994
  • 한국어 문서중 신문이나 시사지, 법률관련문서, 경제학관련문서, 국문학관련문서와 같은 전문분야 문서에는 한글, 한자, 영어, 문장부호와 같은 기호들의 결합으로 이루어지면서 하나의 뜻으로 나타내는 "의미적 한 단어"가 많이 존재한다. 이러한 단어들은 이를 고려하지 못한 형태소 분석기의 분석률을 감소시키고, 오분석율을 증가시킨다. 본 논문은 "의미적 한 단어"의 유형과 분석과정에 따른 유형을 분류하였으며 그에 적합한 형태소 분석기법을 제시하였다. 유형 분류과 제사된 형태소 분석기법으로 구현된 형태소 분석기는 기존의 형태소 분석기보다 분석률이 증가되었으며 오분석률은 감소되었다.

  • PDF