• Title/Summary/Keyword: 복합형태소 분해

Search Result 8, Processing Time 0.031 seconds

Two-Stage Compound Morpheme Segmentation in CRF-based Korean Morphological Analysis (CRF기반 한국어 형태소 분할 및 품사 태깅에서 두 단계 복합형태소 분해 방법)

  • Na, Seung-Hoon;Kim, Chang-Hyun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.13-17
    • /
    • 2013
  • 본 논문은 CRF기반 한국어 형태소 분석 및 품사 태깅 과정에서 발생하는 미등록 복합형태소를 분해하기 위한 단순하고 효과적인 방법을 제안한다. 제안 방법은 1) 복합형태소를 내용형태소와 복합기능형태소로 분리하는 단계, 2) 복합기능형태소를 분해하는 두 단계로 구성된다. 실험 결과, 제안 알고리즘은 Sejong데이터에 대해, 기존의 lattice HMM 대비 높은 복합형태소 분해 정확률 및 두드러진 속도 개선을 보여준다.

  • PDF

CRFs for Korean Morpheme Segmentation and POS Tagging (CRF에 기반한 한국어 형태소 분할 및 품사 태깅)

  • Na, Seung-Hoon;Yang, Seong-Il;Kim, Chang-Hyun;Kwon, Oh-Woog;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.12-15
    • /
    • 2012
  • 본 논문은 한국어 형태소 분할 및 품사 태깅을 위해 조건부 랜덤 필드 (CRF: conditional random field)에 기반한 방식을 제안한다. 제안 방법은 1) 형태소 분할 단계 2) 품사 태깅 단계 3) 복합형태소 분할 및 태깅 단계의 세 단계로 이루어진다. 처음 두 단계는 CRF방법에 기반을 두고, 세 번째 단계에서는 일반화된 HMM (lattice-HMM)을 활용한다. 제안 방법은 세종 말뭉치 코퍼스에서 5-fold cross-validation로 평가한 결과, 약 96%의 품사 태깅 성능을 보여주었다.

  • PDF

Pronunciation Generation Based on Morphophonological Analysis in Korean TTS (한글 TTS시스템에서 형태 음운론적 분석에 기반 한 발음열 생성)

  • Jeong, Kyung-Seok;Park, Hyuk-Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.559-562
    • /
    • 2001
  • 한국어 TTS시스템에서 한 가지 모듈로써의 발음열 생성기는 한국어의 특성상 음운적 조건과 형태론적 조건 등에 의해 다양한 방법과 예외처리를 요구하고 한국어의 음운현상에 대한 체계적인 분석과 처리가 필요하다. 그래서 이 논문은 형태 음운론적 분석을 통한 발음열 자동 생성기법을 소개한다. 이 시스템은 형태소 분석을 선행한 후, 특수문자나 숫자 등을 정규화하고 복합명사 분해 사전을 이용한 복합명사 분해와 추가 조건을 통해 ㄴ-첨가 규칙을 전 처리한다. 그리고 음운 변화 현상을 분석하여 선택적으로 규칙을 적용하여 발음열을 생성한다. 제안된 시스템은 기존의 형태소 분석되지 않은 시스템에 비해 더욱 효과적인 음운, 형태소 변화를 가져옴과 함께, 특히 ㄴ-첨가가 적용되는 텍스트는 7$\sim$8%정도의 나은 발음열을 생성찬 수 있었다. 그 결과, 발음열 생성기는 한국어 TTS 시스템의 한국어 처리라는 고질적인 문제 해결에 좋은 방향과 결과를 기여할 수 있다.

  • PDF

A Study on Extraction for Korean Information Retrieval System (한국어 정보검색을 위한 색인어 추출방법에 관한 연구)

  • Choi, Soon-Woo;Kim, Sang-Bum;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.73-80
    • /
    • 2003
  • 본 논문에서는 색인 방법에 따른 한국어 정보검색시스템의 성능차이를 살펴보고 이를 분석하여 보다 검색성능을 높이기 위한 색인어 추출방법을 제안한다. 이를 위해 기존의 대표적인 색인법이라 할 수 있는 명사단위 색인법, 형태소 단위 색인법, 바이그램 단위 색인법, 어절단위 색인법에 대하여 실험을 통한 비교분석을 하였고, 질의별 분석을 통해 검색성능에 영향을 주는 요소들을 찾아내었다. 그 결과 빈칸, 면사분해, 명사, 동사, 형용사, 숫자등을 포함한 실질 형태소, 형식형태소의 제거, 외래어 등 추정명사의 분해 및 발음확장, 후방 단음절 명사로 구성된 복합명사의 분해, 의미를 변절시키는 바이그램 제거, 분해된 명사 수에 따른 복합명사 첨가 및 제거 등이 그 요소임을 확인할 수 있었다. 이를 토대로 각 색인법의 장점을 살려 색인 및 검색을 수행하여 보았다. 제안하는 방법은 동일한 실험집합에서 일관성 있은 성능향상을 가져다 줌을 알 수 있었다.

  • PDF

Design of Automatic Indexing System Using Korean Morpheme Network (문법형태소 네트워크를 이용한 자동색인 시스템의 설계)

  • Ahn, Sung-Hyun;Chang, Jae-Woo
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.13-17
    • /
    • 1995
  • 본 논문은 한국어 특성을 적용하여 키워드를 자동으로 추출하는 기법을 제시한다. 기존에 제안된 명사 추출 시스템인 문법형태소 네트워크를 확장하여 단일 명사 뿐만 아니라 복합 명사를 색인어로 추출한다. 복합 명사는 단일 명사에 비해 보다 한정적 개념을 가지므로, 색인어로 추출될 때 문헌의 식별력을 높일 수 있다. 복합 명사를 구성하는 각각의 단일 명사를 인식함으로써 복합 명사를 분해하고, 간단한 구단위 구문분석을 수행하는 명사 결합 규칙에 따라 단일 명사들을 복합 명사로 합성하는 방법을 제시한다. 마지막으로 이와 같이 추출된 복합 명사에, 복합 명사를 구성하는 단일 명사간의 연관성을 고려하여 보다 정확한 가중치를 부여할 수 있는 새로운 가중치 부여 방안을 제시한다.

  • PDF

Korean Part-Of-Speech Tagging by using Head-Tail Tokenization (Head-Tail 토큰화 기법을 이용한 한국어 품사 태깅)

  • Suh, Hyun-Jae;Kim, Jung-Min;Kang, Seung-Shik
    • Smart Media Journal
    • /
    • v.11 no.5
    • /
    • pp.17-25
    • /
    • 2022
  • Korean part-of-speech taggers decompose a compound morpheme into unit morphemes and attach part-of-speech tags. So, here is a disadvantage that part-of-speech for morphemes are over-classified in detail and complex word types are generated depending on the purpose of the taggers. When using the part-of-speech tagger for keyword extraction in deep learning based language processing, it is not required to decompose compound particles and verb-endings. In this study, the part-of-speech tagging problem is simplified by using a Head-Tail tokenization technique that divides only two types of tokens, a lexical morpheme part and a grammatical morpheme part that the problem of excessively decomposed morpheme was solved. Part-of-speech tagging was attempted with a statistical technique and a deep learning model on the Head-Tail tokenized corpus, and the accuracy of each model was evaluated. Part-of-speech tagging was implemented by TnT tagger, a statistical-based part-of-speech tagger, and Bi-LSTM tagger, a deep learning-based part-of-speech tagger. TnT tagger and Bi-LSTM tagger were trained on the Head-Tail tokenized corpus to measure the part-of-speech tagging accuracy. As a result, it showed that the Bi-LSTM tagger performs part-of-speech tagging with a high accuracy of 99.52% compared to 97.00% for the TnT tagger.

Morphological Analysis of the Korean Language (한국어의 형태소해석)

  • Lee, Soo-Hyon;Ozawa, S.;Lee, Joo-Keun
    • Journal of the Korean Institute of Telematics and Electronics
    • /
    • v.26 no.4
    • /
    • pp.53-61
    • /
    • 1989
  • A morphological analysis is described to extract the informations which are required in syntactic and semantic analysis of the Korean language. The noun and particle are separated in a noun phrase, the selecting conditions are specified to analyze the compound noun and a restoring rule is represented to process the irregular compound noun. The stem and ending are separated in normal verbals and a logical representive form is proposed to the anomalously inflected word and contracted vowels. The logical representation is composed of the attribute value an analyzing rule. The redundancy of noun is reduced in the dictionary as the verb of a "Nounformed HA-" is processed by "noun" and "HA-", separately and a predicative "IDA" is analyzed by Q parameter. The processing form of negation is also derived and the morpheme and basic structure of compound predicative parts are presented.

  • PDF

Integrated Indexing Method using Compound Noun Segmentation and Noun Phrase Synthesis (복합명사 분할과 명사구 합성을 이용한 통합 색인 기법)

  • Won, Hyung-Suk;Park, Mi-Hwa;Lee, Geun-Bae
    • Journal of KIISE:Software and Applications
    • /
    • v.27 no.1
    • /
    • pp.84-95
    • /
    • 2000
  • In this paper, we propose an integrated indexing method with compound noun segmentation and noun phrase synthesis. Statistical information is used in the compound noun segmentation and natural language processing techniques are carefully utilized in the noun phrase synthesis. Firstly, we choose index terms from simple words through morphological analysis and part-of-speech tagging results. Secondly, noun phrases are automatically synthesized from the syntactic analysis results. If syntactic analysis fails, only morphological analysis and tagging results are applied. Thirdly, we select compound nouns from the tagging results and then segment and re-synthesize them using statistical information. In this way, segmented and synthesized terms are used together as index terms to supplement the single terms. We demonstrate the effectiveness of the proposed integrated indexing method for Korean compound noun processing using KTSET2.0 and KRIST SET which are a standard test collection for Korean information retrieval.

  • PDF