• Title/Summary/Keyword: 형태소분석기

Search Result 16, Processing Time 0.019 seconds

Implementation of Modularized Morphological Analyzer (모듈화된 형태소 분석기의 구현)

  • Lee, Woon-Jae;Kim, Sun-Bae;Kim, Gil-Yeon;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.123-136
    • /
    • 1999
  • 자연언어처리 분야에서 형태소 분석은 가장 기본적인 단계로서 응용 시스템의 목적에 따라 사용되는 형태소 분석기의 수준과 사용 정보가 달라진다. 기존의 형태소분석기의 기능을 다른 목적을 지닌 응용 시스템에서 사용하려 할 때, 분석수준과 사용정보의 이질성으로 인해 변경 또는 확장하는데 많은 어려움이 있다. 이러한 형태소 분석기의 변경과 확장에 대한 다양한 요구를 수용하기 위한 방법으로서 재사용가능한 모듈화된 형태소 분석기의 구현을 제안한다. 모듈화된 형태소 분석기는 구성 요소인 모듈들의 독립성과 재사용성을 보장하기 때문에 확장과 보수가 쉽고, 특정한 요구사항에 대하여 새로운 형태소 분석기를 구현하는데 기존의 모듈들을 사용함으로써 시스템의 개발 시간을 단축시킨다. 본 논문에서는 이러한 모듈들의 사용성을 보여주기 위해 전처리기, 형태소 분석기, 명사 추출기, 태거 등을 하나의 시스템 안에 모듈화된 개념으로 구현하였고, 형태소 분석기는 사전, 음운 변화 처리, 결합 검사, 분석 알고리즘 등을 모듈화하여 재사용할 수 있다는 것을 보여준다.

  • PDF

Terminology Tagging System using elements of Korean Encyclopedia (백과사전 기반 전문용어 태깅 시스템)

Segmenting Korean Nominal Compounds with an Unknown Morpheme Using Back-off Statistics (백오프 통계정보를 이용한 미등록어 포함 복합명사의 분해)

  • Park, Jae-Han;Kim, Myoung-Sun;Rho, Dae-Wook;Ra, Dong-Yul
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.65-72
    • /
    • 2004
  • 본 논문에서는 백오프 통계 정보를 이용하여 일반적인 복합명사 뿐만 아니라 외래어 미등록어를 포함한 복합명사도 잘 분해하는 방법을 제안한다. 본 시스템은 입력으로 형태소분석기가 내주는 많은 분석 후보들을 받는다. 단음절 명사를 포함한 분석 후보도 포함되므로 입력 분석 후보의 수는 대단히 많게 된다. 본 모듈의 주요 작업은 이 중에서 가장 좋은 분석후보를 선택하는 것이 된다. 미등록어가 포함된 경우 이에 부합되는 분석 후보를 잘 선택하는 시스템의 개발을 목표로 한다. 이를 위해서 본 시스템에서 사용하는 주요 정보는 단어간 어휘 바이그램 통계정보이다. 또한 외래어 미등록어의 인식 정확성을 높이기 위해 음절 바이그램 정보도 이용한다. 통계정보는 대량의 품사 태깅 말뭉치에서 추출하였다. 데이터 부족 문제를 해소하기 위해서 우리는 백오프(back-off) 평탄화(smoothing) 기법을 이용하였다. 미등록어가 포함된 복합명사의 분석 후보의 수를 줄이기 위한 기술도 연구하였다.

  • PDF

Rule-based Speech Recognition Error Correction for Mobile Environment (모바일 환경을 고려한 규칙기반 음성인식 오류교정)

  • Kim, Jin-Hyung;Park, So-Young
    • Journal of the Korea Society of Computer and Information
    • /
    • v.17 no.10
    • /
    • pp.25-33
    • /
    • 2012
  • In this paper, we propose a rule-based model to correct errors in a speech recognition result in the mobile device environment. The proposed model considers the mobile device environment with limited resources such as processing time and memory, as follows. In order to minimize the error correction processing time, the proposed model removes some processing steps such as morphological analysis and the composition and decomposition of syllable. Also, the proposed model utilizes the longest match rule selection method to generate one error correction candidate per point, assumed that an error occurs. For the purpose of deploying memory resource, the proposed model uses neither the Eojeol dictionary nor the morphological analyzer, and stores a combined rule list without any classification. Considering the modification and maintenance of the proposed model, the error correction rules are automatically extracted from a training corpus. Experimental results show that the proposed model improves 5.27% on the precision and 5.60% on the recall based on Eojoel unit for the speech recognition result.

The syllable recovrey rule-based system and the application of a morphological analysis method for the post-processing of a continuous speech recognition (연속음성인식 후처리를 위한 음절 복원 rule-based 시스템과 형태소분석기법의 적용)

  • 박미성;김미진;김계성;최재혁;이상조
    • Journal of the Korean Institute of Telematics and Electronics C
    • /
    • v.36C no.3
    • /
    • pp.47-56
    • /
    • 1999
  • Various phonological alteration occurs when we pronounce continuously in korean. This phonological alteration is one of the major reasons which make the speech recognition of korean difficult. This paper presents a rule-based system which converts a speech recognition character string to a text-based character string. The recovery results are morphologically analyzed and only a correct text string is generated. Recovery is executed according to four kinds of rules, i.e., a syllable boundary final-consonant initial-consonant recovery rule, a vowel-process recovery rule, a last syllable final-consonant recovery rule and a monosyllable process rule. We use a x-clustering information for an efficient recovery and use a postfix-syllable frequency information for restricting recovery candidates to enter morphological analyzer. Because this system is a rule-based system, it doesn't necessitate a large pronouncing dictionary or a phoneme dictionary and the advantage of this system is that we can use the being text based morphological analyzer.

  • PDF

Analysis of Consumer Awareness of Cycling Wear Using Web Mining (웹마이닝을 활용한 사이클웨어 소비자 인식 분석)

  • Kim, Chungjeong;Yi, Eunjou
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.19 no.5
    • /
    • pp.640-649
    • /
    • 2018
  • This study analyzed the consumer awareness of cycling wear using web mining, one of the big data analysis methods. For this, the texts of postings and comments related to cycling wear from 2006 to 2017 at Naver cafe, 'people who commute by bicycle' were collected and analyzed using R packages. A total of 15,321 documents were used for data analysis. The keywords of cycling wear were extracted using a Korean morphological analyzer (KoNLP) and converted to TDM (Term Document Matrix) and co-occurrence matrix to calculate the frequency of the keywords. The most frequent keyword in cycling wear was 'tights', including the opinion that they feel embarrassed because they are too tight. When they purchase cycling wear, they appeared to consider 'price', 'size', and 'brand'. Recently 'low price' and 'cost effectiveness' have become more frequent since 2016 than before, which indicates that consumers tend to prefer practical products. Moreover, the findings showed that it is necessary to improve not only the design and wearability, but also the material functionality, such as sweat-absorbance and quick drying, and the function of pad. These showed similar results to previous studies using a questionnaire. Therefore, it is expected to be used as an objective indicator that can be reflected in product development by real-time analysis of the opinions and requirements of consumers using web mining.