• Title/Summary/Keyword: 규칙기반 형태소 분석

Search Result 55, Processing Time 0.021 seconds

A Corpus-based Hybrid Model for Morphological Analysis and Part-of-Speech Tagging (형태소 분석 및 품사 부착을 위한 말뭉치 기반 혼합 모형)

  • Lee, Seung-Wook;Lee, Do-Gil;Rim, Hae-Chang
    • Journal of the Korea Society of Computer and Information
    • /
    • v.13 no.7
    • /
    • pp.11-18
    • /
    • 2008
  • Korean morphological analyzer generally generates multiple candidates, and then selects the most likely one among multiple candidates. As the number of candidates increases, the chance that the correctly analyzed candidate is included in the candidate list also grows. This process, however, increases ambiguity and then deteriorates the performance. In this paper, we propose a new rule-based model that produces one best analysis. The analysis rules are automatically extracted from large amount of Part-of-Speech tagged corpus, and the proposed model does not require any manual construction cost of analysis rules, and has shown high success rate of analysis. Futhermore, the proposed model can reduce the ambiguities and computational complexities in the candidate selection phase because the model produces one analysis when it can successfully analyze the given word. By combining the conventional probability-based model. the model can also improve the performance of analysis when it does not produce a successful analysis.

  • PDF

moHANA: Morphological Hangul Analyzer using Multi-Dimensional Analysis Dictionary (moHANA: 다차원 해석 사전을 기반으로 한 한국어 형태소 분석기)

  • Seo, SeungHyeon;Kang, In-Ho;Kim, JaeDong
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.99-106
    • /
    • 2007
  • 본 연구는 국어의 모든 언어적 특성을 기술하고 이를 실제 형태소 분석에 적용할 수 있도록 다차원 해석 사전을 이용하는 형태소 분석 시스템인 moHANA(Morphological Hangul Analyzer)에 관한 연구이다. moHANA의 해석 사전은 태그정보 사전, 어휘 사전 그리고 문법 사전으로 구성된다. 태그정보 사전은 기존 형태소 해석기의 일차원적인 품사 정보와 달리 어류 태그정보, 형태적 정보, 통사적 정보, 의미적 정보 및 화용 정보의 5 차원 벡터 정보로 작성된다. 어휘 사전은 어휘와 그 어휘가 가질 수 있는 태그정보를 우선 순위에 기반하여 순서열로 가지며, 문법 사전은 특수 문법 연산자를 이용하여 태그정보 사전에 정의된 각각의 태그가 연결 가능한지 여부를 규정하는 문법이 구축되어 있다. 형태소가 가지는 태그정보를 다차원으로 정의하고 이에 따른 문법 규칙의 표현을 통해 보다 자세한 형태소 분석 및 새로운 형태소 태그의 삽입과 삭제의 용이함을 얻을 수 있다.

  • PDF

Construction of Partial Word Morpheme Dictionary based on Tagged Corpus and Korean Morphological Analysis (말뭉치 기반 부분 어절 기분석 사전의 구축과 형태소 분석)

  • Shin, Joon-Choul;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.67-72
    • /
    • 2011
  • 기존의 말뭉치 기반 한국어 형태소 분석 방법은 대용량의 어절 기분석 사전을 사용하여 분석하고, 그 사전에 없는 어절은 코드 변환, 형태소 분리, 원형 복원 규칙 적용 등을 거치는 복잡한 분석 방법을 통해 후보들을 생성했다. 이 복잡한 분석 방법은 제작과 유지보수, 실행 관점 모두에서 효율적이지 못하며 정확률을 낮추고 속도를 느리게 하는 요인이 된다. 이런 문제를 해결하기 위해 부분 어절의 기분석 사전을 구축하여 사용하는 방법이 연구되었다. 본 논문에서는 대용량의 분석 말뭉치를 통해 부분 어절의 기분석 사전을 구축하고 형태소 분석에 사용하는 방법을 제안한다. 세종 말뭉치로 실험한 결과 재현율이 99.05%였으며, 품사 및 동형이의어 태깅 정확률은 96.76%였다.

  • PDF

Performance Improvement of Dependency Parser using Syntactic Constraint Rules (통사적 제약규칙에 기반을 둔 의존문법 구문 분석의 성능 향상)

  • Nam, Woong;Kim, Hyemi;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.353-355
    • /
    • 2013
  • 한국어는 어근의 형태가 변하는 굴절어인 영어와 달리, 한 어절이 어근과 접사가 결합하여 각자 고유한 의미를 지닌다. 이 때문에 하나의 어절에 대한 형태소 분석 후보가 여러 개가 나올 수 있어 구문 분석을 더욱 어렵게 만든다. 본 논문에서는 한국어의 통사적 특성에 적합한 의존문법을 이용하여 구분 분석을 수행한다. 모든 형태소 분석 후보에 의존관계를 부여하고 통사적 제약규칙을 통해 의존관계를 줄여나간다. 특히, 기존의 통사적 제약규칙에 형용사의 결합정보와 논항정보를 이용한 통사적 제약규칙을 추가하여 생성 가능한 의존관계의 수를 줄인다.

Pronunciation Generation Based on Morphophonological Analysis in Korean TTS (한글 TTS시스템에서 형태 음운론적 분석에 기반 한 발음열 생성)

  • Jeong, Kyung-Seok;Park, Hyuk-Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.559-562
    • /
    • 2001
  • 한국어 TTS시스템에서 한 가지 모듈로써의 발음열 생성기는 한국어의 특성상 음운적 조건과 형태론적 조건 등에 의해 다양한 방법과 예외처리를 요구하고 한국어의 음운현상에 대한 체계적인 분석과 처리가 필요하다. 그래서 이 논문은 형태 음운론적 분석을 통한 발음열 자동 생성기법을 소개한다. 이 시스템은 형태소 분석을 선행한 후, 특수문자나 숫자 등을 정규화하고 복합명사 분해 사전을 이용한 복합명사 분해와 추가 조건을 통해 ㄴ-첨가 규칙을 전 처리한다. 그리고 음운 변화 현상을 분석하여 선택적으로 규칙을 적용하여 발음열을 생성한다. 제안된 시스템은 기존의 형태소 분석되지 않은 시스템에 비해 더욱 효과적인 음운, 형태소 변화를 가져옴과 함께, 특히 ㄴ-첨가가 적용되는 텍스트는 7$\sim$8%정도의 나은 발음열을 생성찬 수 있었다. 그 결과, 발음열 생성기는 한국어 TTS 시스템의 한국어 처리라는 고질적인 문제 해결에 좋은 방향과 결과를 기여할 수 있다.

  • PDF

Implementing Korean Partial Parser based on Rules (규칙에 기반한 한국어 부분 구문분석기의 구현)

  • Lee, Kong-Joo;Kim, Jae-Hoon
    • The KIPS Transactions:PartB
    • /
    • v.10B no.4
    • /
    • pp.389-396
    • /
    • 2003
  • In this paper, we present a Korean partial parser based on rules, which is used for running applications such as a grammar checker and a machine translation. Basically partial parsers construct one or more morphemes and/or words into one syntactical unit, but not complete syntactic trees, and accomplish some additional operations for syntactical parsing. The system described in this paper adopts a set of about 140 manually-written rules for partial parsing. Each rule consists of conditional statements and action statement that defines which one is head node and also describes an additional action to do if necessary. To observe that this approach can improve the efficiency of overall processing, we make simple experiments. The experimental results have shown that the average number of edges generated in processing without the partial parser is about 2 times more than that with the partial parser.

Design and Impelmentation of a User-Centered Web-Based Learning Systemof French Inflectional Forms (사용자를 고려한 웹기반 불어 굴절 규칙 학습 시스템의 설계 및 구현)

  • 윤애선;김기혜
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.05a
    • /
    • pp.143-149
    • /
    • 2000
  • 본고에서는 불어 자동처리 연구의 기초이면서, 불어 초·중급 학습에 가장 큰 걸림돌로 여겨지는 불어 굴절 변화형의 분석 및 생성 교육 시스템 Inflection-edu를 소개한다. inflection-edu는 부산대학교 언어 정보 연구실에서 개발한 불어 형태소 분석-생성기를 기반으로 하였으며, 동사 8,249개, 명사 29,059개, 형용사 9,957개와 그 굴절 변화형을 모두 분석 및 생성할 수 있으며, 학습자를 위한 굴절 규칙 231개를 포함한다. 제 2 장에는 분석과 생성을 위한 모델화(modelling) 방법론을 제시하고, 제 3 장에서는 이 결과를 불어 교육 시스템에 연동하기 위한 인터페이스를 제시하고, 제 4 장에서는 Inflection-edu의 인터페이스를 소개한다. 제 5 장에서는 남은 문제와 향후 응용 방향을 알아본다. 형태소 분석기와 생성기능이 교육 시스템에 통합된 Inflection-edu는 70년대 개발된 프로그램과 같이 단순하고 반복적인 교수-학습 작업을 제공하는 것이 아니다. 학습자의 요구에 정확하고 빠르게 피드백을 줄 수 있으며, 좀 더 큰 단위의 분석 및 생성이 가능하도록 하여, 좀 더 지능적인 언어 교육 시스템을 구현하는 것을 그 개발 목표로 하고 있다.

  • PDF

A Unified Probablistic Model for Correcting Spacing Errors and Improving Accuracy of Morphological Analysis of Korean Sentences (한국어 문장의띄어 쓰기 오류 교정과 최적 형태소 분석을위한 통합 확률 모델)

  • Lee, Dong-Joo;Yeon, Jong-Heum;Lee, Sang-Goo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.237-240
    • /
    • 2011
  • 띄어쓰기 오류는 한국어로 작성된 글에서 나타나는 가장 흔한 오류 중 하나로 문장의 의미적 모호성과 중의성을 가져온다. 규칙 기반 혹은 통계적접근 방법으로 띄어쓰기 오류를 교정하는다양한 방법이 제시되었으나, 기존의 방법들은 띄어쓰기를 형태소 분석의 전단계로 여기거나 띄어쓰기를 교정하기 위해서 형태소 분석을이용하는 등 각각을 독립된 과정으로 다루어, 한 과정에서 발생하는 오류가 다른 과정으로 전파되도록 하는 문제를 안고 있다. 본 논문에서는 띄어 쓰기와 최적 형태소 분석을 하나의 통합된 문제로 다루어각과정에서 발생할 수 있는 오류가 다른 과정에 영향을 주지 않도록 하고 상호 오류를 보완하여 좀더 정확한 띄어쓰기 오류 교정 및 형태소 분석을 가능하게 하는 확률적 접근 방법을 제시한다.

A Korean Grammar Chacker Founded on Expanded Lexical Disambiguation Rule and Partial Parsing (확장한 어휘적 중의성 제거 규칙에 따른 부분 문장 분석에 기반한 한국어 문법 검사기)

  • Park, Su-Ho;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.516-522
    • /
    • 2001
  • 본 논문에서는 한국어 형태소 분석기가 처리할 수 없는 어휘적 중의성 해결을 위한 방법으로 부분 문장 분석 기법을 연구한다. 부분 문장 분석 기법의 신뢰도를 높이기 위해서 말뭉치를 이용한 데이터를 통해 학습한 경험적 규칙을 이용한다. 학습한 경험적 규칙을 오류 유형에 따라 확장하고 전문화하여 축적된 연구결과를 지식 베이스로 삼아 한국어 맞춤법 및 문법 검사기에서 사용하는 부분 문장 분석기의 성능을 향상시킨다. 본 논문에서 사용한 확장하고 전문화한 지식 베이스는 말뭉치에서 얻은 경험적 규칙을 기반으로 한다. 이 경험적 규칙은 언어적 지식을 기반으로 한다.

  • PDF

The syllable recovrey rule-based system and the application of a morphological analysis method for the post-processing of a continuous speech recognition (연속음성인식 후처리를 위한 음절 복원 rule-based 시스템과 형태소분석기법의 적용)

  • 박미성;김미진;김계성;최재혁;이상조
    • Journal of the Korean Institute of Telematics and Electronics C
    • /
    • v.36C no.3
    • /
    • pp.47-56
    • /
    • 1999
  • Various phonological alteration occurs when we pronounce continuously in korean. This phonological alteration is one of the major reasons which make the speech recognition of korean difficult. This paper presents a rule-based system which converts a speech recognition character string to a text-based character string. The recovery results are morphologically analyzed and only a correct text string is generated. Recovery is executed according to four kinds of rules, i.e., a syllable boundary final-consonant initial-consonant recovery rule, a vowel-process recovery rule, a last syllable final-consonant recovery rule and a monosyllable process rule. We use a x-clustering information for an efficient recovery and use a postfix-syllable frequency information for restricting recovery candidates to enter morphological analyzer. Because this system is a rule-based system, it doesn't necessitate a large pronouncing dictionary or a phoneme dictionary and the advantage of this system is that we can use the being text based morphological analyzer.

  • PDF