• Title/Summary/Keyword: 최장일치법

Search Result 26, Processing Time 0.027 seconds

pseudo two-level model using extended longest match method in korean morphological analysis (한국어 형태소 분석에서 확장된 최장 일치법을 이용한 의사 투-레벨 모델)

  • Han, Y.G.;Lee, K.Y.;Lee, G.O.;Lee, Y.S.
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.491-496
    • /
    • 1999
  • 한국어 형태소 분석 방법 중 좌우 최장일치법은 분석 모델은 단순하지만 분석 후보의 과생성과 backtracking 발생 문제 등으로 인하여 연구가 미진하였다. 또한 Two-level 모델은 최장일치법에서 나타나는 문제점, 많은 two-level 규칙의 필요성, 그리고 중간 결과의 이용 문제로 인하여 한국어에 거의 적용되지 못하고 있다. 본 논문에서는 형태소 분석의 일반적인 모델로 알려진 Two-level 모델의 단점인 backtracking 문제와 분석 후보의 과생성 문제 그리고 중간 결과의 미사용 문제를 좌우 최장일치법을 이용하여 처리하는 방법론을 제안하고 좌우 최장일치법이 한국어 형태소 분석 방법에 효율적으로 적용될 수 있음을 제시한다.

  • PDF

The extended longest match strategy for efficient Korean analysis (효율적인 한국어 분석을 위한 확장된 최장일치법)

  • Lee, Gi-O;Lee, Keun-Yong;Lee, Yong-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.255-261
    • /
    • 1996
  • 한국어 형태소 분석 방법중 최장일치법은 영어의 분석처럼 one-pass로 한국어를 분석할 수 있도록 하는 기법에 가장 적절하다. 그러나 최장일치법은 매우 많은 분석 후보를 생성하여 탐색 회수가 많아 시스템의 성능을 떨어뜨린다. 또한 대부분의 한국어 형태소 분석 시스템들은 형태소 자체에만 중점을 두어 한국어 분석 시스템 전체의 성능은 고려하지 않아 형태소 분석 시스템의 결과가 파서의 입력에 적절치 못한 결과를 생성한다. 본 논문에서는 형태소 분석의 원형복원 규칙과 사전 탐색을 통합하여 과분석 후보에 대한 탐색 회수를 줄이고 전체 시스템의 성능을 향상시키기 위해 파서에 적합한 입력을 제공하는 확장된 최장일치법을 제안한다.

  • PDF

Eojeol-Block Bidirectional Algorithm for Automatic Word Spacing of Hangul Sentences (한글 문장의 자동 띄어쓰기를 위한 어절 블록 양방향 알고리즘)

  • Kang, Seung-Shik
    • Journal of KIISE:Software and Applications
    • /
    • v.27 no.4
    • /
    • pp.441-447
    • /
    • 2000
  • Automatic word spacing is needed to solve the automatic indexing problem of the non-spaced documents and the space-insertion problem of the character recognition system at the end of a line. We propose a word spacing algorithm that automatically finds out word spacing positions. It is based on the recognition of Eojeol components by using the sentence partition and bidirectional longest-match algorithm. The sentence partition utilizes an extraction of Eojeol-block where the Eojeol boundary is relatively clear, and a Korean morphological analyzer is applied bidirectionally to the recognition of Eojeol components. We tested the algorithm on two sentence groups of about 4,500 Eojeols. The space-level recall ratio was 97.3% and the Eojeol-level recall ratio was 93.2%.

  • PDF

Morphological Analyzer using Longest Match Method for Syntactic Analysis (최장일치를 이용한 구문 분석용 형태소 분석기)

  • Song, Y.J.;Lee, K.Y.;Lee, Y.S.
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.157-166
    • /
    • 1999
  • 형태소 분석 단계는 자연어 처리 과정의 첫 번째 단계로써 주어진 입력 어절들에 대한 형태소들의 조합을 추출하는 일을 한다. 형태소 분석 시스템의 기본적인 기능은 매우 중요하여 적용되는 형태소 분석 알고리즘에 따라 형태소 분석 시스템의 성능에 영향을 미친다. 그러나 형태소 분석 시스템, 구문 분석 시스템 및 의미 분석 시스템이 연계되어 하나의 자연어 처리 시스템이 구축되는 관점에서는 구문분석 시스템의 부담을 줄여 전체 시스템의 효율을 향상시키기 위하여 구문 분석 시스템의 입력에 적합한 형태소 분석 결과를 생성해주는 일 또한 형태소 분석 시스템의 중요한 역할이라 할 수 있다. 본 시스템은 최장일치법을 이용한 형태소 분석 방법으로 입력 어절에 대한 형태소 분석을 수행하는 동안 분석 후보의 개수를 줄이고 사전 탐색 시간을 줄여준다. 또한 구문분석 시스템의 입력에 적절한 형태소 분석 결과를 생성하여 전체 응용 시스템의 효율성을 향상시킨다.

  • PDF

Morpheme Segmentation and Part-Of-Speech Tagging Using Restricted Resources (제한된 자원을 사용한 한국어 형태소 분석)

  • Kang, Sangwoo;Yang, Jaechul;Kim, Harksoo;Seo, Jungyun
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.212-214
    • /
    • 2012
  • 한국어 형태소 분석 및 품사 부착에 대한 연구는 지속적으로 이루어져 왔으며 규칙 기반 방법, 통계 기반 방법 등을 중심으로 연구되었다. 본 논문에서는 최근 활용도가 높아지고 있는 모바일 기기에 적합한 한국어 형태소 분석 및 품사 부착 방법을 제안한다. 모바일 기기는 계산 처리 능력과 사용 가능한 메모리가 제한되기 때문에 전통적인 방법을 사용하여 형태소 분석 및 품사 부착을 수행하기에는 한계가 있다. 본 논문에서는 기존의 규칙 기반 형태소 분석 방법인 좌최장일치법을 변형하여 형태소 분석을 수행 하고, 통계적인 방법인 hidden Markov model 을 축소하여 형태소 품사 부착을 수행한다. 제안하는 방법은 기존의 hidden Markov model을 사용한 시스템과 유사한 성능을 보여주며 모바일 기기에 적합하도록 소량의 메모리 사용과 월등히 빠른 속도로 형태소 분석 및 품사 부칙을 수행할 수 있다.

  • PDF

Light Weight Korean Morphological Analysis Using Left-longest-match-preference model and Hidden Markov Model (좌최장일치법과 HMM을 결합한 경량화된 한국어 형태소 분석)

  • Kang, Sangwoo;Yang, Jaechul;Seo, Jungyun
    • Korean Journal of Cognitive Science
    • /
    • v.24 no.2
    • /
    • pp.95-109
    • /
    • 2013
  • With the rapid evolution of the personal device environment, the demand for natural language applications is increasing. This paper proposes a morpheme segmentation and part-of-speech tagging model, which provides the first step module of natural language processing for many languages; the model is designed for mobile devices with limited hardware resources. To reduce the number of morpheme candidates in morphological analysis, the proposed model uses a method that adds highly possible morpheme candidates to the original outputs of a conventional left-longest-match-preference method. To reduce the computational cost and memory usage, the proposed model uses a method that simplifies the process of calculating the observation probability of a word consisting of one or more morphemes in a conventional hidden Markov model.

  • PDF

Functional Expansion of Morphological Analyzer Based on Longest Phrase Matching For Efficient Korean Parsing (효율적인 한국어 파싱을 위한 최장일치 기반의 형태소 분석기 기능 확장)

  • Lee, Hyeon-yoeng;Lee, Jong-seok;Kang, Byeong-do;Yang, Seung-weon
    • Journal of Digital Contents Society
    • /
    • v.17 no.3
    • /
    • pp.203-210
    • /
    • 2016
  • Korean is free of omission of sentence elements and modifying scope, so managing it on morphological analyzer is better than parser. In this paper, we propose functional expansion methods of the morphological analyzer to ease the burden of parsing. This method is a longest phrase matching method. When the series of several morpheme have one syntax category by processing of Unknown-words, Compound verbs, Compound nouns, Numbers and Symbols, our method combines them into a syntactic unit. And then, it is to treat by giving them a semantic features as syntax unit. The proposed morphological analysis method removes unnecessary morphological ambiguities and deceases results of morphological analysis, so improves accuracy of tagger and parser. By empirical results, we found that our method deceases 73.4% of Parsing tree and 52.4% of parsing time on average.

Automatic Korean Spacing Words Correction System With Bidirectional Longest Match Strategy (양방향 최장일치법을 이용한 한국어 띄어쓰기 자동 교정 시스템)

  • Choi, Jae-Hyuk
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.145-151
    • /
    • 1997
  • 기존의 맞춤법 검사기의 단점인 오류 수정 작업과 처리 시간을 감소시키면서, 높은 오류 교정의 정확률을 보장하는 자동 오류 교정 시스템의 개발을 위한 첫 단계로써 한국어 오류의 80% 이상을 차지하는 띄어쓰기 오류에 대한 자동 교정 시스템을 개발하였다. 본 논문에서는 우리가 사용하는 일반 문서에서 띄어쓰기가 잘못된 단어에 대한 교정과 오류 단어에 대한 검색을 행하기 위하여, 띄어쓰기 교정 시스템의 개발 단계에서 현실적으로 고려해야 할 사항과 교정 정확률 및 처리 속도를 높이기 위한 본 시스템의 띄어쓰기 오류 루틴을 제시한다. 본 시스템의 처리 결과, 올바른 어절을 제외한 띄어쓰기가 잘못된 오류 단어(띄붙 오류와 붙띄 오류 포함)에 대해 약 98.7%의 띄어쓰기 교정 성공률을 보였다.

  • PDF

A Study on extraction for Korean-English word pair by using LCS algorithm (LCS알고리즘을 이용한 한-영 대역어 추출 연구)

  • Park, Eun-Jin;Yang, Seong-Il;Kim, Young-Kil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.707-709
    • /
    • 2007
  • 매일 생성되는 웹 신문에서 독자가 접해보지 못한 단어는 독자의 이해를 돕기 위하여 괄호를 사용한다. 괄호를 사용하여 표기된 웹 신문의 한국어-영어 대역쌍은 특정 기사에는 출현빈도가 낮지만 전체적으로 여러 신문의 기사를 봤을 때, 최소한 한번 이상 출현하게 된다. 즉, 괄호 안의 동일한 영어 용어 두 개 이상의 문장을 최장일치법 알고리즘에 적용하면 한국어 단어 경계를 자동으로 인식할 수 있다. 본 논문에서는 이런 웹 신문의 괄호 표기 특성을 이용하여 한-영 대역어쌍을 추출하는 방법을 제안한다. 웹 신문 기사 43,648 건에서 최대 2,087개의 한-영 대역어를 추출하였다. 3 개의 서로 다른 테스트 그룹으로 실험한 결과 최대 84.2%의 정확도를 보였다.

  • PDF

Automatic Word-Segmentation for Hangul Sentences (한글 문장의 자동 띄어쓰기)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.137-142
    • /
    • 1998
  • 자동 띄어쓰기는 띄어쓰기가 무시된 한글 문서의 자동색인이나 문자인식에서 줄바꿈 문자에 대한 공백 삽입 문제 등을 해결하는데 필요하다. 이러한 문서에서 공백이 삽입될 위치를 찾아 주는 띄어쓰기 알고리즘으로 어절 블록에 대한 문장 분할 기법과 양방향 최장일치법을 이용한 어절 인식 방법을 제안한다. 문장 분할은 한글의 음절 특성을 이용하여 어절 경계가 비교적 명확한 어절 블록을 추출하는 것이며, 어절 블록에 나타난 각 어절들을 인식하는 방법으로는 형태소 분석기를 이용한다. 4,500여 어절로 구성된 두 가지 유형의 문장 집합에 대하여 제안한 방법의 띄어쓰기 정확도를 평가한 결과 '공백 재현율'이 97.3%, '어절 재현율'이 93.2%로 나타났다.

  • PDF