• Title/Summary/Keyword: 교착어

Search Result 48, Processing Time 0.022 seconds

A Korean Part-of-Speech Tagger using Simplified Eojeol-based unit (단순화된 어절을 단위로 하는 한국어 품사 태거)

  • Lee, Eui-Hyeon;Kim, Young-Gil;Shin, Jaehun;Kwon, Hong-Seok;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.268-272
    • /
    • 2016
  • 영어권 언어가 어절 단위로 품사를 부여하는 반면, 한국어는 굴절이 많이 일어나는 교착어로서 데이터부족 문제를 피하기 위해 형태소 단위로 품사를 부여한다. 이러한 구조적 차이 안에서 한국어에 적합한 품사 태깅 단위는 지속적으로 논의되어 왔으며 지금까지 음절, 형태소, 어절, 구가 제안되었다. 본 연구는 어절 단위로 태깅함으로써 야기되는 복잡한 품사 태그와 데이터부족 문제를 해소하기 위해 어절에서 주요 실질 형태소와 주요 형식 형태소만을 뽑아 새로운 어절을 생성하고, 생성된 단순한 어절에 대해 CRF 태깅을 수행하였다. 실험결과 평가 말뭉치에서 미등록 어절 등장 비율은 9.22%에서 5.63%로 38.95% 감소시키고, 어절단위 정확도를 85.04%에서 90.81%로 6.79% 향상시켰다.

  • PDF

Korean Semantic Role Labeling Based on Suffix Structure Analysis and Machine Learning (접사 구조 분석과 기계 학습에 기반한 한국어 의미 역 결정)

  • Seok, Miran;Kim, Yu-Seop
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.11
    • /
    • pp.555-562
    • /
    • 2016
  • Semantic Role Labeling (SRL) is to determine the semantic relation of a predicate and its argu-ments in a sentence. But Korean semantic role labeling has faced on difficulty due to its different language structure compared to English, which makes it very hard to use appropriate approaches developed so far. That means that methods proposed so far could not show a satisfied perfor-mance, compared to English and Chinese. To complement these problems, we focus on suffix information analysis, such as josa (case suffix) and eomi (verbal ending) analysis. Korean lan-guage is one of the agglutinative languages, such as Japanese, which have well defined suffix structure in their words. The agglutinative languages could have free word order due to its de-veloped suffix structure. Also arguments with a single morpheme are then labeled with statistics. In addition, machine learning algorithms such as Support Vector Machine (SVM) and Condi-tional Random Fields (CRF) are used to model SRL problem on arguments that are not labeled at the suffix analysis phase. The proposed method is intended to reduce the range of argument instances to which machine learning approaches should be applied, resulting in uncertain and inaccurate role labeling. In experiments, we use 15,224 arguments and we are able to obtain approximately 83.24% f1-score, increased about 4.85% points compared to the state-of-the-art Korean SRL research.

Segmentation of Chinese Long Sentence Using Support Vector Machine (SVM 모델을 이용한 중국어 장문 분할)

  • Jin, Mei-Xun;Kim, Mi-Young;Kim, Dong-Il;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.261-266
    • /
    • 2003
  • 문장이 길면 구문분석의 정확률이 크게 낮아진다. 따라서 장문을 분할하여 분석하면 구문분석의 복잡도를 크게 줄일 수 있어 정확률 향상에 크게 기여할 수 있다. 특히, 중국어는 고립어로서, 교착어나 융합어와 비교할 때 자연어처리에 도움을 줄 수 있는 굴절이나 어미정보가 없어 구문분석에 어려움이 더욱 많다. 반면, 중국어 문자에서는 쉼표를 비교적 많이 사용하고 있고 또한 쉼표의 쓰임이 정확하므로 구문 분석에 도움을 줄 수 있다. 본 논문에서는 쉼표가 많이 쓰이고 있는 중국어 문장에서 해당 쉼표위치 문장 분할가능여부를 Support Vector Machine을 이용 판단하여 정확률 88.61%의 높은 분할 성능을 보였다.

  • PDF

Encoding of Morphological Analysis Result and Eojeol Dictionary Construction (형태소 분석 결과의 인코딩 기법과 어절 사전 구축)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.112-117
    • /
    • 2004
  • 형태소 분석에서 사용되는 사전은 형태소와 품사 정보를 수록하고 있다. 단어가 한 개의 형태소로 구성되는 굴절어는 대부분의 단어가 어휘형태소의 기본형과 일치되기 때문에 형태소 분석 알고리즘은 사전 탐색과 형태론적 변형을 통해 입력 단어와 어휘형태소를 일치시키는 과정으로 기술된다. 이에 비해, 교착어는 입력 어절이 형태소 사전의 어휘형태소와 일치하지 않기 때문에 어절 자체가 형태소 사전에 포함되지 않아서 굴절어에 비해 상대적으로 형태소 분석 알고리즘의 복잡도가 높고 분석 시간이 오래 걸리는 단점이 있다. 본 논문에서는 고빈도 어절에 대한 기분석 어절 사전을 구축하여 형태소 분석 속도를 개선하고, 사용자가 어절 사전에 새로운 어절을 추가하거나 어절 사전에 수록된 분석 결과를 수정할 수 있는 어절 사전에 의한 형태소 분석 방법을 제안한다. 구체적인 방법론으로써 형태소 분석 결과를 저장하는 기분석 어절 사전의 크기를 최소화하기 위해 분석 결과를 생성하는데 필요한 최소한의 정보만을 인코딩하는 방법을 사용한다.

  • PDF

A Development of Han-geul Spelling Checker (한글 맞춤법 검사 시스템의 개발)

  • Park, Jong-Mahn;Kim, Young-Chan
    • Annual Conference on Human and Language Technology
    • /
    • 1990.11a
    • /
    • pp.11-15
    • /
    • 1990
  • 문자 생활에 있어서 컴퓨터의 도입이 가속화되면서, 한글의 맞춤법 검사를 자동으로 해주는 문안 편집 도움 기법의 필요성이 대두되었다. 교착어인 한국어의 문자인 한글의 맞춤법 검사는 다른 언어에 비해 상대적으로 어렵게 여겨져 왔다. 본 논문에서는 한글 맞춤법 검사시스템의 개발에 대하이 실용화의 관점에서 논한다. 실용화의 관점에서는 한글 맞춤법 검사뿐 만 아니라 문서 편집기를 통한 인터페이스, 사전의 제공, 틀린 경우의 적절한 조치 등이 필요하다.

  • PDF

Improving Korean Word-Spacing System Using Stochastic Information (통계 정보를 이용한 한국어 자동 띄어쓰기 시스템의 성능 개선)

  • 최성자;강미영;권혁철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.883-885
    • /
    • 2004
  • 본 논문은 대용량 말뭉치로부터 어절 unigram과 음절 bigram 통계 정보를 추출하여 구축한 한국어 자동 띄어쓰기 시스템의 성능을 개선하는 방법을 제안한다 어절 통계를 주로 이용하는 기법으로 한국어 문서를 처리할 때, 한국어의 교착어적인 특성으로 인해 자료부족 문제가 발생한다 이물 극복하기 위해서 본 논문은 음절 bigram간 띄어쓸 확률 정보를 이용함으로써 어절로 인식 가능한 추가의 후보 어절을 추정하는 방법을 제안한다. 이와 글이 개선된 시스템의 성능을 다양한 실험 데이터를 사용하여 평가한 결과, 평균 93.76%의 어절 단위 정확도를 얻었다.

  • PDF

Analysis and Computational Processing of Sentences in Korean for Automatic Sign Language Generation (수화 자동 생성을 위한 한국어 문장 분석과 처리)

  • Choi, Ji-Won;Park, Jong-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.219-226
    • /
    • 2003
  • 한국 수화는 한국어에 대한 기본적인 유사성을 가지고 있지만, 교착어이자 청각-음성 체계 언어인 한국어와는 달리 고립어이자 시각-운동 체계 언어로서의 특성을 동시에 나타내고 있다. 그러므로 텍스트 형태의 한국어 문장으로부터 수화를 자동 생성하기 위해서는 한국어를 위해 미리 정의된 문법에 수화 표현을 무리하게 연계시키려고 하기 보다, 수화 고유의 의미 전달 체계를 분석하고 활용하여야 할 필요가 있다. 본 논문에서는 수화 표현상의 언어학적 특징을 재현 생략 변형 이동의 네 가지로 구분하여 분석하고 결합범주문법을 이용한 이 같은 형상의 처리 방법 및 구현 방안에 대하여 논의한다.

  • PDF

A Dictionay Composition for Morphological Analyzer from Corpus (코퍼스로부터 형태소 분석을 위한 사전 구성)

  • Jung, Min-Su;Jung, Kyu-Chol;Cho, Won-Hong
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.316-320
    • /
    • 1998
  • 한국어나 일본어처럼 문법형태소의 기능에 의해 단어의 통사적, 의미적 역할이 결정되는 교착어에서는 형태소 분석이 통사 분석과 의미 분석에 미치는 영향이 크기 때문에 한국어의 분석에 있어서 형태소 분석은 아주 중요하다. 관형적 표현이 많은 한글은 문법 규칙만으론 분석하기가 쉽지 않고, 분기가 많이 생성되므로 오류가 발생할 확률도 높다. 이러한 문제점을 해결하기 위해 본 논문에선 사전을 중심으로 해결하고자 한다. 그러기 위해선 방대한 용량의 사전이 필요로 하게 되고 이를 구축하기 위한 시간과 노력이 요구되므로 이미 구성된 코퍼스를 이용해 사전을 구성하여 많은 시간과 노력을 줄일 수 있도록 한다. 그리고 생성되는 많은 분기 가운데 올바른 경로를 찾아 가기 위해 코퍼스내의 각 태그 결합정보를 추출하고 추출한 결합정보의 통계정보-코퍼스내에서 사용된 빈도수-포함하여 우선순위를 정하도록 한다.

  • PDF

Universal POS Tagset for Korean (Universal POS 태그셋의 한국어 적용)

  • Park, Hye-Jin;Oh, Tae-Hwan;Kim, Han-Saem
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.417-421
    • /
    • 2018
  • The Universal Dependencies 프로젝트는 현재 71개 언어, 122개 Treebank로 이루어져 있으며, 병렬 언어 처리를 위해 여러 언어에 적용할 수 있는 형태적, 구문론적 특성을 찾는 것을 목표로 한다. 본고는 UD의 형태 태그셋인 Universal POS를 살펴보고, 한국어의 기존 형태 태그셋을 UPOS로 자동 변환하여 적용하는 방안을 제안한다. 영어와 같은 굴절어를 중심으로 구축된 UPOS 체계를 교착어에 속하는 한국어에 적용하기 위해서는 UPOS의 개별 표지와 21세기 세종계획 형태 주석 표지 결합체 간의 일대다 사상을 시도해야 한다.

  • PDF

A Compound Noun Processing in the Two-level Morphological Analysis of Korean (Two-level 한국어 형태소 해석에서의 복합명사 처리)

  • 이근용;박기선;이용석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.505-507
    • /
    • 2002
  • Two-level 형태소 해석 모델은 단어들이 결합할 때 발생하는 철자변화를 처리하는 언어 독립적인 형태소 해석 모델이다. 그러나 한국어의 경우 활용과 첨용이 자유로운 교착어에 속하며 음절단위 표현법 때문에 two-level 모델을 이용한 형태소 해석 방법보다는 언어 종속적인 형태소 해석 방법을 사용하여 왔다. 한국어 용언과 다양한 변형을 처리하기 위한 two-level 규칙이 표현되었지만, 형태소 해석에서 사용하기 위해서 필요한 복합명사 치리와 미지어 처리에 대한 적절한 방법이 아직 계시되지 않았다. 본 논문은 어절 생성 규칙을 이용한 사전 구성을 이용하여 two-level 모델에서의 한국어 복합명사의 처리에 대해서 다루고, two-level 모델에서 한국어 복합명사 처리가 가능함을 보이고자 한다.

  • PDF