• Title/Summary/Keyword: 교착어

Search Result 48, Processing Time 0.021 seconds

The Agglutination of the Korean Language and the Implementation of Korean Morphological Analyzer (국어의 교착성과 형태소 분석기의 구현)

  • Lee, Min-Haeng;Kim, Seong-Moo
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.105-117
    • /
    • 1992
  • 교착어(agglutinating language)에서는 다양한 통사정보가 독자적인 형태소에 내재되어 있다. 국어의 경우 형태소의 분석이 통사구조 분석에 선행되어 이루어져야 하는 이유가 바로 국어의 교착어적인 속성에 기인한다. 이 논문의 전반부에서 국어의 교착성을 명확히 보여주는 등위 접속구문을 핵심어 주도 구구조문법(HPSG)에 의하여 분석한다. 후반부에서는 PROLOG로 구현된 국어의 형태소 분석기와 통사구조 분석기(PARSER)를 소개한다.

  • PDF

A Case Study on Universal Dependency Tagsets of Japanes (일본어의 Universal Dependency 태그셋 적용 사례 연구 - 한국어와의 비교를 중심으로)

  • Lee, Jin;Han, Jiyoon;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.323-328
    • /
    • 2018
  • 한국어는 교착어적 특성으로 인하여 어미와 조사가 매우 발달되어 있다. 그러므로 영어와 같은 굴절어를 중심으로 설계된 UD를 한국어에 적용하는 것에는 많은 어려움이 있다. 이를 해결하기 위해서 형태통사적 특성이 유사한 일본의 UD 적용 사례를 살펴보고 한국어의 UD 적용 양상과의 비교 분석을 통해서 한국어의 UD 적용 및 개선 방안을 고찰해 보고자 한다. 한국어와 일본어는 동일한 교착어로서 비슷한 특성을 지니고 있으나, 주석의 기본 단위 설정에서 차이를 보이면서 UD를 적용하는 양상이 달라졌음을 확인하였다. 일본어의 UD 주석에서 형태 분석 기본 단위인 단단위(Short unit word, 長單位)를 기본 구문 주석 단위로 하되 장단위(Long unit word, 短單位)와 문절 정보를 이용하는 것처럼, 한국어에서도 형태 분석 단위를 기준으로 의존 관계를 주석하는 방안에 대해서도 고려할 필요가 있다.

  • PDF

Korean Spoken Language Analysis System Using Concept and Syntactic Information (개념 및 구문 정보를 이용한 한국어 대화체 분석시스템)

  • Wang, Ji-Hyun;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.341-346
    • /
    • 1997
  • 개념기반 분석방법은 발화문에서 발화자가 전달하고자 하는 중요한 부분만을 추출하여 개념어로 대표하여 분석하기 때문에 문장에서 발생하는 불필요한 여러 언어현상을 무시하고 주요 의미만 추출할 수 있는 강건함을 가장 큰 장점으로 갖는다. 한국어는 영어권 언어와는 달리 교착어와 부분 자유 어순의 특징을 가지기 때문에 구문정보를 이용하지 않는 순수 개념 기반의 분석기법을 한국어에 그대로 적용하면 문법의 복잡도가 증가하여 시스템 성능이 크게 저하된다. 본 논문에서 제시하는 구문정보를 이용한 개념기반의 분석방법은 순수 개념 기반의 분석기법이나 구문정보만을 사용하는 방법보다 모호성이 적고, 문법의 기술이 용이하며, 대화체 처리의 어려운 점들을 상당수 극복할 수 있다. 또한 분석루틴의 skip기능은 자연 발화문의 분석률을 높여주며, 어근으로부터 분리한 어미를 일정한 개념으로 분류함으로써 교착어의 특성으로 인한 문법의 복잡도를 해소하였고, 분석문법으로 부분 자유 어순에 따른 다양한 문장들을 수용할 수 있다.

  • PDF

Low-Resource Morphological Analysis for Kazakh using Multi-Task Learning (Low-Resource 환경에서 Multi-Task 학습을 이용한 카자흐어 형태소 분석)

  • Kaibalina, Nazira;Park, Seong-Bae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.437-440
    • /
    • 2021
  • 지난 10년 동안 기계학습을 통해 자연어 처리 분야에서 많은 발전이 있었다. Machine translation, question answering과 같은 문제는 사용 가능한 데이터가 많은 언어에서 높은 정확도 성능 결과를 보여준다. 그러나 low-resource 언어에선 동일한 수준의 성능에 도달할 수 없다. 카자흐어는 형태학적 분석을 위해 구축된 대용량 데이터셋이 없으므로 low-resource 환경이다. 카자흐어는 단일 어근으로 수백 개의 단어 형태를 생성할 수 있는 교착어이다. 그래서 카자흐어 문장의 형태학적 분석은 카자흐어 문장의 의미를 이해하는 기본적인 단계이다. 기존에 존재하는 카자흐어 데이터셋은 구체적인 형태학적 분석의 부재로 모델이 충분한 학습이 이루어지지 못하기 때문에 본 논문에서 새로운 데이터셋을 제안한다. 본 논문은 low-resource 환경에서 높은 정확도를 달성할 수 있는 신경망 모델 기반의 카자흐어 형태학 분석기를 제안한다.

Multi-level Morphology and Morphological Analysis Model for Korean (다층 형태론과 한국어 형태소 분석 모델)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.140-145
    • /
    • 1994
  • 형태소 분석은 단위 형태소를 분리한 후에 변형이 일어난 형태소의 원형을 복원하고, 분리된 단위 형태소들로부터 단어 형성 규칙에 맞는 연속된 형태소들을 구하는 과정이다. 이러한 일련의 분석 과정은 독립적인 특성이 강하면서 각 모듈이 서로 밀접하게 연관되어 있으므로 Two-level 모델에서는 형태론적 변형뿐만 아니라 형태소 분리 문제를 통합 규칙으로 처리하고 있다. 그러나 한국어에 Two-level 모델을 적응해 보면 형태소 분리와 형태론적 변형이 복합되어 있어서 교착어의 특성과 관계되는 단어 유형을 분석할 때 비효율적인 요소가 발견된다. 따라서 본 논문에서는 교착어인 한국어의 형태소 분석시에 발생하는 문제점들을 해결하는데 적합한 방법론으로 다층 형태론(multi-level morphology)과 다단계 모델(multi-level model)을 제안한다.

  • PDF

Korean BaseNP Identification Model using Forward and Backward Processing Characteristics (방향성을 이용한 한국어 비재귀 명사구 인식 모델)

  • Lee, Sheen-Mok;Kang, In-Ho;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.439-444
    • /
    • 2001
  • 비재귀 명사구(baseNP)는 단순한 단어 패턴과 품사 패턴에 의하여 쉽게 인식되므로, 자연어처리의 다양한 분야에서 활용한다. 교착어의 지배 성분 후위 원칙에 의하여 한국어 비재귀 명사구 인식은 보다 많은 광역 정보를 필요로 하므로, 본 논문에서는 광역 정보의 활용이 쉬운 상태 기반 모델을 사용한다. 본 논문은 상태 기반의 한국어 비재귀 명사구 인식에서 방향성을 고려한다. 교착어의 특성상 한국어 비재귀 명사구는 처음 위치가 끝 위치에 비하여 인식이 어려운 특징을 가지므로 방향성을 고려하여 오른쪽 우선의 방범을 활용한 경우, 모델의 특성 및 성능이 변화한다. 본 논문에서는 기존의 왼쪽 우선 방법과 새로이 제안하는 오른쪽 우선 방법을 각각 적용하고, 양 방법을 통합하는 방법들을 제안한다. 통합 결과 92.55%의 정확률과 90.90%의 재현률을 얻었다.

  • PDF

A Dynamic Link Model for Korean POS-Tagging (한국어 품사 태깅을 위한 다이내믹 링크 모델)

  • Hwang, Myeong-Jin;Kang, Mi-Young;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.282-289
    • /
    • 2007
  • 통계를 이용한 품사 태깅에서는 자료부족 문제가 이슈가 된다. 한국어나 터키어와 같은 교착어는 어절(word)이 다수 형태소로 구성되어 있어서 자료부족 문제가 더 심각하다. 이러한 문제를 극복하고자 교착어 문장을 어절 열이 아니라 형태소의 열이라 가정한 연구도 있었으나, 어절 특성이 사라지기 때문에 파생에 의한 어절의 문법 범주 변화 등의 통계정보와 어절 간의 통계정보를 구하기 어렵다. 본 논문은 효율적인 어절 간 전이확률 계산 방법론을 고안함으로써 어절 단위의 정보를 유지하면서도 자료부족문제를 해결할 수 있는 확률 모델을 제안한다. 즉, 한국어의 형태통사적인 특성을 고려하면 앞 어절의 마지막 형태소와 함께 뒤 어절의 처음 혹은 끝 형태소-즉 두 개의 어절 간 전이 링크만으로도 어절 간 전이확률 계산 시 필요한 대부분 정보를 얻을 수 있고, 문맥에 따라 두 링크 중 하나만 필요하다는 관찰을 토대로 규칙을 이용해 두전이링크 중 하나를 선택해 전이확률 계산에 사용하는 '다이내믹 링크 모델'을 제안한다. 형태소 품사 bi-gram만을 사용하는 이 모델은 실험 말뭉치에 대해 96.60%의 정확도를 보인다. 이는 같은 말뭉치에 대해 형태소 품사 tri-gram 등의 더 많은 문맥 정보를 사용하는 다른 모델을 평가했을 때와 대등한 성능이다.

  • PDF

A Study on Implementation of treatment of Korean in multi-Language Corpus Analyzer (다국어 말뭉치 분석기의 한국어 처리 구현에 관한 연구)

  • Huh, Hyun-Gue;Chung, Hye-Myoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.118-121
    • /
    • 2009
  • 말뭉치 분석기는 언어 연구에 필요한 도구로써 망뭉치 분석을 통한 언어 정보의 추출, 적용 및 확인용으로 사용할 수 있다. 본 논문에서는 언어 기술을 국부 문법에 의한 그래픽적인 기술방법으로 처리하는 말뭉치 분석기를 이용하여 한국어 텍스트를 연구하기 위하여 기존의 굴절어 중심으로 구현되어진 다국어 말뭉치 분석기에 한국어와 같은 교착어들의 텍스트 처리를 위한 기능을 구현한다.

A Korean Part-of-Speech Tagger using Simplified Eojeol-based unit (단순화된 어절을 단위로 하는 한국어 품사 태거)

  • Lee, Eui-Hyeon;Kim, Young-Gil;Shin, Jaehun;Kwon, Hong-Seok;Lee, Jong-Hyeok
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.268-272
    • /
    • 2016
  • 영어권 언어가 어절 단위로 품사를 부여하는 반면, 한국어는 굴절이 많이 일어나는 교착어로서 데이터부족 문제를 피하기 위해 형태소 단위로 품사를 부여한다. 이러한 구조적 차이 안에서 한국어에 적합한 품사 태깅 단위는 지속적으로 논의되어 왔으며 지금까지 음절, 형태소, 어절, 구가 제안되었다. 본 연구는 어절 단위로 태깅함으로써 야기되는 복잡한 품사 태그와 데이터부족 문제를 해소하기 위해 어절에서 주요 실질 형태소와 주요 형식 형태소만을 뽑아 새로운 어절을 생성하고, 생성된 단순한 어절에 대해 CRF 태깅을 수행하였다. 실험결과 평가 말뭉치에서 미등록 어절 등장 비율은 9.22%에서 5.63%로 38.95% 감소시키고, 어절단위 정확도를 85.04%에서 90.81%로 6.79% 향상시켰다.

  • PDF

Comparing Byte Pair Encoding Methods for Korean (음절 단위 및 자모 단위의 Byte Pair Encoding 비교 연구)

  • Lee, Chanhee;Lee, Dongyub;Hur, YunA;Yang, Kisu;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.291-295
    • /
    • 2018
  • 한국어는 교착어적 특성이 강한 언어로, 교착어적 특성이 없는 영어 등의 언어와 달리 형태소의 수에 따라 조합 가능한 어절의 수가 매우 많으므로 어절 단위의 처리가 매우 어렵다. 따라서 어절을 더 작은 단위로 분해하는 전처리 단계가 요구되는데, 형태소 분석이 이를 위해 주로 사용되었다. 하지만 지도학습 방법을 이용한 형태소 분석 시스템은 다량의 학습 데이터가 요구되고, 비지도학습 방법을 이용한 형태소 분석은 성능에 큰 하락을 보인다. Byte Pair Encoding은 데이터를 압축하는 알고리즘으로, 이를 자연어처리 분야에 응용하면 비지도학습 방법으로 어절을 더 작은 단위로 분해할 수 있다. 본 연구에서는 한국어에 Byte Pair Encoding을 적용하는 두 가지 방법인 음절 단위 처리와 자모 단위 처리의 성능 및 특성을 정량적, 정성적으로 분석하는 방법을 제안하였다. 또한, 이 방법을 세종 말뭉치에 적용하여 각각의 알고리즘을 이용한 어절 분해를 실험하고, 그 결과를 어절 분해 정확도, 편향, 편차를 바탕으로 비교, 분석하였다.

  • PDF