• Title/Summary/Keyword: 교착어

Search Result 48, Processing Time 0.025 seconds

Translation Pre-processing Technique for Improving Analysis Performance of Korean News (한국어 뉴스 분석 성능 향상을 위한 번역 전처리 기법)

  • Lee, Ji-Min;Jeong, Da-Woon;Gu, Yeong-Hyeon;Yoo, Seong-Joon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.619-623
    • /
    • 2020
  • 한국어는 교착어로 1개 이상의 형태소가 단어를 이루고 있기 때문에 텍스트 분석 시 형태소를 분리하는 작업이 필요하다. 자연어를 처리하는 대부분의 알고리즘은 영미권에서 만들어졌고 영어는 굴절어로 특정 경우를 제외하고 일반적으로 하나의 형태소가 단어를 구성하는 구조이다. 그리고 영문은 주로 띄어쓰기 위주로 토큰화가 진행되기 때문에 텍스트 분석이 한국어에 비해 복잡함이 떨어지는 편이다. 이러한 이유들로 인해 한국어 텍스트 분석은 영문 텍스트 분석에 비해 한계점이 있다고 알려져 있다. 한국어 텍스트 분석의 성능 향상을 위해 본 논문에서는 번역 전처리 기법을 제안한다. 번역 전처리 기법이란 원본인 한국어 텍스트를 영문으로 번역하고 전처리를 거친 뒤 분석된 결과를 재번역하는 것이다. 본 논문에서는 한국어 뉴스 기사 데이터와 번역 전처리 기법이 적용된 영문 뉴스 텍스트 데이터를 사용했다. 그리고 주제어 역할을 하는 키워드를 단어 간의 유사도를 계산하는 알고리즘인 Word2Vec(Word to Vector)을 통해 유사 단어를 추출했다. 이렇게 도출된 유사 단어를 텍스트 분석 전문가 대상으로 성능 비교 투표를 진행했을 때, 한국어 뉴스보다 번역 전처리 기법이 적용된 영문 뉴스가 약 3배의 득표 차이로 의미있는 결과를 도출했다.

  • PDF

A Korean Language Stemmer based on Unsupervised Learning (자율 학습에 의한 실질 형태소와 형식 형태소의 분리)

  • Jo, Se-Hyeong
    • The KIPS Transactions:PartB
    • /
    • v.8B no.6
    • /
    • pp.675-684
    • /
    • 2001
  • This paper describes a method for stemming of Korean language by using unsupervised learning from raw corpus. This technique does not require a lexicon or any language-specific knowledge. Since we use unsupervised learning, the time and effort required for learning is negligible. Unlike heuristic approaches that are theoretically ungrounded, this method is based on widely accepted statistical methods, and therefore can be easily extended. The method is currently applied only to Korean language, but it can easily be adapted to other agglutinative languages, since it is not language-dependent.

  • PDF

Korean Dependency Parsing Using Online Learning (온라인 학습을 이용한 한국어 의존구문분석)

  • Lee, Yong-Hun;Lee, Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.299-304
    • /
    • 2010
  • 본 논문에서는 온라인 학습을 이용한 한국어 의존구문분석 방법을 제안한다. CoNLL-X에서 1위를 차지한 그래프 기반 의존구문분석 방법을 한국어에 맞게 변형하고, 한국어의 교착어적 특성을 고려해 한국어에 적합한 자질 집합을 제시하였다. 특히 의존트리의 에지(edge)를 단어와 단어간의 의존관계가 아닌 부분트리(partial tree)와 부분트리의 의존관계로 바라보기 위해 부분트리가 공유하고 있는 기능어 정보를 추가 자질로 사용하였다. 또한 한국어의 지배소 후위(head-final) 언어 특성과 투사성(projectivity)을 이용하여 Eisner(1996) 알고리즘을 사용하지 않고도 O($n^3$)의 CYK알고리즘을 사용할 수 있었고, 이를 이용해 최적의 전역해(global optimum)를 찾을 수 있었다. 각 자질을 위한 최적의 가중치 벡터는 온라인 학습방법 중 하나인 Collins(2002)의 averaged perceptron 알고리즘을 사용함으로써 빠르게 모델을 학습할 수 있었다. 제안 모델을 국어정보베이스(KIBS) 말뭉치에 적용한 결과 어절 단위 정확률 88.42%의 높은 성능을 얻을 수 있었다.

  • PDF

Inducing Subsumption Conditions for Morphological Ambiguity Reduction (형태소의 모호성 축소를 위한 포섭조건의 자동 추론)

  • Kim, Jae-Hoon;Jang, Byung-Gyu;Kim, Gil-Chang;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.175-180
    • /
    • 1995
  • 한국어는 교착어이기 때문에 형태소 해석은 자연언어 처리에서 매우 중요한 역할을 담당한다. 한국어 형태소 해석에서 주로 사용되는 정보는 두 형태소의 결합 가능 유무를 나타내는 접속정보이다. 이 접속정보는 단순한 품사정보에 의해서 표현되기 때문에 형태소 해석기의 과잉 해석의 원인이 된다. 이를 줄이기 위해 언어 지식의 일종인 포섭관계가 제안되었다[5]. 그러나, 포섭관계를 검사하기 위한 포섭조건들은 수작업에 의해서 작성되었다. 수작업으로 작성된 이들 조건들은 일관성 유지하기 어려울 뿐 아니라 완전한 조건들을 구하기도 어렵다. 따라서, 본 논문에서는 이와 같은 문제를 해소하기 위해서 품사 태깅된 말뭉치를 이용해서 포섭조건의 자동 추출방법을 제안한다.

  • PDF

Classification and Disambiguation of Morphological Ambiguity of the Korean Language (한국어의 형태론적 모호성 유형 및 해결 방안)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.83-87
    • /
    • 1997
  • 한국어는 실질형태소와 형식형태소가 결합되는 교착어라는 특성 때문에 품사 모호성을 비롯한 여러 가지 유형의 형태론적 모호성이 발생한다. 형태론적 모호성 해결의 관점에서 형태론적 모호성을 한국어의 특성에 따라 어근 유형 모호성, 형태소 분리 모호성, 형태소 길이 모호성, 불규칙 용언의 원형 복원 모호성, '아/에/이' 탈락 모호성 등으로 분류한다. 이 때 임의의 두 분석 결과에서 발생하는 모호성이 특정 유형에만 속하도록 모호성 유형들을 서로 독립적으로 정의한다. 또한 품사 모호성을 계층적 품사 분류 체계에 따라 $1{\sim}3$차적 품사 모호성으로 구분하고 국어사전에서 발견되는 품사 모호성을 분석한다. 이를 기반으로 형태론적 모호성의 유형을 단어 내에서 해결 가능한 것과 그렇지 않은 것으로 구분하여, 단어 내에서 해결 가능한 모호성을 해결하는 방법을 제안한다.

  • PDF

Evaluation Method for Korean Morphological Analysis System and it's Application to MATEC99 (한국어 형태소 분석 시스템에 대한 평가 방법 및 적용 사례 분석)

  • Kim, Jin-Dong;Rim, Hae-Chang;Park, Jay-Duke;Lee, Jae-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.44-49
    • /
    • 1999
  • 언어계통상 교착어에 속하는 한국어는 형태소 분석 결과가 복잡하게 주어지기 때문에 형태소 분석 시스템에 대한 효과적인 평가가 쉽지 않다. 본 논문에서는 한국어 형태소 분석 시스템에 대한 평가 방법을 제시한다. 또한 이를 MATEC99에 적용한 사례를 분석하여 이에 대한 타당성을 입증하고 보완점을 기술한다.

  • PDF

A Conceptual Framework for Korean-English Machine Translation using Expression Patterns (표현 패턴에 의한 한국어-영어 기계 번역을 위한 개념 구성)

  • Lee, Ho-Suk
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.236-241
    • /
    • 2008
  • This paper discusses a Korean-English machine translation method using expression patterns. The expression patterns are defined for the purpose of aligning Korean expressions with appropriate English expressions in semantic and expressive senses. This paper also argues to develop a new Korean syntax analysis method using agglutinative characteristics of Korean language, expression pattern concept, sentence partition concept, and incorporation of semantic structures as well in the parsing process. We defined a simple Korean grammar to show the possibility of new Korean syntax analysis method.

  • PDF

Onthe typology of Pragmatic scales: scalar implicatureof '-(i)na' in Korean (국어 조사 '이나'의 함축 해석에서 나타나는 척도의 유형에 관하여)

  • Ryu, Byung-Ryul
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.216-227
    • /
    • 2007
  • 본고는 서로 다른 용어와 기준들로 일관성 없이 나열되어 있던 이전의 '-이나'의 의미 해석을 통합적으로 설명해 보고자 한다. 즉 특정한 양상 척도(개연성, 희구성, ${\ldots}$ 등)을 이용하여 '-이나'가 쓰인 맥락에 따라 척도 함축을 해석해 내고자 한다. 따라서 본고는 교착어의 특성을 가진 한국어의 특수조사(혹은 한정사) '-이나'의 함축 해석에서 척도의 유형을 분류함으로써 의미 해석과 형식화의 초석을 다지는 연구가 될 것이라고 기대한다. 먼저 '-(이)나'의 함축 해석에서 나타나는 척도의 유형에 대하여 논의하고자 한다. 따라서 '-(이)나'의 함축이 드러내는 척도들을 형식적으로'선형과 비선형'척도를 나누고 이러한 문장들이 들어내는 양상을 분류할 것이다. 둘째, 정대호 외(2002)에서 논의하고 있는 '~이나/도'가 분류사구와 결합한 문장이 화용론적인 개연성의 척도상에서 하한 값을 유발한다고 제안함에 따라, 본고는 양상을, 이러한 개연성의 척도를 포함한, '인식(진리, 원인, 지식, 평가), 의무(의지), 희구(기원)'의 3가지 양상으로 분류하고, 이에서 '-(이)나'가 유발하는 각각의 척도상의 함축을 기술할 것이다.

  • PDF

Semantic Annotation and an Example of Korean Semantic Annotation System (시맨틱 어노테이션과 한국어 시맨틱 어노테이션 시스템 사례)

  • Shim, Sang-Ah;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.97-100
    • /
    • 2009
  • 인터넷에는 다양하고 많은 정보들이 담겨져 있다. 이 많은 정보들 중에서 사용자가 정말로 필요로 하는 정보를 기계로 추출해 내기 위해서 시맨틱 웹이라는 기술이 제안 되었다. 시맨틱 웹의 구현을 위해서는 기계가 해석할수 있는 데이터들이 필요한데 이것은 시맨틱 어노테이션을 통해서 얻어낼수 있다. 대부분의 시맨틱 어노테이션 시스템들은 영어로 작성된 문서들에 포커스를 두고 개발되었다. 한국어와 같은 교착어를 처리할수 있는 시스템들은 드물다. 본 논문에서는 시맨틱 어노테이션에 대해서 자세히 설명하고 한국어 시맨틱 어노테이션 시스템을 개발하는데에 어떤 언어적인 특징을 고려해야 하는지 살펴본다. 그리고 국외에서 개발된 한국어 시맨틱 어노테이션 시스템 EXCOM을 예제로 소개하겠다.

  • PDF

Phoneme-level Embedding based Korean Language Model (음소 단위 임베딩 기반 한국어 모델)

  • Choi, Woosung;Hyun, Kyungseok;Chung, Jaehwa;Jung, Soon Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.1026-1029
    • /
    • 2019
  • 최근 제안되고 있는 Bert 등의 딥러닝 언어 모델 기반 pre-training 기법은 다양한 NLP 분야에서 활용되고 있다. 텍스트로 작성된 데이터 셋을 딥러닝 언어 모델이 학습하기 위해서는 토크나이징(tokenizing) 기술이 필요하다. 그러나 기존 토크나이징 방식은 한국어 및 한글이 가지는 고유한 특성(교착어적 특성과 모아쓰기 반영)을 반영하기 어렵다는 한계를 가지고 있다. 본 논문에서는 한국어와 한글이 가지는 고유한 특성을 고려하기 위하여 음소 단위의 임베딩 기법을 제안하며, 이를 기반으로 언어 모델을 설계 및 구현한다. 또한 음소 단위 임베딩 기반 한국어 모델이 실제 데이터 집합(구약성서)에서 나타나는 언어적 패턴을 학습할 수 있다는 것을 실험을 통하여 밝힌다.