• Title/Summary/Keyword: Universal Dependency(UD)

Search Result 6, Processing Time 0.021 seconds

Manual Revision of Penn Korean Universal Dependency Treebank (Penn Korean Universal Dependency Treebank 데이터셋 구축)

  • Oh, Taehwan;Han, Jiyoon;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.61-65
    • /
    • 2021
  • 본 연구에서는 2018년에 공개된 Penn Korean Universal Dependency Treebank(이하 PKT-UD v2018) 데이터의 오류를 분석하고 이를 개정하여 새롭게 데이터셋(이하 PKT-UD v2020)을 구축하였다. PKT-UD v2018은 구구조 분석 방식으로 구축된 Penn Korean Treebank를 UD(Universal Dependencies)의 체계에 맞추어 자동적으로 변환한 후 보정하여 구축한 데이터이다. 본 연구에서는 이와 같은 자동 변환의 과정에서 발생한 오류를 바로 잡고, UD 체계를 최대한 활용하면서 한국어의 특성을 잘 살린 데이터셋을 구축할 수 있는 방법을 제안하였다.

  • PDF

A Case Study on Universal Dependency Tagsets of Japanes (일본어의 Universal Dependency 태그셋 적용 사례 연구 - 한국어와의 비교를 중심으로)

  • Lee, Jin;Han, Jiyoon;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.323-328
    • /
    • 2018
  • 한국어는 교착어적 특성으로 인하여 어미와 조사가 매우 발달되어 있다. 그러므로 영어와 같은 굴절어를 중심으로 설계된 UD를 한국어에 적용하는 것에는 많은 어려움이 있다. 이를 해결하기 위해서 형태통사적 특성이 유사한 일본의 UD 적용 사례를 살펴보고 한국어의 UD 적용 양상과의 비교 분석을 통해서 한국어의 UD 적용 및 개선 방안을 고찰해 보고자 한다. 한국어와 일본어는 동일한 교착어로서 비슷한 특성을 지니고 있으나, 주석의 기본 단위 설정에서 차이를 보이면서 UD를 적용하는 양상이 달라졌음을 확인하였다. 일본어의 UD 주석에서 형태 분석 기본 단위인 단단위(Short unit word, 長單位)를 기본 구문 주석 단위로 하되 장단위(Long unit word, 短單位)와 문절 정보를 이용하는 것처럼, 한국어에서도 형태 분석 단위를 기준으로 의존 관계를 주석하는 방안에 대해서도 고려할 필요가 있다.

  • PDF

Study of Building Korean Universal Dependency Corpus focused on Syntactic Relations (한국어 Universal Dependency 말뭉치 구축 방안 연구: 구문 관계를 중심으로)

  • Won, Hye-Jin;Ryu, Pum-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.329-333
    • /
    • 2018
  • Universal Dependency 프로젝트는 여러 언어에 공통으로 적용할 수 있는 형태소 패턴과 구문 관계를 찾기 위한 연구를 진행하고 있으며, 점진적으로 많은 언어들이 참여하여 UD 가이드라인에 따라 말뭉치를 구축하고 시스템을 개발하고 있다. 한국어 UD 말뭉치도 구축되어서 공유되고 있지만 구축을 위한 상세한 가이드라인은 제공되지 않고 있다. 본 논문에서는 UD를 기반으로 한국어 구문분석 말뭉치를 구축할 때 논의되어야 할 요소들을 나열하고 예제를 통해서 설명하였다. 본 연구를 기반으로 한국어 구문분석 말뭉치 구축, 구문분석 시스템 개발에서 UD 가이드라인을 적용하는 논의가 시작되기를 기대한다.

  • PDF

A Case Study on Universal Dependency Tagsets (다국어 범용 의존관계 주석체계(Universal Dependencies) 적용 연구 - 한국어와 일본어의 비교를 중심으로)

  • Han, Jiyoon;Lee, Jin;Lee, Chanyoung;Kim, Hansaem
    • Cross-Cultural Studies
    • /
    • v.53
    • /
    • pp.163-192
    • /
    • 2018
  • The purpose of this paper was to examine universal dependency UD application cases of Korean and Japanese with similar morphological characteristics. In addition, UD application and improvement methods of Korean were examined through comparative analysis. Korean and Japanese are very well developed due to their agglutinative characteristics. Therefore, there are many difficulties to apply UD which is built around English refraction. We examined the application of UPOS and DEPREL as components of UD with discussions. In UPOS, we looked at category problem related to narrative such as AUX, ADJ, and VERB, We examined how to handle units. In relation to the DEPREL annotation system, we discussed how to reflect syntactic problem from the basic unit annotation of syntax tags. We investigated problems of case and aux arising from the problem of setting dominant position from Korean and Japanese as the dominant language. We also investigated problems of annotation of parallel structure and setting of annotation basic unit. Among various relation annotation tags, case and aux are discussed because they show the most noticeable difference in distribution when comparing annotation tag application patterns with Korean. The case is related to both Korean and Japanese surveys. Aux is a secondary verb in Korean and an auxiliary verb in Japanese. As a result of examining specific annotation patterns, it was found that Japanese aux not only assigned auxiliary clauses, but also auxiliary elements to add the grammatical meaning to the verb and form corresponding to the end of Korean. In UD annotation of Japanese, the basic unit of morphological analysis is defined as a unit of basic syntactic annotation in Japanese UD annotation. Thus, when using information, it is necessary to consider how to use morphological analysis unit as information of dependency annotation in Korean.

Applying Universal Dependency Relation Tagsets to Korean (Universal Dependency 관계 태그셋의 한국어 적용)

  • Lee, Chanyoung;Kim, Jinung;Kim, Han Saem
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.334-339
    • /
    • 2018
  • 본 논문에서는 기존에 구축되어 있는 구 구조 기반 구문 분석 태그셋을 Universal Dependency 관계 태그 셋으로 변환하는 방안에 대해 논의하였다. 범언어적으로 활용하기 위해 개발된 Universal Dependency의 관계 태그셋을 한국어에 적용할 때에는 범용 POS 태그셋인 UPOS뿐만 아니라 개별 언어의 특성을 반영하고 있는 XPOS를 반드시 참고해야만 한다. 본 연구에서는 Universal Dependency 관계 태그셋을 한국어 구문 분석 태그셋에 대응시키는 과정에서 생기는 문제점들을 '원시 말뭉치 처리 문제'와 '기구축 구문 태그 말뭉치 오류의 문제'로 나누어 지적하고, 이에 대한 해결책을 제시하였다.

  • PDF

A Multi-task Self-attention Model Using Pre-trained Language Models on Universal Dependency Annotations

  • Kim, Euhee
    • Journal of the Korea Society of Computer and Information
    • /
    • v.27 no.11
    • /
    • pp.39-46
    • /
    • 2022
  • In this paper, we propose a multi-task model that can simultaneously predict general-purpose tasks such as part-of-speech tagging, lemmatization, and dependency parsing using the UD Korean Kaist v2.3 corpus. The proposed model thus applies the self-attention technique of the BERT model and the graph-based Biaffine attention technique by fine-tuning the multilingual BERT and the two Korean-specific BERTs such as KR-BERT and KoBERT. The performances of the proposed model are compared and analyzed using the multilingual version of BERT and the two Korean-specific BERT language models.