• Title/Summary/Keyword: 의존구문분석

Search Result 148, Processing Time 0.028 seconds

A Model for Post-processing of Speech Recognition Using Syntactic Unit of Morphemes (구문형태소 단위를 이용한 음성 인식의 후처리 모델)

  • 양승원;황이규
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.7 no.3
    • /
    • pp.74-80
    • /
    • 2002
  • There are many researches on post-processing methods for the Korean continuous speech recognition enhancement using natural language processing techniques. It is very difficult to use a formal morphological analyzer for improving the speech recognition because the analysis technique of natural language processing is mainly for formal written languages. In this paper, we propose a speech recognition enhancement model using syntactic unit of morphemes. This approach uses the functional word level longest match which dose not consider spacing words. We describe the post-processing mechanism for the improving speech recognition by using proposed model which uses the relationship of phonological structure information between predicates md auxiliary predicates or bound nouns that are frequently occurred in Korean sentences.

  • PDF

PPEditor: Semi-Automatic Annotation Tool for Korean Dependency Structure (PPEditor: 한국어 의존구조 부착을 위한 반자동 말뭉치 구축 도구)

  • Kim Jae-Hoon;Park Eun-Jin
    • The KIPS Transactions:PartB
    • /
    • v.13B no.1 s.104
    • /
    • pp.63-70
    • /
    • 2006
  • In general, a corpus contains lots of linguistic information and is widely used in the field of natural language processing and computational linguistics. The creation of such the corpus, however, is an expensive, labor-intensive and time-consuming work. To alleviate this problem, annotation tools to build corpora with much linguistic information is indispensable. In this paper, we design and implement an annotation tool for establishing a Korean dependency tree-tagged corpus. The most ideal way is to fully automatically create the corpus without annotators' interventions, but as a matter of fact, it is impossible. The proposed tool is semi-automatic like most other annotation tools and is designed to edit errors, which are generated by basic analyzers like part-of-speech tagger and (partial) parser. We also design it to avoid repetitive works while editing the errors and to use it easily and friendly. Using the proposed annotation tool, 10,000 Korean sentences containing over 20 words are annotated with dependency structures. For 2 months, eight annotators have worked every 4 hours a day. We are confident that we can have accurate and consistent annotations as well as reduced labor and time.

Grammatical Relation Analysis using Support Vector Machine in BioText (바이오 문서에서 지지 벡터 기계를 이용한 문법관계 분석)

  • Park, Kyung-Mi;Hwang, Young-Sook;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.287-292
    • /
    • 2003
  • 동사와 기본구 사이의 문법관계 분석은 품사부착과 기본구 인식이 수행된 상태에서, 동사와 의존관계를 갖는 기본구를 찾고 각 구의 구문적, 의미적 역할을 나타내는 기능태그를 인식하는 작업이다. 본 논문에서는 바이오 문서에서 단백질과 단백질, 유전자와 유전자 사이의 상호작용관계를 자동으로 추출하기 위해서 제안한 문법관계 분석 방법을 적용하고 따라서 동사와 명사고, 전치사고, 종속 접속사의 관계만을 분석하며 기능태그도 정보추출에 유용한 주어, 목적어를 나타내는 태그들로 제한하였다. 기능태그 부착과 의존관계 분석을 통합해 수행하였으며, 지도학습 방법 중 분류문제에서 좋은 성능을 보이는 지지 벡터 기계를 분류기로 사용하였고, 메모리 기반 학습을 사용하여 자질을 추출하였으며, 자료부족문제를 완화하기 위해서 저빈도 단어는 품사 타입 또는 워드넷의 최상위 클래스의 개념을 이용해서 대체하였다. 시험 결과지지 벡터 기계를 이용한 문법관계 분석은 실제 적용시 빠른 수행시간과 적은 메모리 사용으로 상호작용관계 추출에서 효율적으로 사용될 수 있음을 보였다.

  • PDF

Grammar Classes Generating Single State Parsing Automata (단일 상태 파싱 오토마톤을 생성하는 문법 클래스들)

  • Lee, Gyung-Ok
    • Journal of KIISE:Software and Applications
    • /
    • v.41 no.7
    • /
    • pp.518-522
    • /
    • 2014
  • A single state parsing automaton has the characteristics of the decision of actions which do not depend on the history of the parsing paths but on the current state. The single state parsing automaton hence has the advantage of the reduced parsing time and a small memory requirement compared to those of the conventional LR automaton. However, currently, the grammar classes generating single state parsing automata have not been known. This paper deals with the grammar classes generating single state parsing automata; in addition, this paper gives the generating method of single state parsing automata of the grammar classes.

A Probing Task on Linguistic Properties of Korean Sentence Embedding (한국어 문장 임베딩의 언어적 속성 입증 평가)

  • Ahn, Aelim;Ko, ByeongiI;Lee, Daniel;Han, Gyoungeun;Shin, Myeongcheol;Nam, Jeesun
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.161-166
    • /
    • 2021
  • 본 연구는 한국어 문장 임베딩(embedding)에 담겨진 언어적 속성을 평가하기 위한 프로빙 태스크(Probing Task)를 소개한다. 프로빙 태스크는 임베딩으로부터 문장의 표층적, 통사적, 의미적 속성을 구분하는 문제로 영어, 폴란드어, 러시아어 문장에 적용된 프로빙 테스크를 소개하고, 이를 기반으로하여 한국어 문장의 속성을 잘 보여주는 한국어 문장 임베딩 프로빙 태스크를 설계하였다. 언어 공통적으로 적용 가능한 6개의 프로빙 태스크와 한국어 문장의 주요 특징인 주어 생략(SubjOmission), 부정법(Negation), 경어법(Honorifics)을 추가로 고안하여 총 9개의 프로빙 태스크를 구성하였다. 각 태스크를 위한 데이터셋은 '세종 구문분석 말뭉치'를 의존구문문법(Universal Dependency Grammar) 구조로 변환한 후 자동으로 구축하였다. HuggingFace에 공개된 4개의 다국어(multilingual) 문장 인코더와 4개의 한국어 문장 인코더로부터 획득한 임베딩의 언어적 속성을 프로빙 태스크를 통해 비교 분석한 결과, 다국어 문장 인코더인 mBART가 9개의 프로빙 태스크에서 전반적으로 높은 성능을 보였다. 또한 한국어 문장 임베딩에는 표층적, 통사적 속성보다는 심층적인 의미적 속성을 더욱 잘 담고 있음을 확인할 수 있었다.

  • PDF

Korean End-to-end Neural Coreference Resolution with BERT (BERT 기반 End-to-end 신경망을 이용한 한국어 상호참조해결)

  • Kim, Kihun;Park, Cheonum;Lee, Changki;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.181-184
    • /
    • 2019
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 같은 개체(entity)를 의미하는 멘션을 찾아 그룹화하는 자연어처리 태스크이다. 한국어 상호참조해결에서는 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델과 포인터 네트워크 모델을 이용한 방법이 연구되었다. 구글에서 공개한 BERT 모델은 자연어처리 태스크에 적용되어 많은 성능 향상을 보였다. 본 논문에서는 한국어 상호참조해결을 위한 BERT 기반 end-to-end 신경망 모델을 제안하고, 한국어 데이터로 사전 학습된 KorBERT를 이용하고, 한국어의 구조적, 의미적 특징을 반영하기 위하여 의존구문분석 자질과 개체명 자질을 적용한다. 실험 결과, ETRI 질의응답 도메인 상호참조해결 데이터 셋에서 CoNLL F1 (DEV) 71.00%, (TEST) 69.01%의 성능을 보여 기존 연구들에 비하여 높은 성능을 보였다.

  • PDF

Korean Probabilistic Dependency Grammar Induction by morpheme (형태소 단위의 한국어 확률 의존문법 학습)

  • Choi, Seon-Hwa;Park, Hyuk-Ro
    • The KIPS Transactions:PartB
    • /
    • v.9B no.6
    • /
    • pp.791-798
    • /
    • 2002
  • In this thesis. we present a new method for inducing a probabilistic dependency grammar (PDG) from text corpus. As words in Korean are composed of a set of more basic morphemes, there exist various dependency relations in a word. So, if the induction process does not take into account of these in-word dependency relations, the accuracy of the resulting grammar nay be poor. In comparison with previous PDG induction methods. the main difference of the proposed method lies in the fact that the method takes into account in-word dependency relations as well as inter-word dependency relations. To access the performance of the proposed method, we conducted an experiment using a manually-tagged corpus of 25,000 sentences which is complied by Korean Advanced Institute of Science and Technology (KAIST). The grammar induction produced 2,349 dependency rules. The parser with these dependency rules shoved 69.77% accuracy in terms of the number of correct dependency relations relative to the total number dependency relations for best-1 parse trees of sample sentences. The result shows that taking into account in-word dependency relations in the course of grammar induction results in a more accurate dependency grammar.

A Case Study on Universal Dependency Tagsets of Japanes (일본어의 Universal Dependency 태그셋 적용 사례 연구 - 한국어와의 비교를 중심으로)

  • Lee, Jin;Han, Jiyoon;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.323-328
    • /
    • 2018
  • 한국어는 교착어적 특성으로 인하여 어미와 조사가 매우 발달되어 있다. 그러므로 영어와 같은 굴절어를 중심으로 설계된 UD를 한국어에 적용하는 것에는 많은 어려움이 있다. 이를 해결하기 위해서 형태통사적 특성이 유사한 일본의 UD 적용 사례를 살펴보고 한국어의 UD 적용 양상과의 비교 분석을 통해서 한국어의 UD 적용 및 개선 방안을 고찰해 보고자 한다. 한국어와 일본어는 동일한 교착어로서 비슷한 특성을 지니고 있으나, 주석의 기본 단위 설정에서 차이를 보이면서 UD를 적용하는 양상이 달라졌음을 확인하였다. 일본어의 UD 주석에서 형태 분석 기본 단위인 단단위(Short unit word, 長單位)를 기본 구문 주석 단위로 하되 장단위(Long unit word, 短單位)와 문절 정보를 이용하는 것처럼, 한국어에서도 형태 분석 단위를 기준으로 의존 관계를 주석하는 방안에 대해서도 고려할 필요가 있다.

  • PDF

Manual Revision of Penn Korean Universal Dependency Treebank (Penn Korean Universal Dependency Treebank 데이터셋 구축)

  • Oh, Taehwan;Han, Jiyoon;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.61-65
    • /
    • 2021
  • 본 연구에서는 2018년에 공개된 Penn Korean Universal Dependency Treebank(이하 PKT-UD v2018) 데이터의 오류를 분석하고 이를 개정하여 새롭게 데이터셋(이하 PKT-UD v2020)을 구축하였다. PKT-UD v2018은 구구조 분석 방식으로 구축된 Penn Korean Treebank를 UD(Universal Dependencies)의 체계에 맞추어 자동적으로 변환한 후 보정하여 구축한 데이터이다. 본 연구에서는 이와 같은 자동 변환의 과정에서 발생한 오류를 바로 잡고, UD 체계를 최대한 활용하면서 한국어의 특성을 잘 살린 데이터셋을 구축할 수 있는 방법을 제안하였다.

  • PDF

On Implementation of Korean-English Machine Translation System through Program Reuse (프로그램 재사용을 통한 한/영 기계번역시스템의 구현에 관한 연구)

  • Kim, Hion-Gun;Yang, Gi-Chul;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.559-570
    • /
    • 1993
  • In this article we present a rapid development of a Korean to English translation system, by the help of general English generator, PENMAN. PENMAN is an English sentence generation system, of which input language is a language specially devised for sentence generation, named Sentence Planning Language(SPL). The language SPL has various features that are necessary for generating sentences, covering both syntactic and semantic features. In this development we integrated a Korean language parser based on dependency grammar and the English sentence generator PENMAN, bridging two systems through a converting module, which converts dependency structures produced by Korean parser into SPL for PENMAN.

  • PDF