• Title/Summary/Keyword: 의존 구문 트리

Search Result 38, Processing Time 0.027 seconds

Using Syntactic Unit of Morpheme for Reducing Morphological and Syntactic Ambiguity (형태소 및 구문 모호성 축소를 위한 구문단위 형태소의 이용)

  • Hwang, Yi-Gyu;Lee, Hyun-Young;Lee, Yong-Seok
    • Journal of KIISE:Software and Applications
    • /
    • v.27 no.7
    • /
    • pp.784-793
    • /
    • 2000
  • The conventional morphological analysis of Korean language presents various morphological ambiguities because of its agglutinative nature. These ambiguities cause syntactic ambiguities and they make it difficult to select the correct parse tree. This problem is mainly related to the auxiliary predicate or bound noun in Korean. They have a strong relationship with the surrounding morphemes which are mostly functional morphemes that cannot stand alone. The combined morphemes have a syntactic or semantic role in the sentence. We extracted these morphemes from 0.2 million tagged words and classified these morphemes into three types. We call these morphemes a syntactic morpheme and regard them as an input unit of the syntactic analysis. This paper presents the syntactic morpheme is an efficient method for solving the following problems: 1) reduction of morphological ambiguities, 2) elimination of unnecessary partial parse trees during the parsing, and 3) reduction of syntactic ambiguity. Finally, the experimental results show that the syntactic morpheme is an essential unit for reducing morphological and syntactic ambiguity.

  • PDF

A Dictionary Composition for Syntactic Analyzer from Corpus (코퍼스로부터 구문 분석을 위한 사전 구성)

  • 정민수;정규철;박기홍
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.159-161
    • /
    • 1998
  • 한글은 중심어 후행성과 어순의 자유성, 격을 결정하는 조사의 생략 등으로 인해 영어권에서 연구되어진 변형 생성 문법이나 어휘 함수 문법, 구구조문법류 등이 적용되기 어려운 문제점을 가지고 있고 관형적인 표현이 많아 구문 규칙 만으론 분석하기 쉽지 않기 때문에 사전에 의존해야 하는 경우가 많으므로 이에 적합한, 사전을 구성하고자 한다. 그러나 기존의 태그와 키워드만으로 구성된 사전만으로 어려운 점이 많고, 이 때문에 문법 규칙을 같이 적용하게 되는데 이 규칙을 보통 알고리즘을 이나 수작업을 통해 사전으로 구성하므로 정확성도 떨어진다. 저자는 이 과정을 코퍼스를 통해 구성하여 시간을 줄이고 결합 정보 또한 보다 견고하게 구성하기 위해 통계 정보-코퍼스 내에서 결합이 사용된 빈도-에 따라 순위를 결정할 수 있도록 구성하였다. 이를 보다 확장하여 구문분석 시에도 활용할 수 있도록 분석된 단어간의 결합 정보와 그 결합이 사용된 빈도를 포함하여 구문 결합 정보 사전을 구성하고자 한다. 이는 기존의 의존 문법이나 구문 관계를 이용하여 구문분석을 할 경우 올바른 트리의 결합 관계를 검색할 때 쓰여질 수 있다.

  • PDF

The LTAG System for Korean Syntactic Analysis (한국어 구문 분석을 위한 LTAG 시스템)

  • Chung, Eui-Sok;Yoon, Jun-Tae;Kim, Seon-Ho;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.230-235
    • /
    • 1998
  • 한국어 구문 분석에 적용되어 왔던 의존 문법이나 구구조 문법들은 각각의 장점들만큼 구문 중의성 해결의 어려움과 구구조 기술 한계성 등의 문제점들을 내포하고 있다. 따라서 본 연구는 LTAG(lexicalized tree adjoining grammar)을 기반으로 기존 문법들의 장점들을 수용하는 새로운 구구조 문법 시스템을 제안한다. 이는 기본 트리 프레임, 기본 트리 명시 규칙, 기본 연산 제약 규칙으로 구성되어 있으며 역방향 구문 분석 기법을 이용한다. 끝으로 실험을 통하여 제안하는 시스템의 한국어 구문 분석에 대한 타당성을 보이고자 한다.

  • PDF

Analyzing Dependencies of Korean Subordinate Clauses (복합 커널을 사용한 한국어 종속절의 의존관계 분석)

  • Kim, Sang-Soo;Park, Seong-Bae;Lee, Sang-Jo;Park, Se Young
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.91-98
    • /
    • 2007
  • 한국어에서 절들의 의존관계를 밝히는 작업은 구문 분석 작업에서 가장 어려운 작업들 중에 하나로 인식되고 있다. 절의 의존관계를 파악하는 일은 표면적으로 나타나는 정보만을 가지고 처리할 수 없고, 의미 정보 같은 추가적인 정보가 필요할 것으로 판단하고 처리해왔다. 본 논문에서는 추가적인 정보를 사용하지 않고, 문장에서 얻을 수 있는 표면적인 정보만을 사용하여 절들 간의 의존관계를 파악하는 방법을 제안한다. 문장에서 얻을 수 있는 표면적인 정보는 문장의 구문 정보(tree structure information)와 어휘 및 거리 정보를 가지고 있는 정적인 정보(static information)로 나누어 볼 수 있다. 본 논문에서는 절들 간의 의존 관계 파악을 위하여 구문 정보 및 어휘정보 등을 하나 이상의 커널의 결합해서 사용하는 복합 커널(composite kernel)을 제안하고, 이 커널에 맞는 다양한 인스턴스 공간의 설정을 제안한다. 실험 데이터는 구문 트리로 표현된 STEP 2000코퍼스를 사용하였다. 실험은 최적화된 인스턴스 공간을 절들 간의 의존관계 파악 및 문장 수준에서 성능을 검정하였다. 관계 인스턴스 공간은 절들 간의 연결을 기준으로 Path-enclosed Tree와 Flattened Path-enclosed Tree로, 하부절(관형절)의 표현 유무로 Complete Tree, Contex-sensitive Tree, Simple Tree로 나누어 각각의 조합으로 실험하여 결정하였다. 그리고 결정된 인스턴스 공간에서 복합커널을 사용한 방법이 좋은 성능을 발휘함을 보였다.

  • PDF

A Study on the Optimization and Parallelism Information Representation using Ideograph (Ideograph를 이용한 최적화 및 병렬성 정보 표현에 관한 연구)

  • 정성옥;고광만
    • Journal of Intelligence and Information Systems
    • /
    • v.6 no.2
    • /
    • pp.41-47
    • /
    • 2000
  • Ideograph is a truly unifies data and procedural dependencies. Ideograph can be used to assist various program optimization, such as common expression elimination, code motion, constant folding etc. In this paper, we propose an improved representation of the data and control flow dependencies information for the efficient program execution. In pursuing this goal, we propose a model and in particularly implement a dependency information extractor and information table, which contains data and control flow information per a basic block And then we design and implementation of the optimized abstract syntax tree using Ideograph which has a control flow information and data flow information for source program.

  • PDF

Machine Learning Based Blog Text Opinion Classification System Using Opinion Word Centered-Dependency Tree Pattern Features (의견어중심의 의존트리패턴자질을 이용한 기계학습기반 한국어 블로그 문서 의견분류시스템)

  • Kwak, Dong-Min;Lee, Seung-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.337-338
    • /
    • 2009
  • 블로그문서의 의견극성분류 연구는 주로 기계학습기법에 기반한 방법이었고, 이때 주로 활용된 자질은 명사, 동사 등의 품사정보와 의견어 어휘정보였다. 하지만 하나의 의견어 어휘만을 고려한다면 그 극성을 판별하는데 필요한 정보가 충분하지 않아 부정확한 결과를 도출하는 경우가 발생할 수 있다. 본 논문에서는 여러 어휘를 동시에 고려하였을 때 보다 정확한 의견분류를 수행할 수 있을 것이라는 가정을 세웠다. 본 논문에서는 효과적인 의견어휘자질의 추출을 위하여 의견이 내포될 가능성이 높은 의견어휘를 기반으로 의존구문분석을 통해 의존트리패턴을 추출하였고, 제안하는 PF-IDF가중치를 적용하여 지지벡터기계(SVM)와 다항시행접근 단순베이지안(MNNB)알고리즘으로 비교 실험을 수행하였다. 기준시스템인 TF-IDF가중치 기법에 비해 정확도(accuracy)가 지지벡터기계에서 5%, 다항시행접근 단순베이지안에서 8.9% 향상된 성능을 보였다.

Korean-to-English Machine Translation System based on Verb-Phrase : 'CaptionEye/KE' (용언구에 기반한 한영 기계번역 시스템 : 'CaptionEye/KE')

  • Seo, Young-Ae;Kim, Young-Kil;Seo, Kwang-Jun;Choi, Sung-Kwon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10a
    • /
    • pp.269-272
    • /
    • 2000
  • 본 논문에서는 ETRI에서 개발 중인 용언구에 기반한 한영 기계번역 시스템 CaptionEye/KE에 대하여 논술한다. CaptionEye/KE는 대량의 고품질 한-영 양방향 코퍼스로부터 추출된 격틀사전 및 대역패턴, 대역문 연결패턴 등의 언어 지식들을 바탕으로 하여, 한국어의 용언구 단위의 번역을 조합하여 전체 번역을 수행한다. CaptionEye/KE는 변환방식의 기계번역 시스템으로서, 크게 한국어 형태소 분석기, 한국어 구문 분석기, 부분 대역문 연결기, 부분 대역문 생성기, 대역문 선택/정련기, 영어형태소 생성기로 구성된다. 입력된 한국어 문장에 대해 형태소 분석 및 태깅을 수행한 후, 격틀사전을 이용하여 구문구조를 분석하고 의존 트리를 생성해 낸다. 이렇게 생성된 의존 트리로부터 대역문 연결패턴을 이용하여 용언구들간의 연결에 대한 번역을 수행한 후 대역패턴을 이용하여 각 용언구들을 번역하고 문장 정련과정을 거쳐 영어 문장을 최종 생성한다.

  • PDF

Cascaded Parsing Korean Sentences Using Grammatical Relations (문법관계 정보를 이용한 단계적 한국어 구문 분석)

  • Lee, Song-Wook
    • The KIPS Transactions:PartB
    • /
    • v.15B no.1
    • /
    • pp.69-72
    • /
    • 2008
  • This study aims to identify dependency structures in Korean sentences with the cascaded chunking. In the first stage of the cascade, we find chunks of NP and guess grammatical relations (GRs) using Support Vector Machine (SVM) classifiers for all possible modifier-head pairs of chunks in terms of GR categories as subject, object, complement, adverbial, etc. In the next stages, we filter out incorrect modifier-head relations in each cascade for its corresponding GR using the SVM classifiers and the characteristics of the Korean language such as distance between relations, no-crossing and case property. Through an experiment with a parsed and GR tagged corpus for training the proposed parser, we achieved an overall accuracy of 85.7%.

Query-based Answer Extraction using Korean Dependency Parsing (의존 구문 분석을 이용한 질의 기반 정답 추출)

  • Lee, Dokyoung;Kim, Mintae;Kim, Wooju
    • Journal of Intelligence and Information Systems
    • /
    • v.25 no.3
    • /
    • pp.161-177
    • /
    • 2019
  • In this paper, we study the performance improvement of the answer extraction in Question-Answering system by using sentence dependency parsing result. The Question-Answering (QA) system consists of query analysis, which is a method of analyzing the user's query, and answer extraction, which is a method to extract appropriate answers in the document. And various studies have been conducted on two methods. In order to improve the performance of answer extraction, it is necessary to accurately reflect the grammatical information of sentences. In Korean, because word order structure is free and omission of sentence components is frequent, dependency parsing is a good way to analyze Korean syntax. Therefore, in this study, we improved the performance of the answer extraction by adding the features generated by dependency parsing analysis to the inputs of the answer extraction model (Bidirectional LSTM-CRF). The process of generating the dependency graph embedding consists of the steps of generating the dependency graph from the dependency parsing result and learning the embedding of the graph. In this study, we compared the performance of the answer extraction model when inputting basic word features generated without the dependency parsing and the performance of the model when inputting the addition of the Eojeol tag feature and dependency graph embedding feature. Since dependency parsing is performed on a basic unit of an Eojeol, which is a component of sentences separated by a space, the tag information of the Eojeol can be obtained as a result of the dependency parsing. The Eojeol tag feature means the tag information of the Eojeol. The process of generating the dependency graph embedding consists of the steps of generating the dependency graph from the dependency parsing result and learning the embedding of the graph. From the dependency parsing result, a graph is generated from the Eojeol to the node, the dependency between the Eojeol to the edge, and the Eojeol tag to the node label. In this process, an undirected graph is generated or a directed graph is generated according to whether or not the dependency relation direction is considered. To obtain the embedding of the graph, we used Graph2Vec, which is a method of finding the embedding of the graph by the subgraphs constituting a graph. We can specify the maximum path length between nodes in the process of finding subgraphs of a graph. If the maximum path length between nodes is 1, graph embedding is generated only by direct dependency between Eojeol, and graph embedding is generated including indirect dependencies as the maximum path length between nodes becomes larger. In the experiment, the maximum path length between nodes is adjusted differently from 1 to 3 depending on whether direction of dependency is considered or not, and the performance of answer extraction is measured. Experimental results show that both Eojeol tag feature and dependency graph embedding feature improve the performance of answer extraction. In particular, considering the direction of the dependency relation and extracting the dependency graph generated with the maximum path length of 1 in the subgraph extraction process in Graph2Vec as the input of the model, the highest answer extraction performance was shown. As a result of these experiments, we concluded that it is better to take into account the direction of dependence and to consider only the direct connection rather than the indirect dependence between the words. The significance of this study is as follows. First, we improved the performance of answer extraction by adding features using dependency parsing results, taking into account the characteristics of Korean, which is free of word order structure and omission of sentence components. Second, we generated feature of dependency parsing result by learning - based graph embedding method without defining the pattern of dependency between Eojeol. Future research directions are as follows. In this study, the features generated as a result of the dependency parsing are applied only to the answer extraction model in order to grasp the meaning. However, in the future, if the performance is confirmed by applying the features to various natural language processing models such as sentiment analysis or name entity recognition, the validity of the features can be verified more accurately.

Segmentation of Long Chinese Sentences using Comma Classification (쉼표의 자동분류에 따른 중국에 장문분할)

  • Jin Me-Ixun;Kim Mi-Young;Lee Jong-Hyeok
    • Journal of KIISE:Software and Applications
    • /
    • v.33 no.5
    • /
    • pp.470-480
    • /
    • 2006
  • The longer the input sentences, the worse the parsing results. To improve the parsing performance, many methods about long sentence segmentation have been reserarched. As an isolating language, Chinese sentence has fewer cues for sentence segmentation. However, the average frequency of comma usage in Chinese is higher than that of other languages. The syntactic information that the comma conveys can play an important role in long sentence segmentation of Chinese languages. This paper proposes a method for classifying commas in Chinese sentences according to the context where the comma occurs. Then, sentences are segmented using the classification result. The experimental results show that the accuracy of the comma classification reaches 87.1%, and with our segmentation model, the dependency parsing accuracy of our parser is improved by 5.6%.