• Title/Summary/Keyword: 의미 자질

Search Result 213, Processing Time 0.03 seconds

Semantic Role Assignment for Korean Adverbial Case Using Support Verb Phrase and Concept Similarity (기능동사 구문과 개념 유사도를 이용한 한국어 부사격의 의미역 결정)

  • Shin Myung-Chul;Lee Yong-Hun;Kim Mi-Young;Chung You-Jin;Lee Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.451-453
    • /
    • 2005
  • 본 논문에서는 한국어에 있어 '에, 로'를 격표지로 하는 부사격에 대한 의미역 결정 모델에 대해 다루고 있다. 의미역 결정은 의미 분석의 핵심 과정 중 하나이고 자연언어처리에서 해결해야 할 중요한 문제이다. 본 논문은 기존 연구와 언어학 논저를 참고해서 의미역 결정에 유용한 자질들을 정리하였고 SVM을 이용하여 의미역 결정 모델을 구축하였다. 또한 기존 연구와 차별적으로 기능동사 구문의 처리와 지배소 개념의 유사도 보정 방법을 사용하여 보다 견고한 모델을 만들 수 있었다. 성능 평가 결과 개념(Concept)만을 사용한 기본 모델에 비해서 평균 $9\%$의 정확률 향상을 보였다.

  • PDF

Time Adverb 'Cengjing (曾經)' and 'Yijing (已經) Tense and Aspect of the Comparative Analysis of the Characteristics of China and South Korea (시간부사 '증경(曾經)', '이경(已經)' 시상(時相) 자질 중한 대조분석)

  • Han, Keung-Shuk
    • Cross-Cultural Studies
    • /
    • v.42
    • /
    • pp.451-474
    • /
    • 2016
  • Analysis of the syntactic structure of the modern Chinese adverbs for time 'Cengjing (曾經)' and 'Yijing (已經)' was performed to examine the tenses and aspects of the terms. The corresponding Korean words were examined and the terms in both languages were compared. The syntactic structures used in China and South Korea were found to be different. We hope the study of the Chinese language will help Korean students. 'Cengjing (曾經)' specific projects with 'aspect' of, 'Past experience aspect', 'Past continuous aspect', 'Past continuous aspect' in the past tense. [ED: unclear, please reword] These correspond to '_었 (았)_', '_었었_' in the Korean language. 'Yijing (已經)' has 'finished phase' of concrete projects, 'Past experience aspect', 'Past continuous aspect', also has a specific project tense, the 'past tense', 'present tense', 'future tense', and so tense. [ED: unclear, please reword] Adjectives can also be modified with a 'change of status'. These correspond to '_었 (았)_', '_고_', '_었었_', '곧' etc. in Korean. 'Cengjing (曾經)' and the dynamic auxiliary 'Guo (過)' were compared to determine whether they have the aspect and tense features. However, 'Guo (過)' can only modify the predicate verb, so it possesses only aspect characteristics. 'Cengjing (曾經)' modifies the range more widely. 'Yijing (已經)' may be modified by the adverb 'Zai (在)' whereas 'Cengjing (曾經)' may not. Additionally, 'Yijing (已經)' can be modified by predicate adjectives and noun predicates, while 'Cengjing (曾經)' cannot.

Korean Semantic Role Labeling using Input-feeding RNN Search Model with CopyNet (Input-feeding RNN Search 모델과 CopyNet을 이용한 한국어 의미역 결정)

  • Bae, Jangseong;Lee, Changki
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.300-304
    • /
    • 2016
  • 본 논문에서는 한국어 의미역 결정을 순차열 분류 문제(Sequence Labeling Problem)가 아닌 순차열 변환 문제(Sequence-to-Sequence Learning)로 접근하였고, 구문 분석 단계와 자질 설계가 필요 없는 End-to-end 방식으로 연구를 진행하였다. 음절 단위의 RNN Search 모델을 사용하여 음절 단위로 입력된 문장을 의미역이 달린 어절들로 변환하였다. 또한 순차열 변환 문제의 성능을 높이기 위해 연구된 인풋-피딩(Input-feeding) 기술과 카피넷(CopyNet) 기술을 한국어 의미역 결정에 적용하였다. 실험 결과, Korean PropBank 데이터에서 79.42%의 레이블 단위 f1-score, 71.58%의 어절 단위 f1-score를 보였다.

  • PDF

Facets on Thesaurus for Science and Technology Domain (과학기술 분야 시소러스 상에서의 패싯들)

  • Jung Hanmin;Sung Won-Kyung;Park Dong-In;Hwang Soonhee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.535-537
    • /
    • 2005
  • 본 논문에서는 시소러스 상에서 개념간 세분화를 위한 의미적 기준인 개념 패싯 (Conceptual Facet)과 관계 패싯 (Relational Facet) 그룹을 사용하는데, 패싯이란 공통의 특성을 갖는 개념들을 함께 그룹화하고 용어간 관계를 구조화하기 위한 장치이다. 개념 패싯은 용어가 갖는 대표적인 의미속성, 범주를 의미하며, 용어 각각을 구별되는 의미장 (Semantic Field)에 분류하도록 한다. 관계 패싯은 상$\cdot$하위 개념 간 의미 관계를 표현한 메타 개념이다. 본 시소러스는 여러 전문가들의 다양한 관점을 반영하도록 설계되었다. 관점이란 주관적이며, 임의적이어서 개별 개념에 내재된 자질 또는 속성과는 구별되는 독립적 속성이다. 개념 패싯, 관계 패싯의 도입은 계층 관계, 동등 관계, 범주 관계 등과 더불어 용어 간 관계를 보다 구체적으로 명시함으로써 최종 사용자에게 검색의 효율성과 정확성을 제공할 수 있다.

  • PDF

Korean Semantic Role Labeling using Input-feeding RNN Search Model with CopyNet (Input-feeding RNN Search 모델과 CopyNet을 이용한 한국어 의미역 결정)

  • Bae, Jangseong;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.300-304
    • /
    • 2016
  • 본 논문에서는 한국어 의미역 결정을 순차열 분류 문제(Sequence Labeling Problem)가 아닌 순차열 변환 문제(Sequence-to-Sequence Learning)로 접근하였고, 구문 분석 단계와 자질 설계가 필요 없는 End-to-end 방식으로 연구를 진행하였다. 음절 단위의 RNN Search 모델을 사용하여 음절 단위로 입력된 문장을 의미역이 달린 어절들로 변환하였다. 또한 순차열 변환 문제의 성능을 높이기 위해 연구된 인풋-피딩(Input-feeding) 기술과 카피넷(CopyNet) 기술을 한국어 의미역 결정에 적용하였다. 실험 결과, Korean PropBank 데이터에서 79.42%의 레이블 단위 f1-score, 71.58%의 어절 단위 f1-score를 보였다.

  • PDF

A Non-morphological Approach for DBpedia URI Spotting within Korean Text (한국어 텍스트의 개체 URI 탐지: 품사 태깅 독립적 개체명 인식과 중의성 해소)

  • Kim, Youngsik;Hahm, Younggyun;Kim, Jiseong;Hwang, Dosam;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.100-106
    • /
    • 2014
  • URI spotting (탐지) 문제는 텍스트에 있는 단어열 중에서 URI로 대표되는 개체(entity)에 해당되는 것을 탐지하는 것이다. 이 문제는 두 개의 작은 문제를 순차적으로 해결하는 과제이다. 즉, 첫째는 어느 단어열이 URI에 해당하는 개체인가를 인식하는 것이고, 둘째는 개체 중의성 해소 문제로서 파악된 개체가 복수의 URI에 해당할 수 있는 의미적 모호성이 있을 때 그 URI중 하나를 선택하여 모호성을 해소하는 것이다. 이 논문은 디비피디아 URI를 대상으로 한다. URI 탐지 문제는 개체명 인식 문제와 비슷하나, URI(예를 들어 디비피디아 URI, 즉 Wikipedia 등재어)에 매핑될 수 있는 개체로 한정되므로 일반적인 개체명 인식 문제에서 단어열의 품사열이 기계학습의 자질로 들어가는 방법론과는 다른 자질을 사용할 수 있다. 이 논문에서는 한국어 텍스트를 대상으로 한국어 디비피디아 URI 탐지문제로서 SVM을 이용한 개체경계 인식 방법을 제시하여, 일반적 개체명 인식에서 나타나는 품사태거의 오류파급효과를 없애고자 한다. 또한 개체중의성 해소 문제는 의미모호성이 주변 문장들의 토픽에 따라 달라지므로, LDA를 활용하며 이를 영어 디비피디아 URI탐지에서 쓰인 방법들과 비교한다.

  • PDF

Processing Three Types of Korean Cleft Constructions in a Typed Feature Structure Grammar (유형화된 자질문법에서의 한국어 분열구문의 전산학적 처리)

  • Kim, Jong-Bok;Yang, Jae-Hyung
    • Korean Journal of Cognitive Science
    • /
    • v.20 no.1
    • /
    • pp.1-28
    • /
    • 2009
  • The expression KES, one of the most commonly used words in the Korean language, has various usages. This expression is also used to express English-like cleft constructions. Korean seems to employ at least three different types of cleft constructions: predicational, identificational, and eventual. The paper tries to provide a constraint-based analysis of these three types of Korean cleft constructions and implement the analysis in the LKB(Linguistic Knowledge Building) system to check the feasibility of the analysis. In particular, the paper shows how a typed feature structure grammar, couched upon HPSG, can provide a robust basis for parsing Korean cleft constructions.

  • PDF

A Question Type Classifier Using a Support Vector Machine (지지 벡터 기계를 이용한 질의 유형 분류기)

  • An, Young-Hun;Kim, Hark-Soo;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.129-136
    • /
    • 2002
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 유형의 난이도에 관계없이 의도를 파악할 수 있는 질의유형 분류기가 필요하다. 본 논문에서는 문서 범주화 기법을 이용한 질의 유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 이 과정에서 질의의 구문 특성을 반영하기 위해서 슬라이딩 윈도 기법을 이용한다. 또한, 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계(support vector machine, SVM)는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에지지 벡터 기계를 이용한 자동문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

  • PDF

Sentence Cohesion & Subject driving Keywords Extraction for Document Classification (문서 분류를 위한 문장 응집도와 주어 주도의 주제어 추출)

  • Ahn Heui-Kook;Roh Hi-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.463-465
    • /
    • 2005
  • 문서분류 시 문서의 내용을 표현하기 위한 자질로서 사용되는 단어의 출현빈도정보는 해당 문서의 주제어를 표현하기에 취약한 점을 갖고 있다. 즉, 키워드가 문장에서 어떠한 목적(의미)으로 사용되었는지에 대한 정보를 표현할 수가 없고, 문장 간의 응집도가 강한 문장에서 추출되었는지 아닌지에 대한 정보를 표현할 수가 없다. 따라서, 이 정보로부터 문서분류를 하는 것은 그 정확도에 있어서 한계를 갖게 된다. 본 논문에서는 이러한 문서표현의 문제를 해결하기위해, 키워드를 선택할 때, 자질로서 문장의 역할(주어)정보를 추출하여 가중치 부여방식을 통하여 주어주도정보량을 추출하였다. 또한, 자질로서 문장 내 키워드들의 동시출현빈도 정보를 추출하여 문장 간 키워드들의 연관성정도를 시소러스에 담아내었다. 그리고, 이로부터 응집도 정보를 추출하였다. 이 두 정보의 통합으로부터 문서 주제어를 결정함으로서, 문서분류를 위한 주제어 추출 시 불필요한 키워드의 삽입을 줄이고, 동시 출현하는 키워드들에 대한 선택 기준을 제공하고자 하였다. 실험을 통해 한번 출현한 키워드라도, 문장을 주도하는 주어로서 사용될 경우와 응집도 가중치가 높을 경우에 주제어로서의 선택될 가능성이 향상되고, 문서분류를 위해 좀 더 세분화된 키워드 점수화가 가능함을 확인하였다. 따라서, 선택된 주제어가 문서분류의 정확도에 있어서 향상을 가져올 수 있을 것으로 기대한다.

  • PDF

Performance Improvement of Word Clustering Using Ontology (온톨로지를 이용한 단어 군집화 성능 개선)

  • Park Eun-Jin;Kim Jae-Hoon;Ock Cheol-Young
    • The KIPS Transactions:PartB
    • /
    • v.13B no.3 s.106
    • /
    • pp.337-344
    • /
    • 2006
  • In this paper, we describe the design and the implementation of word clustering system using a definition of an entry word in the dictionary, called a dictionary definition. Generally word clustering needs various features like words and the performance of a system for the word clustering depends on using some kinds of features. Dictionary definition describes the meaning of an entry in detail, but words in the dictionary definition are implicative or abstractive, and then its length is not long. The word clustering using only features extracted from the dictionary definition results in a lots of small-size clusters. In order to make large-size clusters and improve the performance, we need to transform the features into more general words with keeping the original meaning of the dictionary definition as intact as possible. In this paper, we propose two methods for extending the dictionary definition using ontology. One is to extend the dictionary definition to parent words on the ontology and the other is to extend the dictionary definition to some words in fixed depth from the root of the ontology. Through our experiments, we have observed that the proposed systems outperform that without extending features, and the latter's extending method overtakes the former's extending method in performance. We have also observed that verbs are very useful in extending features in the case of word clustering.