• Title/Summary/Keyword: 한국어 의미역 정의

Search Result 15, Processing Time 0.019 seconds

Korean Proposition Bank Guidelines for ExoBrain (ExoBrain을 위한 한국어 의미역 가이드라인 및 말뭉치 구축)

  • Lim, Soojong;Kwon, Minjung;Kim, Junsu;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.250-254
    • /
    • 2015
  • 본 논문은 한국어 의미역을 정의하고, 기계학습에 기반하여 한국어 의미역 인식 기술을 개발할 때 필요한 학습 말뭉치를 구축할 때 지켜야할 가이드라인을 제시하고자 한다. 한국어 의미역 정의는 전세계적으로 널리 쓰이고 있는 Proposition Bank를 따르면서, 한국어의 특성을 반영하였다. 또한 정의된 의미역 및 태깅 가이드라인에 따라 반자동 태깅 툴을 이용하여 말뭉치를 구축하였다.

  • PDF

Semantic Role Transformation of Arguments using Predicate and Josa Information (술어와 조사 정보를 이용한 논항의 의미역 변환)

  • Seo, Min-Jeong;Seok, Mi-Ran;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.51-55
    • /
    • 2014
  • 의미역 결정 (Semantic Role Labeling) 은 문장 내의 술어와 이들의 논항들의 의미 관계를 결정하는 과정을 뜻한다. 의미역 결정을 하기 위해서는 대량의 말뭉치와 다양한 언어 자원이 필요한데, 많은 경우에 PropBank 말뭉치가 사용된다. 한국어 PropBank는 다른 언어에 비해 자료가 적어 그것만을 가지고 의미역 결정을 하기에 적절하지 않다. 또한 한국어 의미 분석을 위해서 지금까지는 세종 말뭉치나 의미역이 활용되어 오기도 하였다. 따라서 한국어 의미역 결정에서는 한국어 PropBank 뿐만 아닌 세종 의미역 표지 부착 말뭉치의 구축 역시 요구되는데 말뭉치 구축 작업이 수동 부착 작업이기 때문에 많은 시간과 비용이 소모된다. 본 논문에서는 이러한 문제점을 해결하기 위해 이미 구축되어 있는 한국어 PropBank 의미역을 세종 의미역으로 자동 변환하는 방법을 제시한다. 자동 변환을 위해서는 먼저 PropBank 의미역의 변환 후보 의미역을 구하여 이들 중에서 가장 적절한 의미역으로 변환한다. 자동 변환을 위해서는 크게 3 가지 특징을 활용하는데, 첫째는 변환 대상 논항의 의미 유사성이고, 둘째는 논항과 의미 관계를 가지고 있는 술어, 그리고 셋째는 논항과 결합되어 있는 조사이다. 이 세 가지 특징을 사용하여 정확한 의미역 변환을 위해 술어, 조사의 의미역 결합 확률 테이블을 구축한다.

  • PDF

A Study of Semantic Role Labeling using Domain Adaptation Technique for Question (도메인 적응 기술 기반 질문 문장에 대한 의미역 인식 연구)

  • Lim, Soojong;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.246-249
    • /
    • 2015
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 10% 정도 성능 하락이 발생한다. 본 논문은 기존 도메인 적응 기술을 이용하여 도메인이 다르고, 문장의 형태도 다를 경우에 도메인 적응 알고리즘을 적용하여, 질의응답 시스템에서 필요한 질문 문장 의미역 인식을 위해, 소규모의 질문 문장에 대한 학습 데이터 구축만으로도 한국어 질문 문장에 대해 성능을 향상시키기 위한 방법을 제안한다. 한국어 의미역 인식 기술에 prior 모델을 제안한다. 제안하는 방법은 실험결과 소스 도메인 데이터만 사용한 실험보다 9.42, 소스와 타겟 도메인 데이터를 단순 합하여 학습한 경우보다 2.64의 성능향상을 보였다.

  • PDF

Korean Semantic Role Labeling Using Domain Adaptation Technique (도메인 적응 기술을 이용한 한국어 의미역 인식)

  • Lim, Soojong;Bae, Yongjin;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.56-60
    • /
    • 2014
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 15% 정도 성능 하락이 발생한다. 본 논문은 이러한 다른 도메인에 적용시 발생하는 성능 하락 현상을 극복하기 위해서 기존의 소스 도메인 학습 데이터를 활용하여, 소규모의 타겟 도메인 학습 데이터 구축만으로도 성능 하락을 최소화하기 위해 한국어 의미역 인식 기술에 prior 모델을 제안하며 기존의 도메인 적응 알고리즘과 비교 실험하였다. 추가적으로 학습 데이터에 사용되는 자질 중에서, 형태소 태그와 구문 태그의 자질 값을 기존보다 단순하게 적용하여 성능의 변화를 실험하였다.

  • PDF

Theta role description system and its inventory in Sejong electronic dictionnary of predicatives (세종 용언전자사전의 의미역 기술체계 및 목록)

  • Kim, Hyun-Kwon;Kim, Jong-Myung
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.319-325
    • /
    • 2001
  • 본 논문은 세종 전자사전을 구성하고 있는 하위사전의 하나인 세종 용언전자사전에서 사용되는 의미역 기술체계 및 그 목록을 소개하는 논문이다. 본 논문은 2부로 구성되어 있다. 1부에서는 의미역이란 개념을 정의하고 의미역 기술의 의의를 순수언어학적 차원과 NLP의 응용 기존의 비판에 관하여 우리의 응용 차원에서 설명한다. 아울러 1부에서는 의미역 개념에 대한 기존의 비판에 관하여 우리의 입장을 밝힌다. 제 2부는 본론으로서 세종 용언전자사전에서 사용되는 의미여 기술체계 및 목록 그리고 그것이 지니는 의의를 소개하는 부분이다. 제 2부에서는 우선 세종 용언전자 사전이 의미역 기술 및 목록 확정을 위해서 채택하고 있는 원칙을 밝힌다. 그 다음에는 현재 세종 용언전자사전에서 사용하고 있는 의미역 목록을 각 의미역의 정의와 함께 소개한다. 끝으로 세종 용언전자사전의 틀 내에서 이루어지고 있는 의미역 기술이 갖는 의의와 현 의미역 기술체계가 지니고 있는 문제점을 지적한다.

  • PDF

Generation of a Semantic Structure on a Conventional Goods Search System (대화형 상품 검색 시스템에서 의미 구조 생성에 관한 연구)

  • Jung, Hae-Kyung;Bae, Woo-Jung;Lee, Yong-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.197-204
    • /
    • 2006
  • 인터넷 쇼핑몰 분야에서 한국어 인터페이스에 대한 필요성이 대두되면서 이와 관련한 연구가 진행되어 왔다. 이러한 기존 연구들의 문제점은 다른 응용 분야에 대한 확장성이 떨어지고, 대화식 질의 문장을 처리하기 위해 필요한 상황 지식을 사용할 수 없다는 것이다. 확장성을 위해 한국어 인터페이스는 내부 구현의 변경 없이 도메인 지식의 교체만으로 다른 분야에 대한 적용이 쉬워야 한다. 아울러, 한국어 질의 문장을 SQL이나 ACL과 같은 여러 응용 분야의 인공 언어에 쉽게 변환할 수 있으려면 모호성이 전혀 없는 의미 구조로 표현되어야 한다. 이렇게 표현된 의미 구조는 상황 지식의 표현과 적용을 용이하게 한다. 본 논문은을 Sowa의 개념 구조를 이용하여 의사 의미 구조를 유형 정의, 관계형 정의, 액터와 같은 도메인 지식베이스를 이용하여 표준 의미 구조로 변환하는 시스템을 제안한다. 본 논문은 먼저 필요한 도메인 지식베이스의 종류와 역할 등을 설명하고, 상황 지식을 이용하여 불완전한 의미 구조를 완전한 의미 구조로 변환하는 방법을 보인다. 아울러, 같은 의미를 갖는 여러 형태의 의사 의미 구조가 하나의 표준 의미 구조로 변환됨으로서 시스템의 일관성을 유지하는데 용이함을 보일 것이다. 본 시스템에서 생성한 의미구조는 중간 언어의 역할을 하므로, 제안하는 한국어 인터페이스 시스템은 데이터베이스 분야뿐만 아니라 에이전트 분야, 시맨틱 웹 분야 등에서도 손쉽게 적용할 수 있다는 장점을 가진다.

  • PDF

Korean Semantic Tagged Corpus Construction working (한국어 의미 표지 부착 말뭉치 구축 작업)

  • Lee, Min-Ji;Lee, Yoon-Jeong;Lee, Jung-Kuk;Kim, Jong-Dae;Park, Chan-Young;Song, Hae-Jung;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.99-103
    • /
    • 2012
  • 의미 역 결정 (Semantic Role Labeling)은 문장 내의 술어-논항 요소들의 의미 관계를 결정하는 과정이다. 이를 위해서는 의미 표지 부착 말뭉치가 필요하지만 한국어의 경우 이 데이터가 매우 부족한 상황이다. 본 논문에서는 한국어 Proposition Bank(이하 PropBank) 말뭉치와 세종 용언 격틀 말뭉치 구축을 위한 의미 표지 부착 작업에 대해 설명한다. 표지 부착 작업은 말뭉치의 의존 관계를 사람이 파악하여 적절한 의미 역 태그를 다는 과정이고, 이 과정으로부터 얻은 말뭉치는 의미 역 결정을 위한 기계 학습 방법론의 훈련 자료로 이용된다. 이 과정에서 필요한 구문 표지 부착 밀뭉치로는 한국전자통신연구원의 구문표지 부착 말뭉치를, 그리고 언어자원으로는 한국어 PropBank의 frame file과 세종 용언 격틀 사전을 사용한다.

  • PDF

Conditional Random Fields based Named Entity Recognition Using Korean Lexical Semantic Network (한국어 어휘의미망을 활용한 Conditional Random Fields 기반 한국어 개체명 인식)

  • Park, Seo-Yeon;Ock, Cheol-Young;Shin, Joon-Choul
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.343-346
    • /
    • 2020
  • 개체명 인식은 주어진 문장 내에서 OOV(Out of Vocaburary)로 자주 등장하는 고유한 의미가 있는 단어들을 미리 정의된 개체의 범주로 분류하는 작업이다. 최근 개체명이 문장 내에서 OOV로 등장하는 문제를 해결하기 위해 외부 리소스를 활용하는 연구들이 많이 진행되었다. 본 논문은 의미역, 의존관계 분석에 한국어 어휘지도를 이용한 자질을 추가하여 성능 향상을 보인 연구들을 바탕으로 이를 한국어 개체명 인식에 적용하고 평가하였다. 실험 결과, 한국어 어휘지도를 활용한 자질을 추가로 학습한 모델이 기존 모델에 비해 평균 1.83% 포인트 향상하였다. 또한, CRF 단일 모델만을 사용했음에도 87.25% 포인트라는 높은 성능을 보였다.

  • PDF

Korean Semantic Role Labeling Based on Suffix Structure Analysis and Machine Learning (접사 구조 분석과 기계 학습에 기반한 한국어 의미 역 결정)

  • Seok, Miran;Kim, Yu-Seop
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.11
    • /
    • pp.555-562
    • /
    • 2016
  • Semantic Role Labeling (SRL) is to determine the semantic relation of a predicate and its argu-ments in a sentence. But Korean semantic role labeling has faced on difficulty due to its different language structure compared to English, which makes it very hard to use appropriate approaches developed so far. That means that methods proposed so far could not show a satisfied perfor-mance, compared to English and Chinese. To complement these problems, we focus on suffix information analysis, such as josa (case suffix) and eomi (verbal ending) analysis. Korean lan-guage is one of the agglutinative languages, such as Japanese, which have well defined suffix structure in their words. The agglutinative languages could have free word order due to its de-veloped suffix structure. Also arguments with a single morpheme are then labeled with statistics. In addition, machine learning algorithms such as Support Vector Machine (SVM) and Condi-tional Random Fields (CRF) are used to model SRL problem on arguments that are not labeled at the suffix analysis phase. The proposed method is intended to reduce the range of argument instances to which machine learning approaches should be applied, resulting in uncertain and inaccurate role labeling. In experiments, we use 15,224 arguments and we are able to obtain approximately 83.24% f1-score, increased about 4.85% points compared to the state-of-the-art Korean SRL research.

Development and Automatic Extraction of Subcategorization Dictionary (하위범주화 사전의 구축 및 자동 확장)

  • 이수선;박현재;우요섭
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.179-181
    • /
    • 2000
  • 한국어의 통사적, 의미적 중의성 해결을 위해 하위범주화 사전을 구축하였다. 용언에 따라 제한될 수 있는 문형 패턴과 의미역(semantic roles) 정보의 표준을 정하여 이를 부가하였고 구축한 하위범주화 사전이 명사에 대한 의미를 갖고 있는 계층 시소러스 의미사전과 연동하도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 말뭉치와 구문분석된 말뭉치를 통해 검증 작업을 수행했다. 이 과정에서 자동으로 하위범주 패턴에 대한 빈도 정보나, 연어정보, 각 의미역과 용언의 통계적 공기 정보 등을 추출하여 하위범주화사전에 추가시켰다. 또한 여기서 얻은 정보를 기준으로 하위범주화 사전을 자동으로 확장하는 알고리즘을 적용하여 확장시켰다.

  • PDF