• 제목/요약/키워드: Semantic Role

검색결과 247건 처리시간 0.02초

한국어 의미 표지 부착 말뭉치 구축을 위한 자동 술어-논항 분석기 개발 (A Development of the Automatic Predicate-Argument Analyzer for Construction of Semantically Tagged Korean Corpus)

  • 조정현;정현기;김유섭
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.43-52
    • /
    • 2012
  • 의미 역 결정 (Semantic Role Labeling)은 문장의 각 요소들의 의미 관계를 파악하는 연구 분야로써 어휘 중의성 해소와 더불어 자연언어처리에서의 의미 분석에서 매우 중요한 위치를 차지하고 있다. 그러나 한국어의 경우에는 의미 역 결정에 필요한 언어 자원이 구축되지 못하여 연구의 진행이 매우 미진한 상황이다. 본 논문에서는 의미 역 결정에 필요한 언어 자원 중에서 가장 널리 사용되고 있는 PropBank의 한국어 버전의 구축을 위한 시작 단계로써 자동 술어-논항 분석기를 개발하였다. 자동 술어-논항 분석기는 크게 의미 어휘 사전과 자동 술어-논항 추출기로 구성된다. 의미 어휘 사전은 한국어 동사의 격틀 정보를 구축한 사전이며 자동 술어-논항 추출기는 구문 표지 부착된 말뭉치로부터 특정 술어와 관련있는 논항의 의미 부류를 결정하는 모듈이다. 본 논문에서 개발된 자동 술어-논항 분석기는 향후 한국어 PropBank의 구축을 용이하게 할 것이며, 궁극적으로는 한국어 의미 역 결정에 큰 역할을 할 것이다.

Structural SVM 기반의 한국어 의미역 결정 (Korean Semantic Role Labeling Using Structured SVM)

  • 이창기;임수종;김현기
    • 정보과학회 논문지
    • /
    • 제42권2호
    • /
    • pp.220-226
    • /
    • 2015
  • 의미역 결정은 자연어 문장의 서술어와 그 서술어에 속하는 논항들 사이의 의미관계를 결정하는 문제이다. 일반적으로 의미역 결정을 위해서는 서술어 인식(Predicate Identification, PI), 서술어 분류(Predicate Classification, PC), 논항 인식(Argument Identification, AI) 논항 분류(Argument Classification, AC) 단계가 수행된다. 본 논문에서는 한국어 의미역 결정 문제를 위해 Korean Propbank를 의미역 결정 학습 말뭉치로 사용하고, 의미역 결정 문제를 Sequence Labeling 문제로 바꾸어 이 문제에서 좋은 성능을 보이는 Structural SVM을 이용하였다. 실험결과 서술어 인식/분류(Predicate Identification and Classification, PIC)에서는 97.13%(F1)의 성능을 보였고, 논항 인식/분류(Argument Identification and Classification, AIC)에서는 76.96%(F1)의 성능을 보였다.

비지도 학습을 기반으로 한 한국어 부사격의 의미역 결정 (Unsupervised Semantic Role Labeling for Korean Adverbial Case)

  • 김병수;이용훈;이종혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.112-122
    • /
    • 2007
  • 말뭉치를 이용하여 통계적으로 의미역 결정(semantic role labeling)을 하기 위해서는, 의미역을 태깅하는 작업이 필수적이다. 그러나 한국어의 경우 의미역이 태깅된 대량의 말뭉치를 구하기 힘들며, 이를 직접 구축하기 위해서는 많은 시간과 노력이 필요한 문제점이 있다. 본 논문에서는 비지도 학습의 하나인 self-training 알고리즘을 적용하여, 의미역이 태깅되지 않은 말뭉치로부터 의미역을 결정하는 방법을 제안한다. 이를 위해, 세종 용언 전자사전의 격틀 정보를 이용하여 자동으로 학습 말뭉치를 구축하였으며, 확률 모델을 적용하여 점진적으로 학습하였다. 그 결과, 4개의 부사격 조사에 대해 평균적으로 83.00%의 정확률을 보였다.

워드 임베딩과 유의어를 활용한 단어 의미 범주 할당 (Assignment Semantic Category of a Word using Word Embedding and Synonyms)

  • 박다솔;차정원
    • 정보과학회 논문지
    • /
    • 제44권9호
    • /
    • pp.946-953
    • /
    • 2017
  • 의미역 결정은 서술어와 논항들 사이의 의미 관계를 결정하는 문제이다. 의미역 결정을 위해 의미 논항 역할 정보와 의미 범주 정보를 사용해야 한다. 세종 전자사전은 의미역을 결정하는데 사용한 격틀 정보가 포함되어 있다. 본 논문에서는 워드 임베딩과 유의어를 활용하여 세종 전자사전을 확장하는 방법을 제시한다. 연관 단어가 유사한 벡터 표현을 갖도록 하기 위해 유의어 사전의 정보를 사용하여 재구성된 벡터를 생성한다. 기존의 워드 임베딩과 재구성된 벡터를 사용하여 동일한 실험을 진행한다. 워드 임베딩을 이용한 벡터로 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 32.19%이고, 확장한 의미 범주 할당의 시스템 성능은 51.14%이다. 재구성된 벡터를 이용한 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 33.33%이고, 확장한 의미 범주 할당의 시스템 성능은 53.88%이다. 의미 범주가 할당되지 않은 새로운 단어에 대해서 논문에서 제안한 방법으로 의미 범주를 할당하여 세종 전자사전의 의미 범주 단어 확장에 대해 도움이 됨을 증명하였다.

의미 프레임과 유의어 클러스터를 이용한 한국어 의미역 인식 (Korean Semantic Role Labeling Using Semantic Frames and Synonym Clusters)

  • 임수종;임준호;이충희;김현기
    • 정보과학회 논문지
    • /
    • 제43권7호
    • /
    • pp.773-780
    • /
    • 2016
  • 기계학습 기반의 의미역 인식에서 어휘, 구문 정보가 자질로 주로 쓰이지만, 의미 정보를 분석하는 의미역 인식은 의미 정보 또한 매우 유용한 정보이다. 그러나, 기존 연구에서는 의미 정보를 활용할 수 있는 방법이 제한되어 있기 때문에, 소수의 연구만 진행되었다. 본 논문에서는 의미 정보를 활용하는 방안으로 동형이의어 수준의 의미 애매성 해소 기술, 고유 명사에 대한 개체명 인식 기술, 의미 정보에 기반한 필터링, 유의어 사전을 이용한 클러스터 및 기존 의미 프레임 정보 확장, 구문-의미 정보 연동 규칙, 필수 의미역 오류 보정 등을 제안한다. 제안하는 방법은 기존 연구 대비 뉴스 도메인인 Korean Propbank는 3.77, 위키피디아 문서 기반의 Exobrain GS 3.0 평가셋에서는 8.05의 성능 향상을 보였다.

Proto-Role Theory and the Accusative Case Marker ul/lul in Korean

  • Lee, Sun-Hee
    • 한국언어정보학회지:언어와정보
    • /
    • 제2권2호
    • /
    • pp.81-120
    • /
    • 1998
  • The case marking phenomenon in Korean is closely related to semantic entailment and should be studied as an interface between syntax and semantics. Assuming a direct mapping between syntactic realization and semantic information, this study investigates the role of the accusative marker ul/lul in Korean, and explores the semantic constraints working on the argument realization on the basis of proto-roles hypothesis. Specifically, I will study various types of case alternations in Korean and clarify the role of the accusative marker ul/lul, which manifests the distinction between direct object NPs and oblique NPs.

  • PDF

토픽맵의 다중역할 토픽 보존을 위한 관계형 데이터베이스 구조 (Relational Database Structure for Preserving Multi-role Topics in Topic Map)

  • 정윤수;이춘열;김남규
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제18권3호
    • /
    • pp.327-349
    • /
    • 2009
  • Traditional keyword-based searching methods suffer from low accuracy and high complexity due to the rapid growth in the amount of information. Accordingly, many researchers attempt to implement a so-called semantic search which is based on the semantics of the user's query. Semantic information can be described using a semantic modeling language, such as Topic Map. In this paper, we propose a new method to map a topic map to a traditional Relational Database (RDB) without any information loss. Although there have been a few attempts to map topic maps to RDB, they have paid scant attention to handling multi-role topics. In this paper, we propose a new storage structure to map multi-role topics to traditional RDB. The proposed structure consists of a mapping table, role tables, and content tables. Additionally, we devise a query translator to convert a user's query to one appropriate to the proposed structure.

  • PDF

언어의미(言語意味)와 통사지식(統辭知識)이 아동의 언어 발달에 미치는 역할 : 국어(國語) 분류사(分類詞) 습득(習得) 연구 (The Role of Semantic and Syntactic Knowledge in the First Language Acquisition of Korean Classifiers)

  • 이귀옥
    • 아동학회지
    • /
    • 제18권2호
    • /
    • pp.73-85
    • /
    • 1997
  • The purpose of the present study was to examine the role of semantic and syntactic knowledge in the first language acquisition of Korean classifiers. The elicited classifiers production test(EPT) was conducted to 105 children aged from 2 to 7. EPT consisted of 16 classifiers and two items for each classifier. 32 items were divided into 2 major semantic features: animacy and inanimacy. The semantic features of inanimacy were subcategorized into 3 features such as neutral, shape and function. The results revealed that; 1) children produced the correct structure of classification from the very early age with correct word order of the noun phrase showing early fundamental syntactic knowledge; 2) The earliest response pattern was to respond to all nouns in the same way using a neutral classifier showing no apparent semantic basis for their choice; 3) Children didn't show any preference for animate, shape, or function classifiers.

  • PDF

Domain-Adaptation Technique for Semantic Role Labeling with Structural Learning

  • Lim, Soojong;Lee, Changki;Ryu, Pum-Mo;Kim, Hyunki;Park, Sang Kyu;Ra, Dongyul
    • ETRI Journal
    • /
    • 제36권3호
    • /
    • pp.429-438
    • /
    • 2014
  • Semantic role labeling (SRL) is a task in natural-language processing with the aim of detecting predicates in the text, choosing their correct senses, identifying their associated arguments, and predicting the semantic roles of the arguments. Developing a high-performance SRL system for a domain requires manually annotated training data of large size in the same domain. However, such SRL training data of sufficient size is available only for a few domains. Constructing SRL training data for a new domain is very expensive. Therefore, domain adaptation in SRL can be regarded as an important problem. In this paper, we show that domain adaptation for SRL systems can achieve state-of-the-art performance when based on structural learning and exploiting a prior model approach. We provide experimental results with three different target domains showing that our method is effective even if training data of small size is available for the target domains. According to experimentations, our proposed method outperforms those of other research works by about 2% to 5% in F-score.

Stacked Bidirectional LSTM-CRFs를 이용한 한국어 의미역 결정 (Korean Semantic Role Labeling using Stacked Bidirectional LSTM-CRFs)

  • 배장성;이창기
    • 정보과학회 논문지
    • /
    • 제44권1호
    • /
    • pp.36-43
    • /
    • 2017
  • 의미역 결정 연구에 있어 구문 분석 정보는 술어-논항 사이의 의존 관계를 포함하고 있기 때문에 의미역 결정 성능 향상에 큰 도움이 된다. 그러나 의미역 결정 이전에 구문 분석을 수행해야 하는 비용(overhead)이 발생하게 되고, 구문 분석 단계에서 발생하는 오류를 그대로 답습하는 단점이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 구문 분석 정보를 제외한 형태소 분석 정보만을 사용하는 End-to-end SRL 방식의 한국어 의미역 결정 시스템을 제안하고, 순차 데이터 모델링에 적합한 LSTM RNN을 확장한 Stacked Bidirectional LSTM-CRFs 모델을 적용해 구문 분석 정보 없이 기존 연구보다 더 높은 성능을 얻을 수 있음을 보인다.