• 제목/요약/키워드: Lexical Semantic Information

검색결과 105건 처리시간 0.023초

의미 프레임과 유의어 클러스터를 이용한 한국어 의미역 인식 (Korean Semantic Role Labeling Using Semantic Frames and Synonym Clusters)

  • 임수종;임준호;이충희;김현기
    • 정보과학회 논문지
    • /
    • 제43권7호
    • /
    • pp.773-780
    • /
    • 2016
  • 기계학습 기반의 의미역 인식에서 어휘, 구문 정보가 자질로 주로 쓰이지만, 의미 정보를 분석하는 의미역 인식은 의미 정보 또한 매우 유용한 정보이다. 그러나, 기존 연구에서는 의미 정보를 활용할 수 있는 방법이 제한되어 있기 때문에, 소수의 연구만 진행되었다. 본 논문에서는 의미 정보를 활용하는 방안으로 동형이의어 수준의 의미 애매성 해소 기술, 고유 명사에 대한 개체명 인식 기술, 의미 정보에 기반한 필터링, 유의어 사전을 이용한 클러스터 및 기존 의미 프레임 정보 확장, 구문-의미 정보 연동 규칙, 필수 의미역 오류 보정 등을 제안한다. 제안하는 방법은 기존 연구 대비 뉴스 도메인인 Korean Propbank는 3.77, 위키피디아 문서 기반의 Exobrain GS 3.0 평가셋에서는 8.05의 성능 향상을 보였다.

어휘망(U-WIN)의 구문관계 자동구축 (Automatic Construction of Syntactic Relation in Lexical Network(U-WIN))

  • 임지희;최호섭;옥철영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권10호
    • /
    • pp.627-635
    • /
    • 2008
  • 본 연구에서는 사용자 어휘지능망(U-WIN)의 어휘 관계 중의 하나인 구문관계를 자동으로 구축하는 방법을 제시하고자 한다. 먼저, 구문관계를 형성할 수 있는 후보명사를 용언의 용례에서 문형 정보를 기준으로 추출함으로써, 용언의 세분화된 의미별로 정확하고 다양한 후보명사를 추출할 수 있다. 그러나 추출된 후보명사는 다양한 의미를 지니고 있으므로, 어휘간의 명확한 구문관계를 설정하기 위해서는 후보명사의 여러 의미 중에서 정확한 의미로 결정해야 한다. 그래서 본 연구에서는 용례 매칭 규칙, 구문 패턴, 의미 유사도, 빈도 정보 등을 이용하여 후보명사의 의미를 분별한다. 또한 구문패턴의 빈도 정보를 이용하여 용례에 나타나지 않지만 구문관계를 형성할 수 있는 명사를 추출하여 구문관계를 확장하고자 하였다. 이러한 연구는 명사 중심의 어휘망이 용언과의 구문관계 구축을 통해 형태소 분석, 구문 분석, 의미분석 등에 광범위하게 활용할 수 있는 어휘망의 기반을 다지는 작업이 될 수 있을 것이다.

Lexical and Semantic Incongruities between the Lexicons of English and Korean

  • Lee, Yae-Sheik
    • 한국언어정보학회지:언어와정보
    • /
    • 제5권2호
    • /
    • pp.21-37
    • /
    • 2001
  • Pustejovsky (1995) rekindled debate on the dual problems of how to represent lexical meaning and on the information that is to be encoded in a lexicon. For natural language processing such as machine translation, these are important issues. When a lexical-conceptual mismatch occurs in translation of corresponding words from two different languages, the appropriate representation of their meanings is very important. This paper proposes a new formalism for representing lexical entries by first analysing observable mismatches in comparable pairs of nouns, verbs, and adjectives in English and Korean. Inherent mis-interpretations and mis-readings in each pair are identified. Then, concept theories such as those presented by Ganter and Wille (1996) and Priss (1998) are extended in order to reflect the cognitivist view that meaning resides in concept, and also to incorporate the propositions of the so-called ‘multiple inheritance’system. An alternative to the formalism of Pustejovsky (1995) and Pollard & Sag (1994) is then proposed. Finally, representative examples of lexical mismatches are analysed using the new model.

  • PDF

Semantic-Oriented Error Correction for Voice-Activated Information Retrieval System

  • Yoon, Yong-Wook;Kim, Byeong-Chang;Lee, Gary-Geunbae
    • 대한음성학회지:말소리
    • /
    • 제44호
    • /
    • pp.115-130
    • /
    • 2002
  • Voice input is often required in many new application environments, but the low rate of speech recognition makes it difficult to extend its application. Previous approaches were to raise the accuracy of the recognition by post-processing of the recognition results, which were all lexical-oriented. We suggest a new semantic-oriented approach in speech recognition error correction. Through experiments using a speech-driven in-vehicle telematics information application, we show the excellent performance of our approach and some advantages it has as a semantic-oriented approach over a pure lexical-oriented approach.

  • PDF

한국어 의미 표지 부착 말뭉치 구축을 위한 자동 술어-논항 분석기 개발 (A Development of the Automatic Predicate-Argument Analyzer for Construction of Semantically Tagged Korean Corpus)

  • 조정현;정현기;김유섭
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.43-52
    • /
    • 2012
  • 의미 역 결정 (Semantic Role Labeling)은 문장의 각 요소들의 의미 관계를 파악하는 연구 분야로써 어휘 중의성 해소와 더불어 자연언어처리에서의 의미 분석에서 매우 중요한 위치를 차지하고 있다. 그러나 한국어의 경우에는 의미 역 결정에 필요한 언어 자원이 구축되지 못하여 연구의 진행이 매우 미진한 상황이다. 본 논문에서는 의미 역 결정에 필요한 언어 자원 중에서 가장 널리 사용되고 있는 PropBank의 한국어 버전의 구축을 위한 시작 단계로써 자동 술어-논항 분석기를 개발하였다. 자동 술어-논항 분석기는 크게 의미 어휘 사전과 자동 술어-논항 추출기로 구성된다. 의미 어휘 사전은 한국어 동사의 격틀 정보를 구축한 사전이며 자동 술어-논항 추출기는 구문 표지 부착된 말뭉치로부터 특정 술어와 관련있는 논항의 의미 부류를 결정하는 모듈이다. 본 논문에서 개발된 자동 술어-논항 분석기는 향후 한국어 PropBank의 구축을 용이하게 할 것이며, 궁극적으로는 한국어 의미 역 결정에 큰 역할을 할 것이다.

사전 뜻풀이를 이용한 용언 의미 군집화 (Semantic Clustering of Predicates using Word Definition in Dictionary)

  • 배영준;최호섭;송유화;옥철영
    • 인지과학
    • /
    • 제22권3호
    • /
    • pp.271-298
    • /
    • 2011
  • 한국어의 어휘 의미 정보를 명확히 파악하기 위해서는 어휘 의미 체계를 구축해야 한다. 본 논문에서는 어휘 의미 체계 구축의 단계 중 하나인 용언의 의미 군집화를 연구하였다. 용언의 하위범주화 논항(주어 및 목적어)과 선택 제약정보, 부사의 결합정보를 이용한 이전의 연구와는 달리 의미태그가 부착된 사전 뜻풀이의 용언정보를 이용하여 용언의 의미 군집화를 시도하였고, 표제어와 뜻풀이 용언 사이 관계의 종개념과 유개념 관계를 이용하여 계층적 의미 군집화를 시도하였다. 그리고 특정 범주의 일반 샘플을 이용했던 특정 용언의 부류가 아닌, 사전에 존재하는 대부분의 용언들을 대상으로 연구를 진행하였다. 본 논문에서 다의어 수준에서 구분된 총 106,501개의 용언(85,754개의 동사와 20,747개의 형용사)을 대상으로 한국어 용언 의미계층 군집 2,748개를 생성하였다. 이 중 순환정의 군집은 130개가 나타났으며, 중간 계층의 서브군집으로 261개가 나타났다. 군집 내 계층의 최대 깊이는 16단계였다. 그리고 용언 의미 군집 평가를 위해 세종사태의미부류와 비교해 보았다. 그 결과 70.14%의 응집도를 보였다.

  • PDF

양(quantity), 정도(degree), 가능세계 - 부사 '거의'의 어휘의미를 중심으로 - (Quantities, Degrees, and Possible Worlds - Lexical Semantics of Korean Adverb '거의(geoui)')

  • 김신회
    • 한국언어정보학회지:언어와정보
    • /
    • 제15권2호
    • /
    • pp.47-65
    • /
    • 2011
  • A Korean adverb '거의(geoui)' modifies predicates to generate complex predicates which have meanings of 'nearly' complete or typical properties of the modified predicates in quantities, degrees, and frequencies. The modified predicates 'complete' or 'typical' properties are referred counterfactually as standards for the generated predicates' meanings of deficiencies. These counterfactual standards can be formalized by a counterfactual conditional operator of the intensional semantics in Cresswell(1990). The deficiencies in the quantities, degrees, or frequencies of the properties can be expressed formally introducing a world-independent measure of comparison. The measure can be manufactured out of relations between intensional things at indices and their equivalence classes. The world-independent measure of comparison has a semantic structure under-specified in quantity, degree, and frequency, and seems very well-suited in describing lexical meaning of '거의(geoui)'. The lexical-semantic analysis of '거의(geoui)' shows explicitly the plausibility of the indispensable existence of the comparing measure which works across real and counterfactual worlds in natural language meaning. On the other hand, we examined Kim, young-hee(1985)'s proposal of a transition of quantificational meaning for Korean degree adverbs, where he tried to explain the quantificational meaning of Korean degree adverbs in general including '거의(geoui)' with several syntactic and semantic constraints of 'contextual deletion'. But it is shown that the quantificational meanings of the degree adverbs which Kim(1985) discussed are also explained better by their under-specified meanings in quantities, frequencies and degrees with the world-independent measure of comparison applied to their paradigmatic lexical constraint rather than Kim(1985)'s transition of meaning.

  • PDF

시맨틱 구문 트리 커널을 이용한 생명공학 분야 전문용어간 관계 식별 및 분류 연구 (A Study on the Identification and Classification of Relation Between Biotechnology Terms Using Semantic Parse Tree Kernel)

  • 최성필;정창후;전홍우;조현양
    • 한국문헌정보학회지
    • /
    • 제45권2호
    • /
    • pp.251-275
    • /
    • 2011
  • 본 논문에서는 단백질 간 상호작용 자동 추출을 위해서 기존에 연구되어 높은 성능을 나타낸 구문 트리 커널을 확장한 시맨틱 구문 트리 커널을 제안한다. 기존 구문 트리 커널의 문제점은 구문 트리의 단말 노드를 구성하는 개별 어휘에 대한 단순 외형적 비교로 인해, 실제 의미적으로는 유사한 두 구문 트리의 커널 값이 상대적으로 낮아지는 현상이며 결국 상호작용 자동 추출의 전체 성능에 악영향을 줄 수 있다는 점이다. 본 논문에서는 두 구문 트리의 구문적 유사도(syntactic similarity)와 어휘 의미적 유사도(lexical semantic similarity)를 동시에 효과적으로 계산하여 이를 결합하는 새로운 커널을 고안하였다. 어휘 의미적 유사도 계산을 위해서 문맥 및 워드넷 기반의 어휘 중의성 해소 시스템과 이 시스템의 출력으로 도출되는 어휘 개념(WordNet synset)의 추상화를 통한 기존 커널의 확장을 시도하였다. 실험에서는 단백질 간 상호작용 추출(PPII, PPIC) 성능의 심층적 최적화를 위해서 기존의 SVM에서 지원되던 정규화 매개변수 외에 구문 트리 커널의 소멸인자와 시맨틱 구문 트리 커널의 어휘 추상화 인자를 새롭게 도입하였다. 이를 통해 구문 트리 커널을 적용함에 있어서 소멸인자 역할의 중요성을 확인할 수 있었고, 시맨틱 구문 트리 커널이 기존 시스템의 성능향상에 도움을 줄 수 있음을 실험적으로 보여주었다. 특히 단백질 간 상호작용식별 문제보다도 비교적 난이도가 높은 상호작용 분류에 더욱 효과적임을 알 수 있었다.

정적 분석 툴의 비교: Lexical Analysis and Semantic Analysis (Comparison of Tools for Static Analysis: Lexical Analysis and Semantic Analysis)

  • 장성수;최영현;임헌정;엄정호;정태명
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.1180-1182
    • /
    • 2010
  • 오늘날 소프트웨어를 대상으로 하는 악성코드로부터의 공격이 잦아지면서, 소프트웨어 개발 프로세스에서부터의 보안 취약성 점검이 중요시되고 있다. 본 논문에서는 소프트웨어 보안 취약점 분석 기법 중 하나인 정적 분석에 사용되는 도구들을 살펴보고 비교하여 그 구조 및 특성을 분석 파악한다. 그리하여 우리의 궁극적 목표인 향상된 성능의 새로운 정적 분석 툴 개발의 기반을 마련하고자 한다.

한국어 어휘의미망(UWordMap)을 이용한 동형이의어 분별 개선 (Improvement of Korean Homograph Disambiguation using Korean Lexical Semantic Network (UWordMap))

  • 신준철;옥철영
    • 정보과학회 논문지
    • /
    • 제43권1호
    • /
    • pp.71-79
    • /
    • 2016
  • 한국어처리 분야에서 동형이의어 분별은 의미처리를 위해서는 매우 중요하고 오랫동안 연구되어온 주제이다. 최근에 말뭉치를 학습하는 기계학습 방법이 정확률과 속도면에서 좋은 결과를 보이고 있으며, 미학습 어절을 처리하기 위해 어휘의미망을 이용한 지식기반 방법도 연구되고 있다. 본 논문은 말뭉치를 학습한 기계학습 방법에 어휘의미망과 함께 사용하는 방법을 제시한다. 이 방법의 기본 전략은 하위범주화 정보를 말뭉치화하여서 기존 말뭉치와 함께 학습시키고, 동형이의어 태깅 시점에서 분석 대상 명사의 상위어를 찾아서 학습정보와 같이 사용하는 것이다. 이 방법의 효과를 확인하기 위해 세종말뭉치와 UWordMap으로 실험을 하였으며, 정확률이 96.51%에서 96.52%로 미미하지만 상승하는 것을 확인하였다.