• 제목/요약/키워드: Semantic Dictionary

검색결과 126건 처리시간 0.027초

시소러스와 술어 패턴을 이용한 의미역 부착 한국어 하위범주화 사전의 구축 (Constructing a Korean Subcategorization Dictionary with Semantic Roles using Thesaurus and Predicate Patterns)

  • 양승현;김영섬;우요섭;윤덕호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제6권3호
    • /
    • pp.364-372
    • /
    • 2000
  • 하위범주화는 보어의 어휘 개념이 명시된 술어와 보어간 의존 관계를 정의하는 언어 정보로서 구문 및 의미 분석 등에 폭넓게 활용될 수 있는 기반 언어 자원이라는 데에 그 중요성이 있다. 본 논문에서는 표층문에서 통상 격표지로 표현되는 구문적 의존 관계뿐만 아니라, 보어가 갖는 의미역 정보가 부착되어 있으며 시소러스 개념 분류 체계와 연동 가능한 한국어 술어의 하위범주화 사전의 구축에 대해 설명하고 있다. 본 논문에서는 하위범주화 사전의 의미역 표현을 위해 총 25개의 의미역을 설정하고 있다. 이 의미역은 표층 격표지와 직접 연관되어 있기 때문에 통사적인 분석으로부터 직접 의미역 정보를 추출해서 의미 구조의 해석에 이용하는 것이 가능하다. 또한 명사 보어가 갖는 개념의 표현을 위해 상ㆍ하위어 관계를 갖는 12만 어휘 규모의 시소러스를 이용하고 있으며, 술어의 의존 관계 표현을 위해 동사, 형용사에 대해 각각 47, 17 개의 하위범주화 패턴을 이용하고 있다. 실용적 규모의 시소러스를 이용함으로써 문장에 나타난 명사의 시소러스 개념을 그대로 하위범주화 사전에 적용시켜 의미 정합 여부를 판단할 수 있는 실질적인 선택제약 체계를 구성할 수 있었고, 표층 격표지에 기초한 표준화된 술어 패턴을 이용함으로써 의미역의 결정 등에서 야기될 수 있는 비일관성을 방지하고 구축에 드는 비용을 절감할 수 있었다. 이상과 같은 방법으로 말뭉치에서 추출한 고빈도 술어 13,000 여개에 대해 하위범주화 사전을 구축하였으며, 적용 범위 평가 실험에 의하면 이 하위범주화 사전은 말뭉치에서 발견된 술어의 72.7%에 대해 하위범주화 정보를 제공할 수 있음을 확인하였다.

  • PDF

피동·사동과 관련한 국어사전의 뜻풀이에 대하여 (A Study on Definition Related to Passive and Causative in Korean Dictionary.)

  • 최호철
    • 한국어학
    • /
    • 제48권
    • /
    • pp.333-354
    • /
    • 2010
  • When defining the word related to passive and causative in Korean dictionary, the meaning of headword can be explained by linking them to other related words. The link could be expressed into two forms; the one is 'passive verb causative verb of A' and the other is 'passive form causative form of A.' Whichever the dictionary takes, the important thing is that the content to which it refer should be correct. However the format of 'passive verb causative verb of A' and 'passive form causative form of A' is problematic because the definition of headword does not contain semantic information but syntactic or morphological information. Generic concept 'passive form causative form' and 'passive verb causative verb' refers to respectively morphological and syntactic level but specific concept 'A' refers to semantic level. These morphological, syntactic and semantic level can not be a same dimension so the size of their denotation can not be compared. The way of transform syntactic dimension 'passive verb causative verb' and morphological dimension 'passive form causative form' into semantic dimension is removing 'verb' and 'form' from 'passive verb causative verb' and 'passive form causative form' respectively. Therefore the expression 'passive verb causative verb of A' or 'passive form causative form of A' ought be changed into 'passive causative of A.'

세종 전자사전과 준지도식 학습 방법을 이용한 용언의 어의 중의성 해소 (Word Sense Disambiguation of Predicate using Semi-supervised Learning and Sejong Electronic Dictionary)

  • 강상욱;김민호;권혁철;오주현
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권2호
    • /
    • pp.107-112
    • /
    • 2016
  • 국립국어원의 주관으로 10년에 걸쳐 구축된 21세기 세종 계획의 결과물들은 한국어를 대상으로 한 대부분의 자연언어 처리 시스템 및 연구에 널리 이용되고 있다. 21세기 세종 계획의 결과물 중, 세종 전자사전은 한국어 어휘의 내재정보에 대한 체계적인 분석 정보를 담고 있어 세종 전자사전 내의 상세 정보를 이용하여 어의 중의성 해소(Word Sense Disambiguation) 규칙을 구축하는 데 이용할 수 있다. 하지만 한국어의 특성상 다양한 문형과 논항이 출현할 수 있으므로 문형과 논항에 대한 모든 정보를 담을 수 없는 단점이 존재한다. 본 연구에서는 세종 전자사전의 용언 하위범주화 정보와 한국어 어휘의미망(Korean Lexico-semantic Network)을 이용하여 구축한 어의 중의성 해소 규칙을 준지도 학습 방법을 이용하여 논항의 선택제약 정보를 확장 및 일반화한다.

반자동으로 구축된 의미 사전을 이용한 한국어 상품평 분석 시스템 (A Korean Product Review Analysis System Using a Semi-Automatically Constructed Semantic Dictionary)

  • 명재석;이동주;이상구
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권6호
    • /
    • pp.392-403
    • /
    • 2008
  • 사용자가 작성한 리뷰는 다양한 활용성을 갖는 가치 있는 데이타이다. 특히 온라인 쇼핑몰에서의 상품평은 사용자의 구매 결정에 직접적인 영향을 미치는 중요한 정보이다. 본 논문에서는 실제 쇼핑몰 사이트에 있는 상품평을 분석하여 각 상품의 특징과 이에 대한 사용자의 의견을 요약하고 상품의 순위를 산정하는 상품평 분석 시스템을 설계하고 구현하였다. 상품평을 분석하는 과정에서는 자연언어처리 기법과 의미 사전을 사용한다. 의미 사전에는 상품의 특징을 표현하는 어휘와 각 어휘들의 극성(Polarity) 정보들을 반자동화된 도구들을 활용하여 정의할 수 있도록 구현하였다. 이에 더하여 문맥에 따라 다른 의미를 갖는 어휘를 의미 사전에서 정의하고 활용하는 방법에 대해서도 논의하였다. 실험은 2개 상품 분류의 20개 상품, 1796개의 실제 상품평을 수집하여 상품의 순위를 측정하고 주요 요소를 분석하는 방식으로 진행하였다. 그 중 2개 상품에 대한 63개의 상품평에 대하여 분석의 정확률과 재현율을 측정하였으며, 평균 88.94%의 정확률, 47.92%의 재현율을 나타내었다.

사전 뜻풀이를 이용한 용언 의미 군집화 (Semantic Clustering of Predicates using Word Definition in Dictionary)

  • 배영준;최호섭;송유화;옥철영
    • 인지과학
    • /
    • 제22권3호
    • /
    • pp.271-298
    • /
    • 2011
  • 한국어의 어휘 의미 정보를 명확히 파악하기 위해서는 어휘 의미 체계를 구축해야 한다. 본 논문에서는 어휘 의미 체계 구축의 단계 중 하나인 용언의 의미 군집화를 연구하였다. 용언의 하위범주화 논항(주어 및 목적어)과 선택 제약정보, 부사의 결합정보를 이용한 이전의 연구와는 달리 의미태그가 부착된 사전 뜻풀이의 용언정보를 이용하여 용언의 의미 군집화를 시도하였고, 표제어와 뜻풀이 용언 사이 관계의 종개념과 유개념 관계를 이용하여 계층적 의미 군집화를 시도하였다. 그리고 특정 범주의 일반 샘플을 이용했던 특정 용언의 부류가 아닌, 사전에 존재하는 대부분의 용언들을 대상으로 연구를 진행하였다. 본 논문에서 다의어 수준에서 구분된 총 106,501개의 용언(85,754개의 동사와 20,747개의 형용사)을 대상으로 한국어 용언 의미계층 군집 2,748개를 생성하였다. 이 중 순환정의 군집은 130개가 나타났으며, 중간 계층의 서브군집으로 261개가 나타났다. 군집 내 계층의 최대 깊이는 16단계였다. 그리고 용언 의미 군집 평가를 위해 세종사태의미부류와 비교해 보았다. 그 결과 70.14%의 응집도를 보였다.

  • PDF

명사의 의미소성의 계층구조 (The Hierarchical Structure of Semantic Property)

  • 윤광진;박찬곤;이주근
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1988년도 전기.전자공학 학술대회 논문집
    • /
    • pp.616-619
    • /
    • 1988
  • This paper deals with a semantic properties of Korea noun for semantic process in machine translation. The procedure is carried out as follow; 1) 17,000 words of Korean nouns are collected. 2) Semantic category is classifed into 39 markers. 3) We slow the redundancy of semantic properties and improve the efficiency of dictionary by marking the hierarchical concept structure.

  • PDF

Ranking Translation Word Selection Using a Bilingual Dictionary and WordNet

  • Kim, Kweon-Yang;Park, Se-Young
    • 한국지능시스템학회논문지
    • /
    • 제16권1호
    • /
    • pp.124-129
    • /
    • 2006
  • This parer presents a method of ranking translation word selection for Korean verbs based on lexical knowledge contained in a bilingual Korean-English dictionary and WordNet that are easily obtainable knowledge resources. We focus on deciding which translation of the target word is the most appropriate using the measure of semantic relatedness through the 45 extended relations between possible translations of target word and some indicative clue words that play a role of predicate-arguments in source language text. In order to reduce the weight of application of possibly unwanted senses, we rank the possible word senses for each translation word by measuring semantic similarity between the translation word and its near synonyms. We report an average accuracy of $51\%$ with ten Korean ambiguous verbs. The evaluation suggests that our approach outperforms the default baseline performance and previous works.

Automatic Mapping Between Large-Scale Heterogeneous Language Resources for NLP Applications: A Case of Sejong Semantic Classes and KorLexNoun for Korean

  • Park, Heum;Yoon, Ae-Sun
    • 한국언어정보학회지:언어와정보
    • /
    • 제15권2호
    • /
    • pp.23-45
    • /
    • 2011
  • This paper proposes a statistical-based linguistic methodology for automatic mapping between large-scale heterogeneous languages resources for NLP applications in general. As a particular case, it treats automatic mapping between two large-scale heterogeneous Korean language resources: Sejong Semantic Classes (SJSC) in the Sejong Electronic Dictionary (SJD) and nouns in KorLex. KorLex is a large-scale Korean WordNet, but it lacks syntactic information. SJD contains refined semantic-syntactic information, with semantic labels depending on SJSC, but the list of its entry words is much smaller than that of KorLex. The goal of our study is to build a rich language resource by integrating useful information within SJD into KorLex. In this paper, we use both linguistic and statistical methods for constructing an automatic mapping methodology. The linguistic aspect of the methodology focuses on the following three linguistic clues: monosemy/polysemy of word forms, instances (example words), and semantically related words. The statistical aspect of the methodology uses the three statistical formulae ${\chi}^2$, Mutual Information and Information Gain to obtain candidate synsets. Compared with the performance of manual mapping, the automatic mapping based on our proposed statistical linguistic methods shows good performance rates in terms of correctness, specifically giving recall 0.838, precision 0.718, and F1 0.774.

  • PDF

코어 컴포넌트 기반 시맨틱 라이브러리의 설계 (Using Core Components to Design Semantic Libraries)

  • 정용규
    • 정보관리학회지
    • /
    • 제24권3호
    • /
    • pp.83-92
    • /
    • 2007
  • 시맨틱 라이브러리는 의미사전을 구축함으로써 EDI 전자문서의 교환에 활용될 수 있다. 본 논문은 실무 개발자들이 메타데이터를 이용한 의미사전을 개발하는 과정에서 참고할 수 있는 시맨틱 라이브러리 설계정보를 기술한다. 시맨틱 라이브러리를 구성하는 요소로는 크게 시맨틱 요소(Semantic Element)와 시맨틱 단위(Semantic Unit), 매핑 테이블(Mapping Table) 등 3개로 구성된다. 본 논문에서는 이러한 구성요소들의 기본적인 특성과 개발 관련 설계 방법을 제안한다. 또한 이러한 구성요소와 제반 규칙을 준용하여 메타 데이터 간 의미적 교환을 위한 사전을 구축한 사례를 소개한다.

감정어휘 평가사전과 의미마디 연산을 이용한 영화평 등급화 시스템 (Grading System of Movie Review through the Use of An Appraisal Dictionary and Computation of Semantic Segments)

  • 고민수;신효필
    • 인지과학
    • /
    • 제21권4호
    • /
    • pp.669-696
    • /
    • 2010
  • 본 논문은 한 문서의 전체 의미는 각 부분의미의 합성이라는 관점에서 미리 반자동으로 구축된 감정어휘 평가사전을 기반으로 한 시스템을 제안한다. 인간의 의사 결정 과정과 유사한 방식으로 의사 결정 과정을 모델링하려는 노력으로써 본 ARSSA 시스템은 개별 리뷰의 의미값 연산과 자료 분류를 통해 감정 표현이 나타난 영화평 리뷰의 자동 등급화에 대한 연구를 수행한다. 이는 {'평점' : '리뷰'} 이항구조로 이루어진 현재의 평점 부여 형식에서 발생하는 두 변항의 불연속성 문제를 해결해보려는 목적을 가진다. 이는 어휘 의미 합성 과정에서 반영된 추상적 의미들의 합성 함수를 통해 실현될 수 있다. 시스템의 성능 실험에서 네이버 무비에서 확보한 1000개의 리뷰에 대한 10-fold 교차 검증 실험이 수행되었다. 이 실험은 기존에 부여된 평점과 비교하여 감정어휘 평가사전을 이용하였을 때 85%의 F1 Score를 보였다.

  • PDF