• 제목/요약/키워드: Sejong electronic dictionary

검색결과 16건 처리시간 0.026초

세종 전자사전과 한국어 어휘의미망을 이용한 용언의 어의 중의성 해소 (Word Sense Disambiguation of Predicate using Sejong Electronic Dictionary and KorLex)

  • 강상욱;김민호;권혁철;전성규;오주현
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권7호
    • /
    • pp.500-505
    • /
    • 2015
  • 21세기 세종계획을 통하여 개발된 세종 전자사전은 한국어 어휘의 내재정보에 대한 체계적인 분석 정보를 담고 있다. 이는 일반적으로 사용하는 텍스트 사전이 가지는 전산적 표상 문제를 해결하는데 많은 도움을 주고 있다. 자연언어처리 분야에서 끊이지 않는 문제인 어의 중의성 해소(Word Sense Disambiguation) 문제 또한 세종 전자사전의 상세 정보를 이용하여 해결할 수 있지만, 실제 제시된 문형과 논항의 선택제약 명사로는 어의 중의성 해소 문제를 해결하는 데 한계를 보인다. 본 연구에서는 세종 전자사전의 용언 하위범주화 정보를 이용한 어의 중의성 해소의 한계점을 보이고, 한국어 어휘의미망(Korean Lexico-semantic network)을 이용하여 논항의 선택제약 정보를 일반화한다.

대용량 OWL 온톨로지 자동구축을 위한 세종전자사전 활용 방법론 연구 (A Study of Methodology for Automatic Construction of OWL Ontologies from Sejong Electronic Dictionary)

  • 송도규
    • 한국언어정보학회지:언어와정보
    • /
    • 제9권1호
    • /
    • pp.19-34
    • /
    • 2005
  • Ontology is an indispensable component in intelligent and semantic processing of knowledge and information, such as in semantic web. However, ontology construction requires vast amount of data collection and arduous efforts in processing these un-structured data. This study proposed a methodology to automatically construct and generate ontologies from Sejong Electronic Dictionary. As Sejong Electronic Dictionary is structured in XML format, it can be processed automatically by computer programmed tools into an OWL(Web Ontology Language)-based ontologies as specified in W3C . This paper presents the process and concrete application of this methodology.

  • PDF

세종 전자사전과 준지도식 학습 방법을 이용한 용언의 어의 중의성 해소 (Word Sense Disambiguation of Predicate using Semi-supervised Learning and Sejong Electronic Dictionary)

  • 강상욱;김민호;권혁철;오주현
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권2호
    • /
    • pp.107-112
    • /
    • 2016
  • 국립국어원의 주관으로 10년에 걸쳐 구축된 21세기 세종 계획의 결과물들은 한국어를 대상으로 한 대부분의 자연언어 처리 시스템 및 연구에 널리 이용되고 있다. 21세기 세종 계획의 결과물 중, 세종 전자사전은 한국어 어휘의 내재정보에 대한 체계적인 분석 정보를 담고 있어 세종 전자사전 내의 상세 정보를 이용하여 어의 중의성 해소(Word Sense Disambiguation) 규칙을 구축하는 데 이용할 수 있다. 하지만 한국어의 특성상 다양한 문형과 논항이 출현할 수 있으므로 문형과 논항에 대한 모든 정보를 담을 수 없는 단점이 존재한다. 본 연구에서는 세종 전자사전의 용언 하위범주화 정보와 한국어 어휘의미망(Korean Lexico-semantic Network)을 이용하여 구축한 어의 중의성 해소 규칙을 준지도 학습 방법을 이용하여 논항의 선택제약 정보를 확장 및 일반화한다.

워드 임베딩과 유의어를 활용한 단어 의미 범주 할당 (Assignment Semantic Category of a Word using Word Embedding and Synonyms)

  • 박다솔;차정원
    • 정보과학회 논문지
    • /
    • 제44권9호
    • /
    • pp.946-953
    • /
    • 2017
  • 의미역 결정은 서술어와 논항들 사이의 의미 관계를 결정하는 문제이다. 의미역 결정을 위해 의미 논항 역할 정보와 의미 범주 정보를 사용해야 한다. 세종 전자사전은 의미역을 결정하는데 사용한 격틀 정보가 포함되어 있다. 본 논문에서는 워드 임베딩과 유의어를 활용하여 세종 전자사전을 확장하는 방법을 제시한다. 연관 단어가 유사한 벡터 표현을 갖도록 하기 위해 유의어 사전의 정보를 사용하여 재구성된 벡터를 생성한다. 기존의 워드 임베딩과 재구성된 벡터를 사용하여 동일한 실험을 진행한다. 워드 임베딩을 이용한 벡터로 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 32.19%이고, 확장한 의미 범주 할당의 시스템 성능은 51.14%이다. 재구성된 벡터를 이용한 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 33.33%이고, 확장한 의미 범주 할당의 시스템 성능은 53.88%이다. 의미 범주가 할당되지 않은 새로운 단어에 대해서 논문에서 제안한 방법으로 의미 범주를 할당하여 세종 전자사전의 의미 범주 단어 확장에 대해 도움이 됨을 증명하였다.

Automatic Mapping Between Large-Scale Heterogeneous Language Resources for NLP Applications: A Case of Sejong Semantic Classes and KorLexNoun for Korean

  • Park, Heum;Yoon, Ae-Sun
    • 한국언어정보학회지:언어와정보
    • /
    • 제15권2호
    • /
    • pp.23-45
    • /
    • 2011
  • This paper proposes a statistical-based linguistic methodology for automatic mapping between large-scale heterogeneous languages resources for NLP applications in general. As a particular case, it treats automatic mapping between two large-scale heterogeneous Korean language resources: Sejong Semantic Classes (SJSC) in the Sejong Electronic Dictionary (SJD) and nouns in KorLex. KorLex is a large-scale Korean WordNet, but it lacks syntactic information. SJD contains refined semantic-syntactic information, with semantic labels depending on SJSC, but the list of its entry words is much smaller than that of KorLex. The goal of our study is to build a rich language resource by integrating useful information within SJD into KorLex. In this paper, we use both linguistic and statistical methods for constructing an automatic mapping methodology. The linguistic aspect of the methodology focuses on the following three linguistic clues: monosemy/polysemy of word forms, instances (example words), and semantically related words. The statistical aspect of the methodology uses the three statistical formulae ${\chi}^2$, Mutual Information and Information Gain to obtain candidate synsets. Compared with the performance of manual mapping, the automatic mapping based on our proposed statistical linguistic methods shows good performance rates in terms of correctness, specifically giving recall 0.838, precision 0.718, and F1 0.774.

  • PDF

세종계획 언어자원 기반 한국어 명사은행 (Korean Nominal Bank, Using Language Resources of Sejong Project)

  • 김동성
    • 한국언어정보학회지:언어와정보
    • /
    • 제17권2호
    • /
    • pp.67-91
    • /
    • 2013
  • This paper describes Korean Nominal Bank, a project that provides argument structure for instances of the predicative nouns in the Sejong parsed Corpus. We use the language resources of the Sejong project, so that the same set of data is annotated with more and more levels of annotation, since a new type of a language resource building project could bring new information of separate and isolated processing. We have based on the annotation scheme based on the Sejong electronic dictionary, semantically tagged corpus, and syntactically analyzed corpus. Our work also involves the deep linguistic knowledge of syntaxsemantic interface in general. We consider the semantic theories including the Frame Semantics of Fillmore (1976), argument structure of Grimshaw (1990) and argument alternation of Levin (1993), and Levin and Rappaport Hovav (2005). Various syntactic theories should be needed in explaining various sentence types, including empty categories, raising, left (or right dislocation). We also need an explanation on the idiosyncratic lexical feature, such as collocation and etc.

  • PDF

워드 임베딩을 이용한 세종 전자사전 확장 (Extension Sejong Electronic Dictionary Using Word Embedding)

  • 박다솔;차정원
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.75-78
    • /
    • 2016
  • 본 논문에서는 워드 임베딩과 유의어를 이용하여 세종 전자사전을 확장하는 방법을 제시한다. 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 32.19%이고, 확장한 의미 범주 할당의 시스템 성능은 51.14%의 성능을 보였다. 의미 범주가 할당되지 않은 새로운 단어에 대해서도 논문에서 제안한 방법으로 의미 범주를 할당하여 세종 전자사전의 의미 범주 단어 확장에 대해 도움이 됨을 증명하였다.

  • PDF

워드 임베딩을 이용한 세종 전자사전 확장 (Extension Sejong Electronic Dictionary Using Word Embedding)

  • 박다솔;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.75-78
    • /
    • 2016
  • 본 논문에서는 워드 임베딩과 유의어를 이용하여 세종 전자사전을 확장하는 방법을 제시한다. 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 32.19%이고, 확장한 의미 범주 할당의 시스템 성능은 51.14%의 성능을 보였다. 의미 범주가 할당되지 않은 새로운 단어에 대해서도 논문에서 제안한 방법으로 의미 범주를 할당하여 세종 전자사전의 의미 범주 단어 확장에 대해 도움이 됨을 증명하였다.

  • PDF

세종전자사전에서의 조사.어미 기술 (The Description of Korean particles and endings in the Sejong Electronic Dictionary)

  • 김창섭;김진형
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.326-333
    • /
    • 2001
  • 조사어미사전은 한국어 연구 및 교육, 정보처리 분야에 두루 이용될 수 있는 범용적 전자사전을 지향하는 세종전자사전의 한 위성사전으로서, 한국어 조사와 어미에 대한 각종 언어 정보를 체계적이고 일관된 형식으로 표상하는 것을 목적으로 하고 있다. 그러한 목적을 달성하기 위해 본 연구 작업에서는 조사와 어미의 형태적 변이 양상과 조건을 상세히 밝히는 한편, 의미 통사적 특성과 제약에 관한 다양한 정보들을 가능한 한 풍부하게 제시하고 있다. 조사와 어미에 대하여 사전에 풍부하고 다양한 언어 정보를 표상하는 작업은 기존의 한국어 인쇄사전은 물론 전자사전에서도 본격적으로 시도되지 않았던 것으로, 본 사전에서 현재까지 기술하고 있는 다양한 정보들은 앞으로 한국어에 대한 순수 언어학적 연구만이 아니라 한국어 정보 처리 분야의 발전에 있어서도 기여하는 바가 적지 않을 것으로 기대한다.

  • PDF

세종전자사전을 이용한 한국어 부사격의 의미역 결정 (Semantic Role Assignment for Korean Adverbial Case Using Sejong Electronic Dictionary)

  • 신명철;이용훈;김미영;정유진;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.120-126
    • /
    • 2005
  • 세종전자사전의 용언사전과 체언사전에 기재된 용언의 격틀과 명사의 의미부류는 문장의 의미분석을 위한 핵심적인 언어자원이다. 본 논문에서는 용언사전을 전산처리가 용이한 격틀사전으로 변형한 다음 이를 이용한 의미역 결정 시스템을 구축하였고 기계학습 방법에 기반한 의미역 결정 시스템과 혼합하여 한국어에 있어 '에, 로'를 격표지로 하는 부사격에 대한 의미역 결정 방법에 대해 다루고 있다.

  • PDF