• Title/Summary/Keyword: 어휘지식

Search Result 143, Processing Time 0.189 seconds

Construction of Korean WordNet (한국어 워드넷의 구축)

  • Lim, Sung-Shin;Lee, Eun-Ryoung;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.106-111
    • /
    • 2004
  • 사람의 언어를 이해하는 자연언어처리 시스템을 개발하기 위해서는 의미처리를 위한 지식 베이스(knowledge base)가 필요하다. 지금까지 사람이 가진 지식 베이스를 컴퓨터에 도입하려는 많은 노력을 기울이고 있고 그 결과물로 온톨로지(ontology)와 시소러스(thesaurus)가 만들어지고 있다. 외국에서는 지식 베이스의 중요성을 알고 많은 연구를 수행하고 있으며 그 대표적인 사례들에는 Roget's Thesaurus, WordNet, EDR 개념사전, CYC, Euro WordNet 등이 있다. 이 중에서 가장 대표적이며 많은 활용을 보이는 것이 Princeton 대학의 WordNet이다. WordNet은 인간의 어휘지식에 대한 심리 언어학적인 연구의 결과물로써 심리학자와 언어학자들에 의해 10여 년 동안 구축되고 있는 영어에 대한 어휘데이터베이스이다. 본 논문에서는 WordNet을 기반으로 명사에 대해서 영한사전과 국어사전을 이용하여 구축한 한국어 워드넷을 소개하구 구축시 고려한 기본지침을 소개하도록 하겠다.

  • PDF

Effects of Pair Types on English Vocabulary Acquisition (짝 구성 유형이 영어어휘습득에 미치는 효과)

  • Jang, Yong-Seon
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.8
    • /
    • pp.332-344
    • /
    • 2016
  • This study aimed at investigating the effects of grouping participants in pairs according to their relative vocabulary proficiency on the incidental improvement of vocabulary knowledge. Forty six university students were divided into three groups (high-high(n=14), high-low(n=18), or low-low(n=14)) and took part in the study. They performed three vocabulary activities in pairs as extra-class works. Data were collected from one receptive vocabulary knowledge test scores before treatment and two posttest scores after treatment. The results showed that, unlike former study results, HL dyads acquired more vocabulary receptively and productively than HH or LL dyads did, which demonstrated that collaborative pair activity was conducive to the growth of vocabulary knowledge. Furthermore, not only higher proficiency participants in HL pairs made greater vocabulary gains than participants in HH pairs did but also lower proficiency participants gained more vocabulary than participants in LL pairs did. Based on these results, we discussed pedagogical implications.

Eojeol Representation in Mental Lexicon (심성어휘집내의 어절 표상 구조)

  • 임희석;남기춘
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2002.05a
    • /
    • pp.46-50
    • /
    • 2002
  • 인간의 지식 표상 규명에 대한 연구는 인간을 대상으로 연구하는 심리학에서뿐만 아니라 인간의 지능을 컴퓨터를 이용하여 구현하고자 하는 인공지능 학문에서도 오래 전부터 매우 중요한 화두가 되고 있다. 특히 인간의 지식 중 언어 지식에 대한 연구는 인간의 언어처리 과정 및 현상을 규명하고 이해하고자 하는 심리언어학에서뿐만 아니라 인간의 언어를 컴퓨터를 이용하여 처리하고자 하는 전산언어학 연구에 있어서도 매우 중요하다. 본 논문은 피험자를 대상으로 한 어절 재인 시 관찰되었던 언어 현상을 설명할 수 있는 시뮬레이션 모델과 이에 근거한 심성어휘집내에서의 한국어 어절의 표상 구조를 제안한다.

  • PDF

A Study on the Variable Vocabulary Speech Recognition in the Vocabulary-Independent Environments (어휘독립 환경에서의 가변어휘 음성인식에 관한 연구)

  • 황병한
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.369-372
    • /
    • 1998
  • 본 논문은 어휘독립(Vocabulary-Independent) 환경에서 별도의 훈련과정 없이 인식대상 어휘를 추가 및 변경할 수 있는 가변어휘(Variable Vocabulary) 음성인식에 관한 연구를 다룬다. 가변어휘 인식은 처음에 대용량 음성 데이터베이스(DB)로 음소모델을 훈련하고 인식대상 어휘가 결정되면 발음사전에 의거하여 음소모델을 연결함으로써 별도의 훈련과정 없이 인식대상 어휘를 변경 및 추가할 수 있다. 문맥 종속형(Context-Dependent) 음소 모델인 triphone을 사용하여 인식실험을 하였고, 인식성능의 비교를 위해 어휘종속 모델을 별도로 구성하여 인식실험을 하였다. Unseen triphone 문제와 훈련 DB의 부족으로 인한 모델 파라메터의 신뢰성 저하를 방지하기 위해 state-tying 방법 중 음성학적 지식에 기반을 둔 tree-based clustering(TBC) 기법[1]을 도입하였다. Mel Frequency Cepstrum Coefficient(MFCC)와 대수에너지에 기반을 둔 3 가지 음성특징 벡터를 사용하여 인식 실험을 병행하였고, 연속 확률분포를 가지는 Hidden Markov Model(HMM) 기반의 고립단어 인식시스템을 구현하였다. 인식 실험에는 22 개 부서명 DB[3]를 사용하였다. 실험결과 어휘독립 환경에서 최고 98.4%의 인식률이 얻어졌으며, 어휘종속 환경에서의 인식률 99.7%에 근접한 성능을 보였다.

  • PDF

Incremental Ontology Building Using Open Information Extraction (무제한 정보 추출을 이용한 지식베이스 확장)

  • Kim, Byungsoo;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.228-232
    • /
    • 2014
  • 지식 베이스(Knowledge Base)는 주어진 질의 문에 대한 잠재적인 답과 답에 대한 단서가 될 수 있는 구조화된 형태의 정보를 포함하고 있기 때문에 질의응답 시스템에서 매우 중요하다. 하지만 비록 DBpedia, Freebase, YAGO 등과 같이 이용 가능한 여러 개의 지식 베이스가 존재함에도 불구하고 이러한 지식 베이스에 포함되어 있는 정보는 웹(Web)상에 존재하는 정보에 비하면 매우 제한적이다. 본 논문에서는 무제한 정보 추출 기술을 이용하여 정형화되지 않은 텍스트로부터 트리플(Triple)을 추출하고, 추출된 트리플의 각 개체 및 관계 어휘를 대상 온톨로지(Ontology) 상의 어휘에 사상시킴으로써 지식 베이스를 확장 시키는 방법을 제안한다. 이를 통하여 무제한 정보 추출 방법과 명확화(Disambiguation) 기술이 지식 베이스를 확장시키는데 어떻게 사용될 수 있고, 어떠한 요소가 전체 시스템의 주된 성능 저하를 일으키며 개선되어야 하는지 알아보도록 한다.

  • PDF

Construction of Korean Wordnet "KorLex 1.5" (한국어 어휘의미망 "KorLex 1.5"의 구축)

  • Yoon, Ae-Sun;Hwang, Soon-Hee;Lee, Eun-Ryoung;Kwon, Hyuk-Chul
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.1
    • /
    • pp.92-108
    • /
    • 2009
  • The Princeton WordNet (PWN), which was developed during last 20 years since the mid 80, aimed at representing a mental lexicon inside the human mind. Its potentiality, applicability and portability were more appreciated in the fields of NLP and KE than in cognitive psychology. The semantic and knowledge processing is indispensable in order to obtain useful information using human languages, in the CMC and HCI environment. The PWN is able to provide such NLP-based systems with 'concrete' semantic units and their network. Referenced to the PWN, about 50 wordnets of different languages were developed during last 10 years and they enable a variety of multilingual processing applications. This paper aims at describing PWN-referenced Korean Wordnet, KorLex 1.5, which was developed from 2004 to 2007, and which contains currently about 130,000 synsets and 150,000 word senses for nouns, verbs, adjectives, adverbs, and classifiers.

Methodologies for Constructing KorLex 1.5 (a Korean WordNet) and its Semantic Structure (한국어 어휘의미망 KorLex 1.5의 구축방법론과 정보구조)

  • Yoon, Aesun;Kwon, Hyuk-Chul;Lee, Eun-Ryoung;Hwang, Soon-Hee
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.42-47
    • /
    • 2008
  • 1980년대 중반부터 지난 20여 년간 구축해 온 영어 워드넷(PWN)은 인간의 심상어휘집을 재현하려는 목적으로 개발되기 시작하였으나, 그 활용 가능성에 주목한 것은 자연언어처리와 지식공학 분야다. 컴퓨터 매개 의사소통(CMC), 인간-컴퓨터 상호작용(HCI)에서 인간 언어를 자연스럽게 사용하여 필요한 정보를 획득하기 위해서는 의미와 지식의 처리가 필수적인데, 그 해결의 실마리를 어휘라는 실체를 가진 언어단위에서 찾을 수 있기 때문이다. 이후 전 세계적으로 약 50개 언어의 어휘의미망이 PWN을 참조모델로 구축되어 다국어처리의 기반을 제공할 뿐 아니라, 시맨틱 웹 이후 더욱 주목 받고 다양한 방식으로 활용되고 있다. 본고는 PWN을 참조 모델로 2004년부터 2007년까지 구축한 한국어 어휘의미망 KorLex 1.5를 소개하는 데 있다. 현재 KorLex은 명사, 동사, 형용사, 부사 및 분류사로 구성되며, 약 13만 개의 신셋과 약 15만 개의 어의를 포함하고 있다.

  • PDF

A Study on the Implementatin of Vocalbulary Independent Korean Speech Recognizer (가변어휘 음성인식기 구현에 관한 연구)

  • 황병한
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06d
    • /
    • pp.60-63
    • /
    • 1998
  • 본 논문에서는 사용자가 별도의 훈련과정 없이 인식대상 어휘를 추가 및 변경이 가능한 가변어휘 인식시스템에 관하여 기술한다. 가변어휘 음성인식에서는 미리 구성된 음소모델을 토대로 인식대상 어휘가 결정되명 발음사전에 의거하여 이들 어휘에 해당하는 음소모델을 연결함으로써 단어모델을 만든다. 사용된 음소모델은 현재 음소의 앞뒤의 음소 context를 고려한 문맥종속형(Context-Dependent)음소모델인 triphone을 사용하였고, 연속확률분포를 가지는 Hidden Markov Model(HMM)기반의 고립단어인식 시스템을 구현하였다. 비교를 위해 문맥 독립형 음소모델인 monophone으로 인식실험을 병행하였다. 개발된 시스템은 음성특징벡터로 MFCC(Mel Frequency Cepstrum Coefficient)를 사용하였으며, test 환경에서 나타나지 않은 unseen triphone 문제를 해결하기 위하여 state-tying 방법중 음성학적 지식에 기반을 둔 tree-based clustering 기법을 도입하였다. 음소모델 훈련에는 ETRI에서 구축한 POW (Phonetically Optimized Words) 음성 데이터베이스(DB)[1]를 사용하였고, 어휘독립인식실험에는 POW DB와 관련없는 22개의 부서명을 50명이 발음한 총 1.100개의 고립단어 부서 DB[2]를 사용하였다. 인식실험결과 문맥독립형 음소모델이 88.6%를 보인데 비해 문맥종속형 음소모델은 96.2%의 더 나은 성능을 보였다.

  • PDF

Evaluation of Knowledge Graph for Interoperating Digital Records (디지털 기록의 상호운용을 위한 지식그래프의 평가)

  • Haram Park;Haklae Kim
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.23 no.4
    • /
    • pp.159-178
    • /
    • 2023
  • A digital archive is an online platform for preserving and utilizing digital records worthy of continued preservation. However, there are no shared standards for functionality, metadata, or data technical principles across digital archives in Korea. These issues create challenges in linking distributed digital records. This study proposes a common vocabulary for digital archives to enhance the interoperability of digital records and evaluates the interoperability of the digital archive built with the common vocabulary. We collect and analyze data from the digital archive on the Korean financial crisis of 1997 to construct a knowledge graph and compare its interoperability with the knowledge graph built with RiC-O. The archive and the knowledge graph underwent evaluation using the FAIR data principles evaluation framework. The constructed knowledge graph links various objects in the archive and provides contextual information to aid in understanding the archive. The results demonstrate that a knowledge graph built with a common vocabulary significantly improves the linkage, search, and interoperability of digital records compared to a traditional archive.

A Development of Retrieval Program for Korean Vocabulary History (국어 어휘의 역사 검색 프로그램 개발)

  • 두길수;황호천;김법균;안동언;정성종;이신원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.504-506
    • /
    • 2003
  • “국어 어휘의 역사 검색 프로그램 개발”은 국민들에게 국어 어휘에 대한 역사 정보를 제공하여 국어에 대한 지식과 이해의 폭을 넓힘으로써 국어 생활을 더욱 윤택하게 하고, 국어의 정확한 사용을 통하여 국민들의 의사소통의 정확성과 신속성을 제고함을 그 목적으로 한다. 아울러 이러한 국어 어휘 역사에 대한 정보를 컴퓨터 프로그램을 통하여 국민들에게 제공함으로써, 국민들의 국어 정보화에 기여함은 물론, 잊혀져만 가는 국어에 대한 역사적 사실을 밝혀 줌으로써, 국어의 보존에도 크게 기여하게 될 것이다. 따라서 이 연구는 거시적으로는 한민족 언어의 정보화를 확충시켜 나아가고, 미시적으로는 국민들의 국어에 대한 자긍심을 갖게 함으로써, 국어 발전의 기틀을 마련하는 데에 그 목적이 있다. 본 논문에서는 국어 어휘의 역사 검색 프로그램에 대한 개발 개요와 어휘의 시대별 분류 방식에 대해서 논한다.

  • PDF