• Title/Summary/Keyword: thesaurus construction

Search Result 62, Processing Time 0.025 seconds

Automatic Thesaurus Construction using Inference Networks (추론망을 이용한 시소러스의 자동구축)

  • Park, Youn-Chan;Han, Young-Seok;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.395-399
    • /
    • 1994
  • 정보 검색의 효율은 정보검색 시스템에서 사용되는 지식의 질에 상당한 영향을 받는다. 이러한 지식 표현의 한 가지로 널리 사용되고 있는 것이 시소러스이다. 이러한 시소러스의 구축은 지식을 얼마만큼 잘 구성하는가에 있다. 따라서 시소러스의 자동 구축은 상당한 효용을 지니게 된다. 시소러스의 자동구축시에 대량의 말뭉치로부터 지식을 추출하는 방법론이 많이 연구되어 오고 있다. 그러나 이러한 방법은 단어의 통계적인 행태에 크게 의존하고 있기때문에 자료 회귀(data sparseness)의 문제가 큰 장에 요인이 되고 있다. 본 연구에서는 이러한 자료회귀문제를 해결하기 위해 추론망을 사용하고자 하는 모험을 제시하고자 한다.

  • PDF

A Study on Efficient Construction of Sementic Net for Source Code Reuse (소스코드 재사용을 위한 효율적인 의미망 구성에 관한 연구)

  • Kim Gui-Jung
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2005.05a
    • /
    • pp.475-479
    • /
    • 2005
  • In this paper we constructed semantic net that can efficiently conform retrieval and reuse of object-oriented source code. In odor that initial relevance of semantic net was constructed using thesaurus to represent concept of object-oriented inheritance between each node. Also we made up for the weak points in spreading activation method that use to activate node and line of semantic net and to impulse activation value. Therefore we proposed the method to enhance retrieval time and to keep the quality of spreading activation.

  • PDF

A Concept Acquisition Tool for Thesaurus Construction (시소러스 작성을 위한 개념 획득 도구)

  • Kim, Myoung-Cheol;Lee, Woon-Jae;Choi, Key-Sun;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.39-49
    • /
    • 1992
  • 시소러스를 작성하기 위해 시소러스 작성자가 고려래야 하는 문제는 단어간의 개념 관계이다. 단어간의 관개는 계층구조에 정의된 개념을 기반으로 분석하여 하향식으로 시소러스를 작성하는 것이 일반적이다. 이러한 방식은 작성자에 의존적이므로 시소러스의 정확도를 보장할 수 없고 주관적인 성향을 가진다. 그래서 Corpus에서 자동으로 개념 및 개념 관계를 추출하는 상향식 방법들이 다양하게 시도되고 있다. 본 논문에서는 시소러스 작성을 위한 자동 개념 획득 도구를 설계, 구현하였다. Mutual Information이라는 방법을 이용하여 공기 정보(Collocation)를 정량화하고 이를 통하여 단어간의 개념관계의 크기를 측정한 후 개념 관계의 크기(MI 값)가 큰 값을 선택하여 개념 화일을 작성한다. 실험 결과로 얻은 개념 화일은 두 개념간의 밀접도를 나타내므로 시소러스 작성에 매우 유용하다.

  • PDF

Using WordNet for the Automatic Construction of Korean Thesaurus (WordNet을 이용한 한국어 시소러스 자동 구축)

  • Lee, Chang-Ki;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.156-163
    • /
    • 1999
  • 최근의 자연어 처리 분야의 연구들에서 광범위하고 완전한 어휘 지식 베이스의 필요성이 입증되었다. 영어권의 경우, 이에 대한 연구가 오래 전부터 있어 왔고, 그 결과로 현재 주로 사용되고 있는 개념체계에는 Roget's Thesaurus와 WordNet 등이 있다. 이러한 개념체계들은 자연어 처리의 여러 응용 분야에서 중요한 역할을 담담하고 있지만, 다른 언어의 경우 널리 사용되고 있는 개념체계가 없는 실정이다. 본 논문에서는 Princeton 대학의 WordNet을 기반으로 한영 사전과 국어 사전을 이용하여 한국어 명사의 개념체계를 자동으로 구축함으로써, 이미 구축되어진 다른 언어의 개념체계를 이용하여 새로운 언어의 개념체계를 자동으로 구축할 수 있음을 보인다. 먼저 한영 사전과 국어 사전으로부터 뽑아낸 한국어 단어 일부의 의미를 다양한 WSD(Word Sense Disambiguation) 방법을 적용시켜 WordNet의 synset에 자동으로 연결시킬 수 있음을 보인다. 그리고 각각의 자동변환으로 나온 결과들에 대해서 적용율과 정확도를 비교하도록 한다.

  • PDF

Object-based Thesaurus Construction and Design Pattern Retrieval using Boolean (객체기반 시소러스 구축과 부울리언을 이용한 설계패턴 검색)

  • Shon, Eun-Young;Han, Jung-Soo;Song, Young-Jae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.421-424
    • /
    • 2001
  • 본 논문은 설계 패턴의 효율적인 관리와 재사용을 위하여 패싯 방식을 이용한 패턴 분류와 패싯 항목과 패턴간의 관련성을 이용한 패턴 검색 시소러스를 구축하였다. 저장소에 패턴들의 관계성을 정의하고 새로운 패턴을 삽입 시 임의의 패턴과의 관계성을 지정해주면 시스템은 이 패턴에 연관된 패턴들을 보여주고 사용자는 패턴과의 관계성을 지정해 준다. 패턴 검색은 입력한 질의를 추론하여 검색할 수 있도록 부울 질의 형식을 사용하였다. 그리고 기존의 시소러스의 중복성과 복잡한 비교시간을 최소화하기 위하여 "Gamma 확장 + 패싯" 분류방법을 이용하여 패턴들을 분류하였고, 본 연구의 검색 결과가 보다 더 정확한 패턴이 검색될 수 있도록 하였다.

  • PDF

Feature Based Object-Oriented Thesaurus Construction (특성 기반 객체지향 시소러스 구축)

  • Jung, Dae-Sung;Han, Jung-Soo;Kim, Gui-Jung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11c
    • /
    • pp.1579-1582
    • /
    • 2003
  • 본 연구는 컴포넌트 검색을 위해서 컴포넌트를 컨덱스트에 의해 패싯 분류하고, 컨텍스트와 특성들간의 관련값에 대한 통계적 분석에 의해 시소러스를 구축하여 다중 패싯 분류된 컴포넌트를 효율적으로 검색할 수 있는 방법을 제안하였다. 소스 코드로부터 추출된 특성은 카이제곱 방법을 통하여 간소화가 이루어지며, E-SARM 방법을 사용하여 컨텍스트의 자동 검색이 이루어질 수 있도록 하였다. 쿼리에 대해 자동 검색된 컨덱스트에 의해 후보 컴포넌트가 선정되고, 쿼리와 컴포넌트 간의 유사도가 계산됨으로써 컴포넌트가 검색될 수 있도록 하였다. 본 연구는 다중 패싯 분류된 컴포넌트의 검색에 효율적이며, 컴포넌트의 재사용성을 높일 수 있도록 하였다.

  • PDF

Ontology Construction and Its Application to Disambiguate Word Senses (온톨로지 구축 및 단어 의미 중의성 해소에의 활용)

  • Kang, Sin-Jae
    • The KIPS Transactions:PartB
    • /
    • v.11B no.4
    • /
    • pp.491-500
    • /
    • 2004
  • This paper presents an ontology construction method using various computational language resources, and an ontology-based word sense disambiguation method. In order to acquire a reasonably practical ontology the Kadokawa thesaurus is extended by inserting additional semantic relations into its hierarchy, which are classified as case relations and other semantic relations. To apply the ontology to disambiguate word senses, we apply the previously-secured dictionary information to select the correct senses of some ambiguous words with high precision, and then use the ontology to disambiguate the remaining ambiguous words. The mutual information between concepts in the ontology was calculated before using the ontology as knowledge for disambiguating word senses. If mutual information is regarded as a weight between ontology concepts, the ontology can be treated as a graph with weighted edges, and then we locate the weighted path from one concept to the other concept. In our practical machine translation system, our word sense disambiguation method achieved a 9% improvement over methods which do not use ontology for Korean translation.

Construction of Immunology Thesaurus and Ontology (면역학 시소러스 및 온톨로지 구축)

  • Im, Ji-Hui;Choe, Ho-Seop;Bae, Young-Jun;Ock, Cheol-Young;Choi, Sung-Pil;Sung, Won-Kyung;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.21-27
    • /
    • 2005
  • 본 논문에서는 국가에서 추진하는 차세대신성장동력산업과 관련된 특정 분야('바이오 신약/장기' 분야 중 '면역 기능 제어')를 선택하여, 기구축된 면역학 전문용어사전을 비롯하여 의학용어사전, 표준국어대사전 등을 참조하여 핵심 용어와 관련 용어를 중심으로 면역학 시소러스(어휘 3,462개) 및 온톨로지(개념 노드 4,703개)를 구축하였다. 이것은 전문용어사전부터 온톨로지에 이르기까지 통일화된 표준 체계를 가지고 있으며, 도메인 온톨로지를 구축하여 향후 온톨로지 개발 방향을 설정할 수 있는 계기가 되었다고 할 수 있다. 또한 면역학 시소러스는 검색의 성능을 향상시킬 수 있도록 충분한 양의 데이터를 구축하였고 면역학 온톨로지는 언어처리적 관점에서의 온톨로지를 표현하였다. 이는 정보검색에서의 효율성을 비롯하여, 특정 웹 온톨로지 언어를 이용한 웹 온톨로지로의 변환성, 대규모 도메인 온톨로지라는 점에서 의미를 가진다고 할 수 있다.

  • PDF

Constructing the Semantic Information Model using A Collective Intelligence Approach

  • Lyu, Ki-Gon;Lee, Jung-Yong;Sun, Dong-Eon;Kwon, Dai-Young;Kim, Hyeon-Cheol
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.5 no.10
    • /
    • pp.1698-1711
    • /
    • 2011
  • Knowledge is often represented as a set of rules or a semantic network in intelligent systems. Recently, ontology has been widely used to represent semantic knowledge, because it organizes thesaurus and hierarchal information between concepts in a particular domain. However, it is not easy to collect semantic relationships among concepts. Much time and expense are incurred in ontology construction. Collective intelligence can be a good alternative approach to solve these problems. In this paper, we propose a collective intelligence approach of Games With A Purpose (GWAP) to collect various semantic resources, such as words and word-senses. We detail how to construct the semantic information model or ontology from the collected semantic resources, constructing a system named FunWords. FunWords is a Korean lexical-based semantic resource collection tool. Experiments demonstrated the resources were grouped as common nouns, abstract nouns, adjective and neologism. Finally, we analyzed their characteristics, acquiring the semantic relationships noted above. Common nouns, with structural semantic relationships, such as hypernym and hyponym, are highlighted. Abstract nouns, with descriptive and characteristic semantic relationships, such as synonym and antonym are underlined. Adjectives, with such semantic relationships, as description and status, illustration - for example, color and sound - are expressed more. Last, neologism, with the semantic relationships, such as description and characteristics, are emphasized. Weighting the semantic relationships with these characteristics can help reduce time and cost, because it need not consider unnecessary or slightly related factors. This can improve the expressive power, such as readability, concentrating on the weighted characteristics. Our proposal to collect semantic resources from the collective intelligence approach of GWAP (our FunWords) and to weight their semantic relationship can help construct the semantic information model or ontology would be a more effective and expressive alternative.

Determining the Specificity of Terms using Compositional and Contextual Information (구성정보와 문맥정보를 이용한 전문용어의 전문성 측정 방법)

  • Ryu Pum-Mo;Bae Sun-Mee;Choi Key-Sun
    • Journal of KIISE:Software and Applications
    • /
    • v.33 no.7
    • /
    • pp.636-645
    • /
    • 2006
  • A tenn with more domain specific information has higher level of term specificity. We propose new specificity calculation methods of terms based on information theoretic measures using compositional and contextual information. Specificity of terms is a kind of necessary conditions in tenn hierarchy construction task. The methods use based on compositional and contextual information of terms. The compositional information includes frequency, $tf{\cdot}idf$, bigram and internal structure of the terms. The contextual information of a tenn includes the probabilistic distribution of modifiers of terms. The proposed methods can be applied to other domains without extra procedures. Experiments showed very promising result with the precision of 82.0% when applied to the terms in MeSH thesaurus.