• 제목/요약/키워드: Thesaurus Construction

검색결과 63건 처리시간 0.022초

OPAC의 발전과정과 주제접근방법론 (Development of OPAC and theories on online subject access)

  • 최달현
    • 한국도서관정보학회지
    • /
    • 제20권
    • /
    • pp.155-186
    • /
    • 1993
  • This study aims at defining the concept of OPAC, tracing of research trends and development of it, and clarifying various methods of subject access and patterns of bibliographic searching in OPAC as well as strategies for improving to implement online catalogs. Although OPAC is so far the most user-friendly bibliographic searching method, there are still a lot of issues including online subject access in particular. Therefore a more effective and useful method for computer end-users have to be developed, for instance, improvement of an indexing system, a n.0, pplication of the classification system as a searching tool, a new design and construction of standardized thesaurus, betterment of user interface, introducing of expert system into bibliographic searching, establishment of subject authority file. Those would raise the success-rate of users seeking bibliographic information in the library catalogs. Korean libraries are in very early stage of OPAC implementation so that every efforts and concerns to improve strategies and techniques for subject access to OPAC have been strongly asked.

  • PDF

추론망을 이용한 시소러스의 자동구축 (Automatic Thesaurus Construction using Inference Networks)

  • 박영찬;한영석;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.395-399
    • /
    • 1994
  • 정보 검색의 효율은 정보검색 시스템에서 사용되는 지식의 질에 상당한 영향을 받는다. 이러한 지식 표현의 한 가지로 널리 사용되고 있는 것이 시소러스이다. 이러한 시소러스의 구축은 지식을 얼마만큼 잘 구성하는가에 있다. 따라서 시소러스의 자동 구축은 상당한 효용을 지니게 된다. 시소러스의 자동구축시에 대량의 말뭉치로부터 지식을 추출하는 방법론이 많이 연구되어 오고 있다. 그러나 이러한 방법은 단어의 통계적인 행태에 크게 의존하고 있기때문에 자료 회귀(data sparseness)의 문제가 큰 장에 요인이 되고 있다. 본 연구에서는 이러한 자료회귀문제를 해결하기 위해 추론망을 사용하고자 하는 모험을 제시하고자 한다.

  • PDF

소스코드 재사용을 위한 효율적인 의미망 구성에 관한 연구 (A Study on Efficient Construction of Sementic Net for Source Code Reuse)

  • 김귀정
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2005년도 춘계 종합학술대회 논문집
    • /
    • pp.475-479
    • /
    • 2005
  • 본 연구에서는 객체 지향 소스 코드의 검색과 재사용을 효율적으로 수행할 수 있는 의미망을 구축하였다. 이를 위하여 각 노드 간 객체지향 상속의 개념을 표현할 수 있도록 의미망의 초기 관련값을 시소러스로 구축하였다. 또한, 의미망의 노드와 간선을 활성화시키고 활성값을 전파 시키기 위해 사용되는 spreading activation 방법의 단점을 보완하여 spreading activation의 성능은 최대한 유지하면서 검색 속도를 향상 시킬 수 있는 방법을 제안하였다.

  • PDF

시소러스 작성을 위한 개념 획득 도구 (A Concept Acquisition Tool for Thesaurus Construction)

  • 김명철;이운재;최기선;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.39-49
    • /
    • 1992
  • 시소러스를 작성하기 위해 시소러스 작성자가 고려래야 하는 문제는 단어간의 개념 관계이다. 단어간의 관개는 계층구조에 정의된 개념을 기반으로 분석하여 하향식으로 시소러스를 작성하는 것이 일반적이다. 이러한 방식은 작성자에 의존적이므로 시소러스의 정확도를 보장할 수 없고 주관적인 성향을 가진다. 그래서 Corpus에서 자동으로 개념 및 개념 관계를 추출하는 상향식 방법들이 다양하게 시도되고 있다. 본 논문에서는 시소러스 작성을 위한 자동 개념 획득 도구를 설계, 구현하였다. Mutual Information이라는 방법을 이용하여 공기 정보(Collocation)를 정량화하고 이를 통하여 단어간의 개념관계의 크기를 측정한 후 개념 관계의 크기(MI 값)가 큰 값을 선택하여 개념 화일을 작성한다. 실험 결과로 얻은 개념 화일은 두 개념간의 밀접도를 나타내므로 시소러스 작성에 매우 유용하다.

  • PDF

WordNet을 이용한 한국어 시소러스 자동 구축 (Using WordNet for the Automatic Construction of Korean Thesaurus)

  • 이창기;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.156-163
    • /
    • 1999
  • 최근의 자연어 처리 분야의 연구들에서 광범위하고 완전한 어휘 지식 베이스의 필요성이 입증되었다. 영어권의 경우, 이에 대한 연구가 오래 전부터 있어 왔고, 그 결과로 현재 주로 사용되고 있는 개념체계에는 Roget's Thesaurus와 WordNet 등이 있다. 이러한 개념체계들은 자연어 처리의 여러 응용 분야에서 중요한 역할을 담담하고 있지만, 다른 언어의 경우 널리 사용되고 있는 개념체계가 없는 실정이다. 본 논문에서는 Princeton 대학의 WordNet을 기반으로 한영 사전과 국어 사전을 이용하여 한국어 명사의 개념체계를 자동으로 구축함으로써, 이미 구축되어진 다른 언어의 개념체계를 이용하여 새로운 언어의 개념체계를 자동으로 구축할 수 있음을 보인다. 먼저 한영 사전과 국어 사전으로부터 뽑아낸 한국어 단어 일부의 의미를 다양한 WSD(Word Sense Disambiguation) 방법을 적용시켜 WordNet의 synset에 자동으로 연결시킬 수 있음을 보인다. 그리고 각각의 자동변환으로 나온 결과들에 대해서 적용율과 정확도를 비교하도록 한다.

  • PDF

객체기반 시소러스 구축과 부울리언을 이용한 설계패턴 검색 (Object-based Thesaurus Construction and Design Pattern Retrieval using Boolean)

  • 손은영;한정수;송영재
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.421-424
    • /
    • 2001
  • 본 논문은 설계 패턴의 효율적인 관리와 재사용을 위하여 패싯 방식을 이용한 패턴 분류와 패싯 항목과 패턴간의 관련성을 이용한 패턴 검색 시소러스를 구축하였다. 저장소에 패턴들의 관계성을 정의하고 새로운 패턴을 삽입 시 임의의 패턴과의 관계성을 지정해주면 시스템은 이 패턴에 연관된 패턴들을 보여주고 사용자는 패턴과의 관계성을 지정해 준다. 패턴 검색은 입력한 질의를 추론하여 검색할 수 있도록 부울 질의 형식을 사용하였다. 그리고 기존의 시소러스의 중복성과 복잡한 비교시간을 최소화하기 위하여 "Gamma 확장 + 패싯" 분류방법을 이용하여 패턴들을 분류하였고, 본 연구의 검색 결과가 보다 더 정확한 패턴이 검색될 수 있도록 하였다.

  • PDF

특성 기반 객체지향 시소러스 구축 (Feature Based Object-Oriented Thesaurus Construction)

  • 정대성;한정수;김귀정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (하)
    • /
    • pp.1579-1582
    • /
    • 2003
  • 본 연구는 컴포넌트 검색을 위해서 컴포넌트를 컨덱스트에 의해 패싯 분류하고, 컨텍스트와 특성들간의 관련값에 대한 통계적 분석에 의해 시소러스를 구축하여 다중 패싯 분류된 컴포넌트를 효율적으로 검색할 수 있는 방법을 제안하였다. 소스 코드로부터 추출된 특성은 카이제곱 방법을 통하여 간소화가 이루어지며, E-SARM 방법을 사용하여 컨텍스트의 자동 검색이 이루어질 수 있도록 하였다. 쿼리에 대해 자동 검색된 컨덱스트에 의해 후보 컴포넌트가 선정되고, 쿼리와 컴포넌트 간의 유사도가 계산됨으로써 컴포넌트가 검색될 수 있도록 하였다. 본 연구는 다중 패싯 분류된 컴포넌트의 검색에 효율적이며, 컴포넌트의 재사용성을 높일 수 있도록 하였다.

  • PDF

온톨로지 구축 및 단어 의미 중의성 해소에의 활용 (Ontology Construction and Its Application to Disambiguate Word Senses)

  • 강신재
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.491-500
    • /
    • 2004
  • 본 논문은 기존의 다양한 언어자원들을 이용하여 온톨로지를 구축하고, 이를 단어의미 중의성 해소에 활용하는 방법을 제시하고 있다. 온톨로지를 실용적으로 구축하기 위해서는 가도카와 시소러스의 개념 체계에 격 관계와 기타 의미관계와 같은 다른 의미관계를 추가하여 확장하는 방법을 선택하였다. 구축된 온톨로지를 단어 의미 중의성 해소에 활용하기 위해서는, 결합가 정보를 포함하고 있는 전자사전을 먼저 이용하여 단어의 의미를 결정하고, 결정하지 못한 단어의 의미는 온톨로지를 이용하여 결정하는 절차를 거친다. 이를 위해 온톨로지 내 개념들간의 상호정보가 말뭉치의 통계 정보에 근거하여 계산되는데, 이를 가중치로 간주하면 온톨로지는 가중치 그래프로 생각할 수 있으므로 개념간 경로를 통하여 개념간 연관도를 알아 볼 수 있다. 실제 기계번역 시스템에서 본 방법은 온톨로지를 사용하지 않은 방법보다 9%의 성능 향상을 가져오는 결과를 얻을 수 있었다.

면역학 시소러스 및 온톨로지 구축 (Construction of Immunology Thesaurus and Ontology)

  • 임지희;최호섭;배영준;옥철영;최성필;성원경;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.21-27
    • /
    • 2005
  • 본 논문에서는 국가에서 추진하는 차세대신성장동력산업과 관련된 특정 분야('바이오 신약/장기' 분야 중 '면역 기능 제어')를 선택하여, 기구축된 면역학 전문용어사전을 비롯하여 의학용어사전, 표준국어대사전 등을 참조하여 핵심 용어와 관련 용어를 중심으로 면역학 시소러스(어휘 3,462개) 및 온톨로지(개념 노드 4,703개)를 구축하였다. 이것은 전문용어사전부터 온톨로지에 이르기까지 통일화된 표준 체계를 가지고 있으며, 도메인 온톨로지를 구축하여 향후 온톨로지 개발 방향을 설정할 수 있는 계기가 되었다고 할 수 있다. 또한 면역학 시소러스는 검색의 성능을 향상시킬 수 있도록 충분한 양의 데이터를 구축하였고 면역학 온톨로지는 언어처리적 관점에서의 온톨로지를 표현하였다. 이는 정보검색에서의 효율성을 비롯하여, 특정 웹 온톨로지 언어를 이용한 웹 온톨로지로의 변환성, 대규모 도메인 온톨로지라는 점에서 의미를 가진다고 할 수 있다.

  • PDF

Constructing the Semantic Information Model using A Collective Intelligence Approach

  • Lyu, Ki-Gon;Lee, Jung-Yong;Sun, Dong-Eon;Kwon, Dai-Young;Kim, Hyeon-Cheol
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제5권10호
    • /
    • pp.1698-1711
    • /
    • 2011
  • Knowledge is often represented as a set of rules or a semantic network in intelligent systems. Recently, ontology has been widely used to represent semantic knowledge, because it organizes thesaurus and hierarchal information between concepts in a particular domain. However, it is not easy to collect semantic relationships among concepts. Much time and expense are incurred in ontology construction. Collective intelligence can be a good alternative approach to solve these problems. In this paper, we propose a collective intelligence approach of Games With A Purpose (GWAP) to collect various semantic resources, such as words and word-senses. We detail how to construct the semantic information model or ontology from the collected semantic resources, constructing a system named FunWords. FunWords is a Korean lexical-based semantic resource collection tool. Experiments demonstrated the resources were grouped as common nouns, abstract nouns, adjective and neologism. Finally, we analyzed their characteristics, acquiring the semantic relationships noted above. Common nouns, with structural semantic relationships, such as hypernym and hyponym, are highlighted. Abstract nouns, with descriptive and characteristic semantic relationships, such as synonym and antonym are underlined. Adjectives, with such semantic relationships, as description and status, illustration - for example, color and sound - are expressed more. Last, neologism, with the semantic relationships, such as description and characteristics, are emphasized. Weighting the semantic relationships with these characteristics can help reduce time and cost, because it need not consider unnecessary or slightly related factors. This can improve the expressive power, such as readability, concentrating on the weighted characteristics. Our proposal to collect semantic resources from the collective intelligence approach of GWAP (our FunWords) and to weight their semantic relationship can help construct the semantic information model or ontology would be a more effective and expressive alternative.