• Title/Summary/Keyword: 한글 시소러스

Search Result 54, Processing Time 0.023 seconds

Practical Construction of Hangul Macro-Thesaurus (한글 매크로시소러스 구축의 실제)

  • 최석두
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1998.08a
    • /
    • pp.223-226
    • /
    • 1998
  • 우리나라에도 여러 가지 분야별 시소러스가 연구되고 있으나 여러 분야를 망라하는 대규모 한글매크로시소러스는 아직 없다고 보아야 할 것이다. 또한 분야별 시소러스를 통합하여 매크로시소러스를 구축하는 것은 거의 불가능하며, 통합할 만큼의 분야별 한글시소러스도 없다. 본 연구에서는 처음부터 매크로시소러스 구축을 위하여 개발한 범용시소러스 관리시스템의 내용과 이 시스템을 이용하여 전 분야를 대상으로 개발하고 있는 한글 매크로시소러스의 개발현황에 대하여 논하고자 한다.

  • PDF

The development of a document retrieval system using thesaurus and signature file (시소러스 및 요약화일을 이용한 문서 검색시스템)

  • Jeong, Sang-Cheol;Shin, Dong-Wook
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.400-408
    • /
    • 1994
  • 본 논문에서는 요약화일을 이용하여 복합명사를 효율적으로 처리하며 시소러스를 이용하여 검색하는 한글문서 검색시스템을 제안한다. 본 한글문서 검색 시스템은 한글문서를 대상으로 색인하는 자동색인기와 사용자의 질의를 받아 관련된 문서를 검색하는 검색기로 구성된다. 자동색인기는 우선 한글문서를 대상으로 최장일치 방법으로 명사들을 출출한 후 복합명사의 패턴을 분석하여 복합명사의 가능성이 높은 것들을 복합명사화한다. 두번째로 이들 복합명사들을 1+2SP 방식으로 코딩한 후 요약화일 방법을 이용하여 요약화일을 작성한다. 검색기는 사용자 질의어를 받아 명사들을 추출한 후 시소러스를 이용하여 질의어를 확장한다. 다음 확장된 질의어를 1+2SP 방식으로 코딩한 후 관련된 문서를 검색한다. 본 논문에서는 한국통신에서 만든 코퍼스를 이용하여 제안된 방법의 성능을 평가하였는데 복합명사 처리 및 시소러스 이용방식이 효율적임이 입증되었다. 또한 KAIST에서 개발한 문서검색 시스템보다 동일한 코퍼스로 실험하였을 경우 재현률 및 정확률이 $7{\sim}8%$ 정도 앞서 기존의 시스템보다도 성능이 우수하다는 것이 밝혀졌다.

  • PDF

A Study on Multi-Lingual Thesaurus Database Construction of Scientific and Technical Terms (과학기술용어(科學技術用語) 시소러스 대역(對譯) 데이터베이스 구축(構築))

  • Kim, Eun-Shik
    • Journal of Information Management
    • /
    • v.22 no.2
    • /
    • pp.1-28
    • /
    • 1991
  • The objective of this study is to prepare a source data in order to establish a standardization of scientific and technical terms in Korean language. This will contribute to accelerate the production of Korean databases in scientific and technical field and will be used as the most convenient search tool for accessing to the foreign database. This study includes the construction of the multi-lingual thesaurus comprising of Korean, English, and Japanese. First of all a theoretical background on thesaurus is reviewed, and terms are collected from JICST Thesaurus, English-Japanese List and JICST Thesaurus, Japanese-English List published by JICST in 1987. This multi-lingual thesaurus covers 38,318 terms of Korean descriptors, 2,870 terms of Korean non-descriptors, 38,318 terms of English descriptors, 11,910 terms of English non-descriptors, and 38,318 terms of Japanese descriptors, 9,789 terms of Japanese non-descriptors.

  • PDF

The Problems of translating English thesaurus terms in korean (외국 시소러스 번역시 나타나는 문제점에 관한 연구)

  • 오재익;이두영
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1996.08a
    • /
    • pp.41-44
    • /
    • 1996
  • 본 논문은 시소러스의 구축에있어 시간, 비용, 노력의 최소화를 위해 외국 시소러스를 번역하는 방법이 언어, 제도, 사고방식, 문화 등의 이유로 어떤 문제점이 발생하는지를 고찰해 보고자 한다. 연구 대상으로 ERIC 시소러스를 번역하여 구축한 [KEDI 교육 시소러스]와 [ERIC 시소러스(7판)]를 선정하여 비교 분석하였다. 번역에 의존하는 한글시소러스 구축 방법은 권장할만한 방법이 되지못하며, 단지 우리말 시소러스 구축을위한 Discriptor를 추출하는 수단 이상을 기대하기란 어려우리라 여겨진다.

  • PDF

Design and Implementation of Efficient Storage System for Storing and Searching Thesaurus Data (시소러스 데이터의 저장과 검색을 위한 효율적인 저장 시스템의 설계 및 구현)

  • Kim, Jum-Suk;An, Dong-Un;Jong, Sung-Chung
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.205-209
    • /
    • 2000
  • 본 논문에서는 시소러스를 효율적으로 구축하고 사용할 수 있는 시소러스 저장 구조를 구현하였다. 정보 검색 시스템은 사용자의 질의어를 용어들과 용어들 사이의 관계 집합으로 구성된 일종의 용어 사전인 시소러스를 이용하여 문헌에 대한 색인과 검색을 정확하고 통제된 용어 형태로 바꾸어 색인과 검색 작업의 효율을 높인다. 데이터베이스에 저장된 시소러스 구조에서 시소러스 검색을 할 때 속도가 감소하는데 이를 해시함수를 이용한 리스트 구조를 이용함으로써 전체적인 시소러스 검색 속도의 증가를 기대할 수 있다. 또한 현재 데이터베이스 형태의 시소러스를 다른 곳에 이식하려면 데이터베이스 시스템이 있어야 한다. 따라서 메모리에 올릴 수 있는 구조를 가지면 시소러스 보급에 기여 할 수 있다. 본 논문에서 제안한 데이터베이스에 저장된 시소러스 구조와 해시함수를 이용한 리스트 구조를 비교, 분석하고 보다 더 효율적인 시소러스의 역할 및 구조 형태에 대해 제안한다.

  • PDF

A Study of Designing the Han-Guel Thesaurus Browser for Automatic Information Retrieval (자동정보검색을 위한 한글 시소러스 브라우저 구축에 관한 연구)

  • Seo, Whee
    • Journal of Korean Library and Information Science Society
    • /
    • v.31 no.2
    • /
    • pp.279-302
    • /
    • 2000
  • This study is to develop a new automatic system for the Korean thesaurus browser by which we can automatically control all the processes of searching queries such as, representation, generation, extension and construction of searching strategy and feedback searching. The system in this study is programmed by Delphi 4.0(PASCAL) and consists of database system, automatic indexing, clustering technique, establishing and expressing thesaurus, and automatic information retrieval technique. The results proved by this system are as follows: 1)By using the new automatic thesaurus browser developed by the new algorithm, we can perform information retrieval, automatic indexing, clustering technique, establishing and expressing thesaurus, information retrieval technique, and retrieval feedback. Thus it turns out that even the beginner user can easily access special terms about the field of a specific subject. 2) The thesaurus browser in this paper has such merits as the easiness of establishing, the convenience of using, and the good results of information retrieval in terms of the rate of speed, degree, and regeneration. Thus, it t m out very pragmatic.

  • PDF

A Concept Acquisition Tool for Thesaurus Construction (시소러스 작성을 위한 개념 획득 도구)

  • Kim, Myoung-Cheol;Lee, Woon-Jae;Choi, Key-Sun;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.39-49
    • /
    • 1992
  • 시소러스를 작성하기 위해 시소러스 작성자가 고려래야 하는 문제는 단어간의 개념 관계이다. 단어간의 관개는 계층구조에 정의된 개념을 기반으로 분석하여 하향식으로 시소러스를 작성하는 것이 일반적이다. 이러한 방식은 작성자에 의존적이므로 시소러스의 정확도를 보장할 수 없고 주관적인 성향을 가진다. 그래서 Corpus에서 자동으로 개념 및 개념 관계를 추출하는 상향식 방법들이 다양하게 시도되고 있다. 본 논문에서는 시소러스 작성을 위한 자동 개념 획득 도구를 설계, 구현하였다. Mutual Information이라는 방법을 이용하여 공기 정보(Collocation)를 정량화하고 이를 통하여 단어간의 개념관계의 크기를 측정한 후 개념 관계의 크기(MI 값)가 큰 값을 선택하여 개념 화일을 작성한다. 실험 결과로 얻은 개념 화일은 두 개념간의 밀접도를 나타내므로 시소러스 작성에 매우 유용하다.

  • PDF

Category Comparison between Thousand-Character Text and Roget's Thesaurus (천자문과 로제 시소러스 범주체계 비교)

  • Kim, Sang-Rak;Yang, Jae-Gyun;Bae, Jae-Hak J.
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.85-89
    • /
    • 2008
  • 본 논문에서는 천자문과 로제 시소러스의 어휘 분류체계를 분석하였다. 전처리 작업으로서 천자문과 로제 시소러스를 데이터베이스화 하였다. 그리고 분석 작업의 용이성과 연구의 효율성을 높이기 위해서 천자문 대응 로제 시소러스 검색 시스템을 개발하였다. 연구결과 로제 시소러스 총 39개 과(Section) 가운데에서 'Creative Thought' 과를 제외하고 대부분의 과가 천자문 한자와 관련성을 가지는 것으로 나타났다. 'Space in General', 'Dimensions', 'Matter in General' 3개의 과가 가장 높은 대응률을 보였다. 상관계수값도 약 0.94로 나타나 천자문 한자와 로제 시소러스의 범주 관련성이 아주 높다는 사실을 발견하였다.

  • PDF

Toward IT Domain Thesaurus: An Engineering Approach (정보산업 분야 시소러스의 공학적 구축 방안)

  • Ryu, Pum-Mo;Kim, Jae-Ho;Choi, Key-Sun;Sung, Brian W.K.
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.13-20
    • /
    • 2005
  • 이 논문은 공학적인 접근 방법에 기반한 단계적인 전문분야 시소러스 구축 방법을 제안한다. 시소러스 구축 과정은 용어 추출 단계, 용어 분류 단계, 계층 구조 구축 의 3단계로 구성되고, 모든 단계에서 자동 처리와 전문가 검증 작업을 거친다. 추출된 용어를 미리 정해진 분류 체계에 따라 분리한 후 여러 개의 작은 시소러스를 구축하고, 마지막으로 전체 시소러스로 결합한다. 이 방법은 1) 시소러스를 구축하는 복잡도가 줄어들고, 2) 클래스 단위의 작은 시소러스가 다른 전문분야 시소러스에 쉽게 재사용 될 수 있으며, 3) 각 클래스에 포함된 용어들의 분포를 쉽게 판단할 수 있는 장점이 있다. 제안한 방법을 이용하여 한국어 정보기술 분야 시소러스를 구축하였다. 시소러스 구축에 사용된 용어들은 정보기술 분야의 최근의 한국어 신문과 특허 문서에서 추출하였기 때문에 한국에서 만들어진 신조어를 포함한다. 구축된 시소러스는 81 개의 상위 레벨클래스와 1,000개 이상의 용어로 구성된다.

  • PDF

Development of a Thesaurus Management System based on the Object-Oriented Technique (객체지향 기법을 이용한 시소러스 관리 시스템의 개발에 관한 연구)

  • 박계숙
    • Journal of the Korean Society for information Management
    • /
    • v.13 no.2
    • /
    • pp.5-18
    • /
    • 1996
  • For the construction of thesaurus, a thesaurus management system is needed which can process dynamic variations fast and exactly such as input. correction and deletion of words, and definition of new relationship between words. In this paper, I developed a thesaurus management system based on the object-oriented technique and GUI(graphic user interface) screen, and to enhance the effectiveness of information retrieval. I put emphasis on the expansion of synonym, English and Korean words containing the same concept.

  • PDF