• 제목/요약/키워드: 한글 시소러스

검색결과 54건 처리시간 0.015초

한글 매크로시소러스 구축의 실제 (Practical Construction of Hangul Macro-Thesaurus)

  • 최석두
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1998년도 제5회 학술대회 논문집
    • /
    • pp.223-226
    • /
    • 1998
  • 우리나라에도 여러 가지 분야별 시소러스가 연구되고 있으나 여러 분야를 망라하는 대규모 한글매크로시소러스는 아직 없다고 보아야 할 것이다. 또한 분야별 시소러스를 통합하여 매크로시소러스를 구축하는 것은 거의 불가능하며, 통합할 만큼의 분야별 한글시소러스도 없다. 본 연구에서는 처음부터 매크로시소러스 구축을 위하여 개발한 범용시소러스 관리시스템의 내용과 이 시스템을 이용하여 전 분야를 대상으로 개발하고 있는 한글 매크로시소러스의 개발현황에 대하여 논하고자 한다.

  • PDF

시소러스 및 요약화일을 이용한 문서 검색시스템 (The development of a document retrieval system using thesaurus and signature file)

  • 정상철;신동욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.400-408
    • /
    • 1994
  • 본 논문에서는 요약화일을 이용하여 복합명사를 효율적으로 처리하며 시소러스를 이용하여 검색하는 한글문서 검색시스템을 제안한다. 본 한글문서 검색 시스템은 한글문서를 대상으로 색인하는 자동색인기와 사용자의 질의를 받아 관련된 문서를 검색하는 검색기로 구성된다. 자동색인기는 우선 한글문서를 대상으로 최장일치 방법으로 명사들을 출출한 후 복합명사의 패턴을 분석하여 복합명사의 가능성이 높은 것들을 복합명사화한다. 두번째로 이들 복합명사들을 1+2SP 방식으로 코딩한 후 요약화일 방법을 이용하여 요약화일을 작성한다. 검색기는 사용자 질의어를 받아 명사들을 추출한 후 시소러스를 이용하여 질의어를 확장한다. 다음 확장된 질의어를 1+2SP 방식으로 코딩한 후 관련된 문서를 검색한다. 본 논문에서는 한국통신에서 만든 코퍼스를 이용하여 제안된 방법의 성능을 평가하였는데 복합명사 처리 및 시소러스 이용방식이 효율적임이 입증되었다. 또한 KAIST에서 개발한 문서검색 시스템보다 동일한 코퍼스로 실험하였을 경우 재현률 및 정확률이 $7{\sim}8%$ 정도 앞서 기존의 시스템보다도 성능이 우수하다는 것이 밝혀졌다.

  • PDF

과학기술용어(科學技術用語) 시소러스 대역(對譯) 데이터베이스 구축(構築) (A Study on Multi-Lingual Thesaurus Database Construction of Scientific and Technical Terms)

  • 김은식
    • 정보관리연구
    • /
    • 제22권2호
    • /
    • pp.1-28
    • /
    • 1991
  • 본(本) 연구(硏究)는 한글 과학기술용어(科學技術用語)의 표준화(標準化)를 위한 기초자료를 마련하여 국내(國內) 과학기술(科學技術) 데이터베이스의 제작을 촉진하고, 또한 한글 전문용어(專門用語)와 이에 대응하는 영어(英語) 용어(用語) 및 일어(日語) 용어(用語)를 안내해 줌으로써 해외(海外) 데이터베이스 검색시(檢索時)에 편리한 검색(檢索) 툴로서 활용하는 데 목적(目的)이 있다. 과학기술분야(科學技術分野)에서 사용되고 있는 전문용어(專門用語)의 한글 용어, 영어(英語) 용어, 일어(日語) 용어 시소러스에 대한 대역(對譯) 데이터베이스를 구축한 것이다. 시소러스의 이론적인 배경을 고찰하였으며, 과학기술분야(科學技術分野) 전문용어(專門用語)의 수집은 일본과학기술정보(日本科學技術情報)센터가 1987년에 발행한 $\ulcorner$과학기술용어(科學技術用語) 시소러스 영일(英日) 리스트$\lrcorner$$\ulcorner$과학기술용어(科學技術用語) 시소러스 일영(日英) 리스트$\lrcorner$를 근거자료로 하여 일어(日語) 용어(用語) 및 영어(英語) 용어(用語)에 1 대(對) 1로 대응하는 한글 용어로 번역(飜譯)하였다. 과학기술용어(科學技術用語) 시소러스 대역(對譯) 데이터베이스에 수록된 한글 디스크립터는 38,318 용어, 한글 비디스크립터는 2,870용어, 영어(英語) 디스크립터는 38,318 용어, 영어(英語) 비디스크립터는 11,910 용어, 일어(日語) 디스크립터는 38,318 용어, 일어(日語) 디스크립터는 9,789 용어이다.

  • PDF

외국 시소러스 번역시 나타나는 문제점에 관한 연구 (The Problems of translating English thesaurus terms in korean)

  • 오재익;이두영
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1996년도 제3회 학술대회 논문집
    • /
    • pp.41-44
    • /
    • 1996
  • 본 논문은 시소러스의 구축에있어 시간, 비용, 노력의 최소화를 위해 외국 시소러스를 번역하는 방법이 언어, 제도, 사고방식, 문화 등의 이유로 어떤 문제점이 발생하는지를 고찰해 보고자 한다. 연구 대상으로 ERIC 시소러스를 번역하여 구축한 [KEDI 교육 시소러스]와 [ERIC 시소러스(7판)]를 선정하여 비교 분석하였다. 번역에 의존하는 한글시소러스 구축 방법은 권장할만한 방법이 되지못하며, 단지 우리말 시소러스 구축을위한 Discriptor를 추출하는 수단 이상을 기대하기란 어려우리라 여겨진다.

  • PDF

시소러스 데이터의 저장과 검색을 위한 효율적인 저장 시스템의 설계 및 구현 (Design and Implementation of Efficient Storage System for Storing and Searching Thesaurus Data)

  • 김점숙;안동언;정성종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.205-209
    • /
    • 2000
  • 본 논문에서는 시소러스를 효율적으로 구축하고 사용할 수 있는 시소러스 저장 구조를 구현하였다. 정보 검색 시스템은 사용자의 질의어를 용어들과 용어들 사이의 관계 집합으로 구성된 일종의 용어 사전인 시소러스를 이용하여 문헌에 대한 색인과 검색을 정확하고 통제된 용어 형태로 바꾸어 색인과 검색 작업의 효율을 높인다. 데이터베이스에 저장된 시소러스 구조에서 시소러스 검색을 할 때 속도가 감소하는데 이를 해시함수를 이용한 리스트 구조를 이용함으로써 전체적인 시소러스 검색 속도의 증가를 기대할 수 있다. 또한 현재 데이터베이스 형태의 시소러스를 다른 곳에 이식하려면 데이터베이스 시스템이 있어야 한다. 따라서 메모리에 올릴 수 있는 구조를 가지면 시소러스 보급에 기여 할 수 있다. 본 논문에서 제안한 데이터베이스에 저장된 시소러스 구조와 해시함수를 이용한 리스트 구조를 비교, 분석하고 보다 더 효율적인 시소러스의 역할 및 구조 형태에 대해 제안한다.

  • PDF

자동정보검색을 위한 한글 시소러스 브라우저 구축에 관한 연구 (A Study of Designing the Han-Guel Thesaurus Browser for Automatic Information Retrieval)

  • 서휘
    • 한국도서관정보학회지
    • /
    • 제31권2호
    • /
    • pp.279-302
    • /
    • 2000
  • 본 연구는 질의어의 표현, 새성, 확장, 탐색식의 구성, 피드백 탐색 등 정보 탐색의 전과정을 지동으로 수행할 수 있는 한글 시소러스 브라우저 기반 자동정보검색 시스템을 구현하기 위해 시도되었다. 구현 시스템은 Delphi 4.0(PASCAL)으로 프로그래밍 되었으며, 자동색인, 클러스터링 기법, 시소러스의 구축과 표현, 자동정보겸색이 가능하도록 구성되었다. 구현된 시스템의 평가결과는 새로운 알고리즘에 의해 구축된 시소러스 브라우저가 정보검색에 있어서 시소러스의 구축의 용이성, 이용의 편리성, 검색 속도, 검색의 적합성 수준에서 우수힘을 입증하고 있다.

  • PDF

시소러스 작성을 위한 개념 획득 도구 (A Concept Acquisition Tool for Thesaurus Construction)

  • 김명철;이운재;최기선;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.39-49
    • /
    • 1992
  • 시소러스를 작성하기 위해 시소러스 작성자가 고려래야 하는 문제는 단어간의 개념 관계이다. 단어간의 관개는 계층구조에 정의된 개념을 기반으로 분석하여 하향식으로 시소러스를 작성하는 것이 일반적이다. 이러한 방식은 작성자에 의존적이므로 시소러스의 정확도를 보장할 수 없고 주관적인 성향을 가진다. 그래서 Corpus에서 자동으로 개념 및 개념 관계를 추출하는 상향식 방법들이 다양하게 시도되고 있다. 본 논문에서는 시소러스 작성을 위한 자동 개념 획득 도구를 설계, 구현하였다. Mutual Information이라는 방법을 이용하여 공기 정보(Collocation)를 정량화하고 이를 통하여 단어간의 개념관계의 크기를 측정한 후 개념 관계의 크기(MI 값)가 큰 값을 선택하여 개념 화일을 작성한다. 실험 결과로 얻은 개념 화일은 두 개념간의 밀접도를 나타내므로 시소러스 작성에 매우 유용하다.

  • PDF

천자문과 로제 시소러스 범주체계 비교 (Category Comparison between Thousand-Character Text and Roget's Thesaurus)

  • 김상락;양재군;배재학
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.85-89
    • /
    • 2008
  • 본 논문에서는 천자문과 로제 시소러스의 어휘 분류체계를 분석하였다. 전처리 작업으로서 천자문과 로제 시소러스를 데이터베이스화 하였다. 그리고 분석 작업의 용이성과 연구의 효율성을 높이기 위해서 천자문 대응 로제 시소러스 검색 시스템을 개발하였다. 연구결과 로제 시소러스 총 39개 과(Section) 가운데에서 'Creative Thought' 과를 제외하고 대부분의 과가 천자문 한자와 관련성을 가지는 것으로 나타났다. 'Space in General', 'Dimensions', 'Matter in General' 3개의 과가 가장 높은 대응률을 보였다. 상관계수값도 약 0.94로 나타나 천자문 한자와 로제 시소러스의 범주 관련성이 아주 높다는 사실을 발견하였다.

  • PDF

정보산업 분야 시소러스의 공학적 구축 방안 (Toward IT Domain Thesaurus: An Engineering Approach)

  • 류법모;김재호;최기선;성원경
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.13-20
    • /
    • 2005
  • 이 논문은 공학적인 접근 방법에 기반한 단계적인 전문분야 시소러스 구축 방법을 제안한다. 시소러스 구축 과정은 용어 추출 단계, 용어 분류 단계, 계층 구조 구축 의 3단계로 구성되고, 모든 단계에서 자동 처리와 전문가 검증 작업을 거친다. 추출된 용어를 미리 정해진 분류 체계에 따라 분리한 후 여러 개의 작은 시소러스를 구축하고, 마지막으로 전체 시소러스로 결합한다. 이 방법은 1) 시소러스를 구축하는 복잡도가 줄어들고, 2) 클래스 단위의 작은 시소러스가 다른 전문분야 시소러스에 쉽게 재사용 될 수 있으며, 3) 각 클래스에 포함된 용어들의 분포를 쉽게 판단할 수 있는 장점이 있다. 제안한 방법을 이용하여 한국어 정보기술 분야 시소러스를 구축하였다. 시소러스 구축에 사용된 용어들은 정보기술 분야의 최근의 한국어 신문과 특허 문서에서 추출하였기 때문에 한국에서 만들어진 신조어를 포함한다. 구축된 시소러스는 81 개의 상위 레벨클래스와 1,000개 이상의 용어로 구성된다.

  • PDF

객체지향 기법을 이용한 시소러스 관리 시스템의 개발에 관한 연구 (Development of a Thesaurus Management System based on the Object-Oriented Technique)

  • 박계숙
    • 정보관리학회지
    • /
    • 제13권2호
    • /
    • pp.5-18
    • /
    • 1996
  • 시소러스를 구축하기 위해서는 새로운 단어의 입력, 수정, 삭제 및 단어간 관계생성 등의 동적인 변하에 신속 정확히 대용할 수 있도록 시소러스 관리 시스템이 개발되어야 한다. 본 연구에서 개발한 시소러스 관리 시스템은 객체지향적 구조로 데이터베이스를 설계하였으며, GUI화면을 제공하여 이용자 인터페이스를 향상시켰다. 또한 시소러스를 구축하는데 있어서 동일한 영문 용어의 다양한 한글표기로 인한 정보검색 효율 저하 문제를 해결하기 위해 동의어의 확장에 역점을 두었다.

  • PDF