• 제목/요약/키워드: Thesaurus System

검색결과 141건 처리시간 0.021초

지식관리시스템을 위한 의미형 한영 시소러스 구축에 관한 연구 (A Study on the Korean-Engligh Semantic Thesaurus Construction for Knowledge Management System)

  • 남영준
    • 한국도서관정보학회지
    • /
    • 제32권4호
    • /
    • pp.77-98
    • /
    • 2001
  • 본 연구에서는 지식관리시스템에 사용되는 의미형 한영 시소러스개발에 따른 개발방안과 원칙을 제시하였다. 기본적인 개발 방안은 1)용어 수집에 있어 디스크립터 추출의 정보원을 기존 문헌형태의 자료에서 내부문서와 웹에 등재된 외부문서 등도 포함하도록 하였다. 2)의미위주의 용어보다는 개념위주 의 디스크립터가 필요하며, 이를 보완하기 위해 전거어 사전의 구성이 필요함을 제시하였다. 이를 위해 용어풀을 운영할 것도 제시하였다. 3)디스크립터의 적정한 규모를 15,000개 내외로 제시하였다. 4)관계 설정은 수작업과 기계처리작업이 병행되는 하이브리드 방식을 제안하였다.

  • PDF

시소러스를 기반으로 하는 자동색인 시스템에 관한 연구 (The Development of an Automatic Indexing System based on a Thesaurus)

  • 임형묵;정상철
    • 인지과학
    • /
    • 제4권1호
    • /
    • pp.213-242
    • /
    • 1993
  • 그동안 자동색인 기법에 대해서는 단일어 색인,구색인,시소러스 기반 색인 등의 연구가 이루어져 왔는데,단일어 색인 기법이 단일어에 기초한 단순한 색인 방법 임에도 불구하고 다른 두가지 기법보다 일반적으로 우수하다고 알려져왔다. 시소러스 기반 색인은 이중에서도 검색효율이 낮은 것으로 알려져 왔는데,이는 일반적으로 시소러스가 포함하고 있는 색인용어들이 한정되어 있어 색인하려는 자료들이 이색인 용어에 부합(match)되지 않을 경우 색인 자체가 이루어 지지 않기 때문이다. 본 연구에서는 시소러스 기반 색인이 지금까지 기법으로는 검색효율이 좋지 않지만 실제 전문 색인들이 하는 색인과 매우 유사하다는 장범에 기초하여,입력 자료를 구문분석하고,분석된 자료들과 색인용어들을 정확부합(exact match)이 아닌 부분부합(partial match)을 통하여 색인 함으로써 검색효율이 우수한 시소러스기반 자동 색인 시스템을 개발하고자 한다. 본 연구에서 개발된 색인 시스템이 THINS는 우선 시소러스를 트리형태로 구성하고 입력자료들을 KAIST에서 개발한 언어번역기 MATES/EK를 통하여 구문분석한 후 명사구들만 뽑아낸다.그다음 명사구에 있는 용어들중 불용어를 제거하고 스테밍작업을 진행한후 생기는 형태를 색인 용어들과 부분부합 과정을 반복하여,유사한 색인 용어들과 가능하면 색인이 되도록 한다. 본 연구에서는 CACM 데이타 집합을 가지고 본 시소러스 기반 색인 시스템과 단일어 색인방식을 혼성지식기반 시스템인 HYKIS에서 성능을 평가하였다.이 성능평가에서 시소러스를 기반으로 하는 색인 시스템이 단일어 색인방식보다 회상도에서는 8-9%떨어지지만 정확도에서는 10%정도 높은 결과를 나타내었다.그러나 이는 기존의 시소러스 기반시스템이 단일어 색인 방식보다 정확도가 25%-30%정도 떨어진다는 것을 비추어 볼때 기존의 방식보다 우수한 것이라 평가된다.또한 CACM 에서 제공하는 시소러스인 CRCS 가 1000여개의 색인어밖에 포함하고 있어 매우 불완전한 것이라는 것을 고려하면,THINS가 최근에 개발되고 있는 시소러스와 접속된다면 매우 우수한 검색효율을 내리라 사료된다.

교육시설(敎育施設)에 관한 문헌연구(文獻硏究) 방법(方法) - 미국 ERIC 자료 활용방법을 중심으로 - (A Study on Methods of Documentary Research on Educational Facilities - Focused on the Utilization of the ERIC -)

  • 박재윤
    • 교육시설
    • /
    • 제1권1호
    • /
    • pp.33-40
    • /
    • 1994
  • This study was taken to increase efficiency in reviewing documents of school facilities from the network of ERIV(Educational Resources and Information Center, USA). Outline of the ERIC network, and the structure, role, function of the ERIC thesaurus are introduced. A thesaurus have developed for information retrieval purpose provides the filing labels which permit information to be stored by one person and retrieved by another. As an information system grows, its thesaurus is systematically built and refined to the point where it represents, in a very special sense, the vocabulary of subject field. The Thesaurus of ERIC Descriptors represents such a vocabulary for the field education. An understanding of its origins, its function and its limitations, is just as important to the teacher, the student of education or the educational researcher as it is for the indexer or custodian of the information pool it represents. If the Thesaurus is understood and used in an appropriate way, it can give all educators not only insight into the ERIC system but also an increased awareness of the language of their field. A great many terms are necessary to describe the many aspects of education, and the task of relating them in even an approximately consistent way is an enormous one. The undertaking should be managed by people who not only know what they are talking about but who also should be able to predict what people in their field are lilely to be talking about in the near future. It should also enlist people who are willing to pay term to another within the system. To engage a large number of these two kinds of people over a long period of time is very likely to cost a great deal of money. There is very little proprietary value in producing such a list of terms, for it can very easily be copied, adapted, updated, etc. Thus, because of its high cost and low proprietary value, it becomes a task likely to be funded only by a government. A government has many ways of spending its money. However, after the decision has been made to spend money to produce an authority list, one must decide how this authority is to be delegated. The history of the development of the ERIC Thesaurus is the history of how this authority was delegated. Scientific research has thrived on efforts to define terms as precisely as possible. It is difficult to say with certainty, however, that solutions to social problems have thrived on a simple diet of scientific research. Contemporary crises demand new and imaginative ways of conceiving problems and talking about them. If this Thesaurus or any other scheme for normalizing or controlling language inhibits in the slightest measure the creative use of language, it is against it use. Only if the principles and details of the Thesaurus are misunderstood can it be used as a constraint on language in a negative sense. Students of education of every kind should see the The-saurus as an opportunity to become increasingly self-conscious about their language and thus about their assumptions and their approaches to educational problems.

  • PDF

전자정부내 의미기반 기술 도입에 따른 기능 및 정책 연구 (Research on Function and Policy for e-Government System using Semantic Technology)

  • 고광섭;장영철;이창훈
    • 한국디지털정책학회:학술대회논문집
    • /
    • 한국디지털정책학회 2007년도 춘계학술대회
    • /
    • pp.79-87
    • /
    • 2007
  • This paper aims to offer a solution based on semantic document classification to improve e-Government utilization and efficiency for people using their own information retrieval system and linguistic expression Generally, semantic document classification method is an approach that classifies documents based on the diverse relationships between keywords in a document without fully describing hierarchial concepts between keywords. Our approach considers the deep meanings within the context of the document and radically enhances the information retrieval performance. Concept Weight Document Classification(CoWDC) method, which goes beyond using exist ing keyword and simple thesaurus/ontology methods by fully considering the concept hierarchy of various concepts is proposed, experimented, and evaluated. With the recognition that in order to verify the superiority of the semantic retrieval technology through test results of the CoWDC and efficiently integrate it into the e-Government, creation of a thesaurus, management of the operating system, expansion of the knowledge base and improvements in search service and accuracy at the national level were needed.

  • PDF

시소러스를 연계한 문학류 패싯 분류체계 개발 (Developing a Faceted Classification Scheme Integrated with a Thesaurus for Literature)

  • 박지영
    • 한국비블리아학회지
    • /
    • 제21권3호
    • /
    • pp.77-89
    • /
    • 2010
  • 본 연구의 목적은 문헌의 주제를 효과적으로 표현하기 위해 시소러스 연계 패싯 분류체계(FCT)를 개발하는 것이다. 이에 한국십진분류법을 패싯분류표로 재구조화시키고, 국립중앙도서관 주제명표목표의 디스크립터와 연계하였다. FCT를 기존의 KDC와 비교하면 1) 복합주제를 효과적으로 표현할 수 있고, 2) 인용순서를 변경할 수 있으며, 3) 새로운 분류항목을 추가하기가 용이하다는 장점이 있다. 또한 분류표의 표목을 시소러스의 디스크립터와 연계하여 분류표와 시소러스 간에 패싯을 공유하고, 분류표목의 개념수준 확장에 활용할 수 있었다.

시소러스의 연관관계 유형에 관한 연구 (A Study on the Types of the Associative Relationship in Thesauri)

  • 전말숙
    • 정보관리연구
    • /
    • 제29권1호
    • /
    • pp.20-39
    • /
    • 1998
  • 정보검색시스템은 문헌을 색인하기 위하여 용어와 용어사이의 관계로 구성돤 시소러스를 사용한다. 색인어가 시소러스로부터 선택된다면, 색인어 사이의 관계유형을 이용하여 정보검색시스템의 검색효율을 향상시킬 수 있다. 최근 시소러스는 정보검색에서뿐만 아니라 언어와 지식공학 분야까지 그 사용범위가 확장되고 있지만, 시소러스의 용어관계는 동등, 계층, 연관관계로 단순하게 표현되며, 특히 연관관계의 경우, 다른 관계유형에 비해 그 정의나 범위가 모호해서 색인, 검색시 용어통제가 잘 되지 않는 것으로 지적되고 있다. 본 고는 기존의 시소러스에서 규정하고 있는 연관관계 유형을 고찰하고, 연관관계의 유형과 범위를 어떻게 규정하고 있는가를 살펴보았으며 이를 통하여 새로운 연관관계 유형을 제시하였다.

  • PDF

온톨로지의 개념간 관계 설정을 위한 AGROVOC 시소러스의 분석에 관한 연구 (A Study on the Analysis of AGROVOC for Establishment of Concept Relationships of Ontology)

  • 유영준
    • 정보관리학회지
    • /
    • 제22권1호
    • /
    • pp.125-144
    • /
    • 2005
  • 이 연구에서는 AGROVOC 시소러스의 개념간 관계를 분석하여 시소러스의 의미 관계의 모호성과 비일관성을 밝히고, 이러한 단점들을 개선한 은톨로지의 개념간 관계를 제시하였다. 개념간 관계 분석의 결과로 온톨로지의 개념간 관계의 핵심 요소인 개념 모형과 의미론적으로 발전된 개념간 관계 유형을 제시하였다. 이 관계들은 부분적으로 추론 기능을 수행할 수 있으며 보다 명확한 의미 관계를 기반으로 하는 지식조직시스템에 적용할 수 있을 것이다. 그리고 시소러스의 개념간 관계 유형을 확장하는데 이용할 수 있는 새로운 관계 유형들을 밝혀내었고, 이 관계 유형들이 법률분야 관련어집과 같은 기존 시소러스에도 활용할 수 있음을 확인하였다.

고전 용어 시소러스의 분류 체계에 관한 연구 (A Study on Classification System of Korean Literatures Thesaurus)

  • 유영준
    • 한국문헌정보학회지
    • /
    • 제40권2호
    • /
    • pp.415-434
    • /
    • 2006
  • 우리 고전 문집에 나타난 용어로 작성된 디스크립터들을 분류하기 위해서 분류 체계를 개발하는 것이 이 연구의 목적이다. 고전 용어 시소러스의 분류 구조는 6개의 패싯으로 범주화를 시작하여 고전 분야의 지식을 근거로 연역적으로 분류 체계를 구조화하였다. 그리고 기존의 인문학 분야의 다른 시소러스들의 분류 체계와 비교하였고, 이러한 비교를 통해서 얻은 것은 고전 용어 분류 체계만이 갖는 여러 장점들 즉 패싯 기법을 적용한 장점 등을 확인할 수 있었다. 이러한 장점들로 인해서 범주 설정의 일관성과 분류 구조의 복잡성을 줄일 수 있었다. 또한 시대나 지역을 구분하기 위한 공통 구분을 독립적으로 설정하여 분류표의 크기를 줄일 수 있었다. 이 분류 체계는 디스크립터들을 배정하는 과정을 통해 보다 나은 분류 체계로 발전해 나갈 것이다.

하이텔 메뉴검색용 시소러스의 개발에 관한 연구 (Thesaurus Development for HiTEL Service)

  • 최석두
    • 정보관리학회지
    • /
    • 제13권1호
    • /
    • pp.227-241
    • /
    • 1996
  • 정보검색시스템의 성능을 향상시키고 정보검색의 효율성을 높이는 데 활용할 지식베이스로서의 한글시소러스 개발알고리즘을 제시하고, 이 방법에 의한 실체개발사례를 제시한다. 본 연구를 위하여 개발된 시소러스 구축시스템의 기능과 함께 용어의 수집, 분류, 관계의 정의 등의 구축과정에서 사용한 하이텔 메뉴, 용어사전의 이용방법등에 대하여 논한다.

  • PDF

시각화된 환경에서 다차원 관점을 지원하는 객체기반 패싯 시소러스 관리 시스템 모델의 정형화 및 구현 (A Data Model for an Object-based Faceted Thesaurus System Supporting Multiple Dimensions of View in a Visualized Environment)

  • 김원중;양재동
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권9호
    • /
    • pp.828-847
    • /
    • 2007
  • 본 논문에서는 패싯 분류에 기반하여 다차원 사용자 관점의 도메인 시소러스를 체계적으로 구축하고, 각 관점에 따라 시각화된 환경에서 시소러스를 브라우징, 항해 그리고 검색할 수 있는 다차원 관점객체기반 패싯 시소러스 시스템을 제안한다. 기존의 패싯 시소러스 시스템들과 달리, 본 시스템은 개념들간의 다각적인 상관 관계를 객체 지향 패러다임에 따라 자동으로 설정 구축할 수 있고, 브라우징과 항해를 통해 다차원 시소러스의 복잡한 개념 구조를 적절히 시각화할 수 있기 때문에, 시소러스의 유지 보수 관리가 용이하다. 다차원 브라우징 및 항해는 계층화된 패싯 용어들간의 조합으로 이루어진 패싯화된 시소러스를 필요시 동적으로 생성함으로써 이루어진다. 패싯화된 시소러스는 일종의 다차원 가상 시소러스 계층들로 볼 수 있다. 제안하는 방식에 의한 시소러스 자동 구축은 패싯들의 조합으로 새로운 차원의 시소러스를 용이하게 추가할 수 있기 때문에, 융통성 있는 시소러스 확장이 가능하고 대량의 시소러스 인스턴스들을 관점에 따라 적절한 해석을 부여하는 방식으로 구조화하기 때문에 개별적 사용자 관점에 부합되는 인스턴스들을 참조 질의에 의해 효율적으로 검색할 수 있다. 본 논문에서는 먼저 제안 시스템을 체계화하기 위한 모델을 정형화하고 이를 바탕으로 모델의 실용성을 입증하기 위해 그 프로토타입을 구현하였다.