• 제목/요약/키워드: Text Retrieval System

검색결과 177건 처리시간 0.022초

자연어검색시스템을 위한 스태밍알고리즘의 설계 및 구현 (A stemming algorithm for a korean language free-text retrieval system)

  • 이효숙
    • 정보관리학회지
    • /
    • 제14권2호
    • /
    • pp.213-234
    • /
    • 1997
  • 본 연구에서는 자연어 검색시스템을 위한 스태밍알고리즘을 설계하고 이를 구현하였다. 알고리즘은 순환적으로 다음과 같은 세가지 과정으로 진행된다. : 불용어사전에 의한 불용어의 제거; 규칙 테이블1의 적용에 따른 기본 어미의 처리; 전단계에서 처리되고 남은 어절에 대해 규칙테이블 2를 적용하여 확장스태밍 및 다시쓰기루틴으로 진행된다. 알고리즘의 성능 평가를 위한 한글문헌집단을 사용하여 테스트한 결과 압축률 21.4%, 오류율 15.9%의 결과를 나타내었다.

  • PDF

Protein Sequence Search based on N-gram Indexing

  • Hwang, Mi-Nyeong;Kim, Jin-Suk
    • Bioinformatics and Biosystems
    • /
    • 제1권1호
    • /
    • pp.46-50
    • /
    • 2006
  • According to the advancement of experimental techniques in molecular biology, genomic and protein sequence databases are increasing in size exponentially, and mean sequence lengths are also increasing. Because the sizes of these databases become larger, it is difficult to search similar sequences in biological databases with significant homologies to a query sequence. In this paper, we present the N-gram indexing method to retrieve similar sequences fast, precisely and comparably. This method regards a protein sequence as a text written in language of 20 amino acid codes, adapts N-gram tokens of fixed-length as its indexing scheme for sequence strings. After such tokens are indexed for all the sequences in the database, sequences can be searched with information retrieval algorithms. Using this new method, we have developed a protein sequence search system named as ProSeS (PROtein Sequence Search). ProSeS is a protein sequence analysis system which provides overall analysis results such as similar sequences with significant homologies, predicted subcellular locations of the query sequence, and major keywords extracted from annotations of similar sequences. We show experimentally that the N-gram indexing approach saves the retrieval time significantly, and that it is as accurate as current popular search tool BLAST.

  • PDF

학회 학술정보시스템 구축에 관한 연구 (A Study on Building Society Research Information System)

  • 조현양;최선희
    • 한국도서관정보학회지
    • /
    • 제30권3호
    • /
    • pp.405-426
    • /
    • 1999
  • Academic societies in the field of science and technology are major producers of domestic research information. These information are very important sources to researchers, students and so on. KORDIC built an integrated information system which facilitates the progress of building databases and promotes users easy access to databases. In order to build efficient society research information system, we investigated former cases and analyzed requirement of each society. We identified principal information sources and built an integrated information service system using internet homepage and information retrieval system(KRISTAL-II). In the future we will expand participating societies and focus on text-based information.

  • PDF

효율적인 탐색과 브라우징을 지원하는 하이퍼미디어 시스템의 사용자 인터페이스 설계 (User-interface design of a hypermedia system for effective searching and browsing)

  • 고영곤;최윤철
    • 대한인간공학회지
    • /
    • 제12권1호
    • /
    • pp.75-86
    • /
    • 1993
  • Hypermedia systems allow the retrieval and representation of multimedia in- formation such as text, graphics, image and voice/sound using navigation and browsing mechanisms. In this study we developed a hypermedia system which provides hierarchical group, local map and cluster view for effective navigation in hyperspace. The system also supports hot link, reference link, move-to link and multiple link to browse the multimedia information space effectively. This system has been designed to integrate the navigation, browsing and searching function of the hypermedia system in hyman factor perspective and provides the user-friendly user interface mechanism.

  • PDF

예제 이미지와 사용자 스케치 질의에 의한 웹 기반 이미지 검색 시스템 (Web based Image Retrieval system using User Sketch and Example Image Queries)

  • 황병곤
    • 한국산업정보학회논문지
    • /
    • 제9권4호
    • /
    • pp.26-31
    • /
    • 2004
  • 최근에 웹의 폭발적 사용의 증가에 따라, WWW에서 많은 정보를 좀 더 손쉽게 획득할 수 있다. 본 논문에서 H에서 웹 에이전트를 사용하여 이미지를 검색하는 일반적인 내용기반 이미지 검색 시스템을 제안한다. 웹 에이전트는 웹 상에서 HTML문서에 나타나는 텍스트 중 이미지 이름이나 링크에 붙어 있는 이미지를 의미하는 텍스트를 추출한다. 제안된 시스템은 웹 브라우저에서 사용자의 스케치와 예제 이미지 질의를 이용하여 데이터베이스에 있는 이미지를 검색하는 방법을 제시하여 실험결과를 통해서 질의 효율성을 나타내었다.

  • PDF

한글 텍스트 문서 분류시스템을 위한 속성선택 (Feature Selection for a Hangul Text Document Classification System)

  • Lee, Jae-Sik;Cho, You-Jung
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2003년도 춘계학술대회
    • /
    • pp.435-442
    • /
    • 2003
  • 정보 추출(Information Retrieval) 시스템은 거대한 양의 정보들 가운데 필요한 정보의 적절한 탐색을 도와주기 위한 도구이다. 이는 사용자가 요구하는 정보를 보다 정확하고 보다 효과적이면서 보다 효율적으로 전달해주어야만 한다. 그러기 위해서는 문서내의 무수히 많은 속성들 가운데 해당 문서의 특성을 잘 반영하는 속성만을 선별해서 적절히 활용하는 것이 절실히 요구된다. 이에 본 연구는 기존의 한글 문서 분류시스템(CB_TFIDF)[1]의 정확도와 신속성 두 가지 측면의 성능향상에 초점을 두고 있다. 기존의 영문 텍스트 문서 분류시스템에 적용되었던 다양한 속성선택 기법들 가운데 잘 알려진 세가지 즉, Information Gain, Odds Ratio, Document Frequency Thresholding을 통해 선별적인 사례베이스를 구성한 다음에 한글 텍스트 문서 분류시스템에 적용시켜서 성능을 비교 평가한 후, 한글 문서 분류시스템에 가장 적절한 속성선택 기법과 속성 선택에 대한 가이드라인을 제시하고자 한다.

  • PDF

SGML 한글문서의 논리적 구조에 근거한 색인기법에 관한 연구 (A Study of Automatic Indexing Technique based on Logical Structure of SGML Hangul Document)

  • 유석종
    • 정보관리학회지
    • /
    • 제12권2호
    • /
    • pp.85-101
    • /
    • 1995
  • 기존 색인 시스템은 전자문서에 대하여 전문색인 (full-text indexing) 방법만을 지원하며, 문서의 논리적 구조를 검색 방법으로 적절하게 활용하지 못하고 있다. 대부분의 전자문서는 특정 시스템에 의존적인 형식으로 되어 있으며, 문서의 물리적 형태만을 나타내고 논리적 구조에 대한 정보는 포함하고 있지 않다. 이에 반해 1986년에 ISO에서 문서교환에 대한 표준방식으로 제정한 SGML (Standard Generalized Markup Language)은 문서의 논리적 구조에 대한 정보를 포함하고 있다. 본 논문에서는 기존의 전문색인 시스템의 단점을 보완하고 표준문서형식을 사용하기 위해 SGML 문서에서의 색인 시스템을 설계 구현하고자 한다. 기존 색인 시스템에서는 문서 전체에 대하여 색인이 이루어지는데 비하여 본 시스템에서는 SGML 문서의 구성요소인 엘리먼트에 기반하여 색인 영역을 지정할 수 있게 하엿다. 따라서 문서의 논리적 구조를 반영한 다양한 검색기법에 응용될 수 있다. 또한 본 시스템에서는 SGML 한글문서에 대하여 자동색인이 가능하다.

  • PDF

자동분류 알고리즘을 이용한 지능형 정보검색시스템 구축에 관한 연구 (A Study of Designing the Intelligent Information Retrieval System by Automatic Classification Algorithm)

  • 서휘
    • 한국도서관정보학회지
    • /
    • 제39권4호
    • /
    • pp.283-304
    • /
    • 2008
  • 본 연구의 목적은 이용자의 탐색 행태, 시스템의 정보 구축 행태를 기반으로 초기 질의어의 범주에 해당하는 연관 용어들(해당 용어의 지식구조와 관련된 연관 용어들)을 학습기능을 통해 자동으로 제시해 줄 수 있는 지능형 검색 시스템을 구현하는 것이다. 이를 위해 학습을 통해 전문가 수준의 색인어를 추출할 수 있는 지능형자동색인 알고리즘, 자동분류에 관련한 클러스터링 알고리즘과 문서 범주화 알고리즘 그리고 범주 표현 알고리즘에 대한 이론적 연구를 수행하였으며, 이들 이론적 연구를 근거로 비용과 시간적인 측면에서 그리고 재현율과 정도율이란 측면에서 우수한 성능을 발휘할 수 있는 지능형검색시스템을 구현하였다.

  • PDF

Smalltalk를 이용한 원시 모듈 구현에 관한 연구 (A Study on the Source Module Implementation using Smalltalk)

  • 오상엽;김홍진;장덕철
    • Asia pacific journal of information systems
    • /
    • 제2권1호
    • /
    • pp.77-92
    • /
    • 1992
  • We presents a source module implementation system using building blocks as one of the software reusing approach. Based on module text retrieval system, system is composed of library management program and new module making program for module management. We build a software module by virtue of the reuser's customization and by applying a practical module to this model and then proved that program development through reusing approach is better than that of writing out a source code directly.

  • PDF

형태와 칼러성분을 이용한 효율적인 내용 기반의 이미지 검색 방법 (Efficient Content-Based Image Retrieval Method using Shape and Color feature)

  • 염성주;김우생
    • 한국정보처리학회논문지
    • /
    • 제3권4호
    • /
    • pp.733-744
    • /
    • 1996
  • 내용을 기반으로 한 이미지 데이타 검색은 이미지로부터 자동적으로 특징값들을 추출하여 사용자가 원하는 이미지를 검색하는 방법이다. 본 논문에서는 이미지 데이타 로부터 형태적 특징과 컬러 특징을 자동적으로 추출하여 내용을 기반으로 이미지 데이타를 검색할 수 있는 방법을 제안한다. 이를 위하여 필요한 일련의 이미지 처리 과정을 소개하고 추출된 특징값들을 빠르게 검색하기 위해 변형된 트라이와 R 트리를 사용한 인덱싱기법을 제안한다. 제안하는 검색 방법은 형태와 컬러에 대한 특징값들을 모두 취급하므로 보다 신뢰성 있는 검색을 할 수 있다. 또한 본 논문에서는 이를 바탕으로 구현된 이미지 데이타베이스와 약 200여개의 이미지 데이타를 대상으로한 검색 실험 결과를 보이며, 검색 결과를 통해 형태적 특징과 컬러 특징이 이미지가 데이타 검색에 미친 영향을 고찰해 본다.

  • PDF