• 제목/요약/키워드: Indexing Databases

검색결과 186건 처리시간 0.018초

국내 문자정보 데이터베이스의 색인에 관한 연구 (Development of an Indexing Model for Korean Textual Databases)

  • 정영미
    • 정보관리학회지
    • /
    • 제13권1호
    • /
    • pp.19-43
    • /
    • 1996
  • 본 연구에서는 국내 텍스트 데이터베이스의 색인언어 및 색인기법에 관한 현황을 분석하고, 3개의 텍스트 데이터베이스를 대상으로 하여 자연언어 색인과 통제언어 색인의 검색 성능을 평가하는 실험을 수행하였다. 조사결과 국내 텍스트 데이터베이스의 대부분이 자연언어 색인 방식을 사용하고 있었으며 검색 실험에서는 적절한 탐색전략을 사용하는 경우 자연언어가 통제언어보다 검색성능이 우수한 것으로 평가되었다. 색인현황에 관한 조사와 검색 성능의 실험 결과에 근거하여 국내 텍스트 데이터베이스를 위한 효율적인 색인 모형을 제시하였다.

  • PDF

2차 법률정보 전문데이터베이스에 있어서 통제어 색인시스템과 자연어 색인시스템의 검색효율 평가에 관한 연구 (A Study on the Indexing System Using a Controlled Vocabulary and Natural Language in the Secondary Legal Information Full-Text Databases : an Evaluation and Comparison of Retrieval Effectiveness)

  • 노정란
    • 한국문헌정보학회지
    • /
    • 제32권4호
    • /
    • pp.69-86
    • /
    • 1998
  • 본 연구는 2차 법률정보 전문 데이터베이스 구축을 위한 기초연구(권기원, 노정란, 1998, 한국문헌정보학회지, 32(3))에서 밝혀진 법률정보의 특성을 근거로 알고리즘을 개발하고 알고리즘에 의한 모형 통제어 데이터베이스를 구축하여 통제어 색인 시스템과 자연어 색인 시스템의 검색효율을 비교 평가한 것이다. 연구 결과 2차 법률 정보 전문 데이터베이스에서 통제어 색인 시스템은 재현을, 정확률, 자연어 시스템이 검색하지 못한 고유한 적합 문헌을 검색하는 능력에 있어서 자연어 색인시스템보다 높은 효율을 나타내었다. 또한 일반적으로 가중치를 부여하거나 접근점을 추가할 경우 데이터베이스의 정확률이나 재현율의 향상을 가져올 수 있다고 보고 있으나, 2차 법률정보 전문 데이터베이스에서는 법률정보라는 특정 지식 분야의 특성으로 인하여 가중치를 부여하거나 접근점을 추가한 경우에도 재현율과 정확률의 향상을 나타내지 않는다는 사실이 맞혀졌다. 그러므로 정보시스템 설계자는 시스템을 단순히 언어학적, 통계학적 방법으로 접근하기보다는 정보전문가와 주제전문가가 인식하고 있는 각 주제분야의 고유 지식을 시스템에 내장시키는 것이 필요하다고 할 수 있다.

  • PDF

Video Content Indexing using Kullback-Leibler Distance

  • Kim, Sang-Hyun
    • International Journal of Contents
    • /
    • 제5권4호
    • /
    • pp.51-54
    • /
    • 2009
  • In huge video databases, the effective video content indexing method is required. While manual indexing is the most effective approach to this goal, it is slow and expensive. Thus automatic indexing is desirable and recently various indexing tools for video databases have been developed. For efficient video content indexing, the similarity measure is an important factor. This paper presents new similarity measures between frames and proposes a new algorithm to index video content using Kullback-Leibler distance defined between two histograms. Experimental results show that the proposed algorithm using Kullback-Leibler distance gives remarkable high accuracy ratios compared with several conventional algorithms to index video content.

Protein Sequence Search based on N-gram Indexing

  • Hwang, Mi-Nyeong;Kim, Jin-Suk
    • Bioinformatics and Biosystems
    • /
    • 제1권1호
    • /
    • pp.46-50
    • /
    • 2006
  • According to the advancement of experimental techniques in molecular biology, genomic and protein sequence databases are increasing in size exponentially, and mean sequence lengths are also increasing. Because the sizes of these databases become larger, it is difficult to search similar sequences in biological databases with significant homologies to a query sequence. In this paper, we present the N-gram indexing method to retrieve similar sequences fast, precisely and comparably. This method regards a protein sequence as a text written in language of 20 amino acid codes, adapts N-gram tokens of fixed-length as its indexing scheme for sequence strings. After such tokens are indexed for all the sequences in the database, sequences can be searched with information retrieval algorithms. Using this new method, we have developed a protein sequence search system named as ProSeS (PROtein Sequence Search). ProSeS is a protein sequence analysis system which provides overall analysis results such as similar sequences with significant homologies, predicted subcellular locations of the query sequence, and major keywords extracted from annotations of similar sequences. We show experimentally that the N-gram indexing approach saves the retrieval time significantly, and that it is as accurate as current popular search tool BLAST.

  • PDF

JIDB Development Tactics and Strategic Directions to be a Journal Indexed in SCOPUS and SSCI

  • KANG, Eungoo
    • 연구윤리
    • /
    • 제3권2호
    • /
    • pp.19-22
    • /
    • 2022
  • Purpose: The two (SCOPUS and SSCI) are the most reputed indexing databases in the world for social science area, and hence the most preferred by majority of researchers in filling the academia niche that may exist on any research topic This study aims to determine five key strategic tactics that the JIDB (Journal of Industrial Distribution & Business) can use to be indexed by SCOPUS and SSCI, following five main measures as discussed in main texts. Research design, data and methodology: The literature analysis which was selected by this study is appropriate to find out useful texts dataset and this analysis provides adequate evidence for previous literature collection. Results: From the current literature analysis, this study suggests five strategic tactics for JIDB to be a journal indexed in SCOPUS and SSCI. The five tactics are follows: (1) Understanding the Selection Process, (2) Content and Relevance, (3) Finding a Niche Technical Standards, (4) Clarity in Formatting and Structure, and (5) Citations and Publication Considerations. Conclusions: This study concludes that the five discussed tactics are all imperative in aiding the research and if JIDB follows all the select strategies, it will be bound to succeed for indexing in the two databases.

2D-THI: XML 데이테베이스를 위한 이차원 타입상속 계층색인 (2D-THI: Two-Dimensional Type Hierarchy Index for XML Databases)

  • 이종학
    • 한국멀티미디어학회논문지
    • /
    • 제9권3호
    • /
    • pp.265-278
    • /
    • 2006
  • 본 논문에서는 XML 데이터베이스의 타입상속 계층에 대한 색인기법으로 이차원 색인구조를 이용하는 이차원 타입상속 색인기법인 2D-THI를 제안한다. XML 스키마는 타입상속을 지원하는 XML 문서를 위한 스키마 모델 중에 하나이다. 기존의 XML 데이터베이스를 위한 색인기법은 XML 스키마상의 타입상속 계층에 대한 XML 질의를 지원하지 못한다. 따라서 본 논문에서는 XML 질의의 타입상속 계층을 지원하기 위한 색인기법으로 다차원 파일구조를 이용하는 이차원 색인구조를 구성한다. 이차원 색인구조에서 한 축은 색인된 엘리먼트의 킷값 도메인으로 구성하고 다른 한 축은 타입상속 계층의 타입 식별자 도메인으로 구성한다. 이와 같은 이차원 색인구조를 이용함으로써 사용자 질의 패턴에 따라 두 도메인 사이에서 객인 엔트리들의 클러스터링 정도를 조정함으로써 질의처리의 성능을 향상시킬 수 있다. 본 논문에서 제안한 2D-THI의 성능 평가를 위하여, 비용 모델을 개발하고 이를 통하여 2D-THI를 기존의 객체지향 데이터베이스에서 사용하고 있는 CH-index와 CG-tree와 같은 클래스 계층 색인기법들과 색인의 성능을 비교평가 한다. 성능평가의 결과로서, CH-index와 CG-tree에서는 특정 형태의 XML 질의의 경우에만 좋은 성능을 보인 반면, 본 논문에서 제안한 2D-THI에서는 주어진 질의 형태에 따라 최적의 질의처리 성능을 제공할 수 있음을 보인다.

  • PDF

법률정보시스템의 색인에 관한 연구 -특히 2차 법률정보를 중심으로- (A Study on the Index Model for Secondary Legal Information Databases)

  • 노정란
    • 한국비블리아학회지
    • /
    • 제8권1호
    • /
    • pp.117-134
    • /
    • 1997
  • This study proves that the quoted legal text functions as the index which represents the contents of the text because of the characteristics of legal information, the automatic indexing in the secondary legal full-text databases can be possible without the assitance of the experts. In case of the establishment, amendment or repealing of law, change of words of index can be possible through revising the legal text quoted in the secondary legal full-text databases. Even when we dont input the full-text about retrospective documents, automatic indexing is also possible, and the establihment and the practice of expert knowledge and integrated databases are possible in case of the retrospective documents. This study indicates that it is necessary to have characteristic information the information experts recognize - that is to say, experimental and inherent knowledge only human being can have - built-in into the system rather than to approach the information system by the linguistic, statistic or structuralistic way, and it can be more essential and intelligent information system.

  • PDF

An Efficient Video Retrieval Algorithm Using Luminance Projection

  • Kim, Sang-Hyun
    • Journal of the Korean Data and Information Science Society
    • /
    • 제15권4호
    • /
    • pp.891-898
    • /
    • 2004
  • An effective video indexing is required to manipulate large video databases. Most algorithms for video indexing have been commonly used histograms, edges, or motion features. In this paper, we propose an efficient algorithm using the luminance projection for video retrieval. To effectively index the video sequences and to reduce the computational complexity, we use the key frames extracted by the cumulative measure, and compare the set of key frames using the modified Hausdorff distance. Experimental results show that the proposed video indexing and video retrieval algorithm yields the higher accuracy and performance than the conventional algorithm.

  • PDF

이동 객체의 유사 부분궤적 검색을 위한 시그니쳐-기반 색인 기법 (Signature-based Indexing Scheme for Similar Sub-Trajectory Retrieval of Moving Objects)

  • 심춘보;장재우
    • 정보처리학회논문지D
    • /
    • 제11D권2호
    • /
    • pp.247-258
    • /
    • 2004
  • 최근 비디오 데이타베이스, 시공간 데이타베이스, 모바일 데이타베이스와 같은 데이타베이스 응용 분야에서 이동 객체를 기반으로 하는 검색 기법에 관한 연구가 활발히 이루어지고 있다. 본 논문에서는 이동 객체의 궤적에 대한 효율적인 유사 부분궤적 검색을 지원하는 새로운 시그니쳐-기반 색인 기법을 제안한다. 제안하는 시그니쳐-기반 색인 기법은 궤적 데이타를 토대로 궤적 시그니쳐를 생성하는 방법에 따라 중첩 시그니쳐-기반 색인 기법(Superimposed signature-based Indexing scheme for similar Sub-trajectory Retrieval : SISR)과 합성 시그니쳐-기반색인 기법(Concatenated signature-based Indexing scheme for similar Sub-trajectory Retrieval : CISR)으로 나뉜다. 생성된 궤적 시그니쳐 정보는 시그니쳐 파일에 저장되고, 검색시 주어진 사용자 질의 궤적 정보를 기반으로 데이타 파일을 직접 접근하기 전에 전체 궤적 시그니쳐들을 탐색하여 필터링을 수행한다. 이를 통해 데이타 파일의 검색 범위를 현저히 줄임으로써 검색 성능을 향상시킨다. 또한 검색된 궤적 데이터와의 유사성을 측정하기 위해 k-워핑 알고리즘을 적용시켜 검색의 효율성을 높인다. 마지막으로, 순차 색인 기법, SISR기법, 그리고 CISR 기법을 삽입시간, 검색 시간 그리고 부가 저장 공간측면에서 성능 평가를 수행한다. 성능 평가 결과, 제안하는 두 가지 기법이 검색 성능 측면에서 순차 색인 기법에 비해 성능이 우수함을 나타내고, 아울러 SISR 기법이 CISR 기법에 비해 보다 우수한 성능을 보인다.

MD-TIX: XML 질의의 효율적 처리를 위한 다차원 타입상속 색인기법 (MD-TIX: Multidimensional Type Inheritance Indexing for Efficient Execution of XML Queries)

  • 이종학
    • 한국멀티미디어학회논문지
    • /
    • 제10권9호
    • /
    • pp.1093-1105
    • /
    • 2007
  • 본 논문에서는 XML 데이터베이스의 색인구조로 다차원 화일구조를 이용하는 다차원 타입상속 색인기법인 MD-TIX를 제안한다. 일차원 색인구조를 이용하는 기존의 XML 데이터베이스 색인기법에서는 타입상속계층과 중첩요소가 포함된 복합 형태의 질의들에 대한 처리를 잘 지원하지 못한다. MD-TIX에서는 XML 데이터베이스의 중첩요소에 대한 색인기법을 위하여 이차원 타입상속 계층 색인기법(2D-THI)을 다차원으로 확장하여 사용한다. 2D-THI는 타입상속 계층의 단순요소에 대한 색인기법으로 킷값 도메인과 타입식별자 도메인으로 구성된 이차원 도메인 공간상에서 요소들의 클러스터링을 다루는 색인기법이다. 본 논문의 MD-TIX에서는 색인된 중첩요소를 표현하는 경로상의 각 타입상속 계층마다 하나의 타입식별자 도메인을 할당하여 구성된 다차원 도메인 공간상에서 색인 엔트리들의 클러스터링을 다룬다. 따라서 HD-TIX에서는 기존의 색인기법에서 지원하기 어려운 질의의 대상 범위가 타입상속 계층상의 임의의 타입들로 제한되거나, 질의에 포함된 복합요소들의 도메인이 타입상속 계층상의 임의의 타입들로 제한되는 경우에도 잘 지원할 수 있다.

  • PDF