• Title/Summary/Keyword: 검색 색인

Search Result 1,079, Processing Time 0.022 seconds

A Study on Natural Language Keyword Indexing for Web-based Information Retrieval (웹기반 정보검색을 위한 자연어 키워드 색인에 관한 연구)

  • 윤성희
    • Journal of the Korea Computer Industry Society
    • /
    • v.4 no.12
    • /
    • pp.1103-1111
    • /
    • 2003
  • Information retrieval system with indexing system matching single keyword is simple and popular. But with single keyword matching it is very hard to represent the exact meaning of documents and the set of documents from retrieval is very large, therefore it can't satisfy the user of the information retrieval systems. This paper proposes a phrase-based indexing system based on the phrase, the larger syntax unit than a single keyword. Web documents include lots of syntactic errors, the natural language parser with high Quality cannot be expected in Web. Partial trees, even not a full tree, from fully bottom-up parsing is still useful for extracting phrases, and they are much more discriminative than single keyword for index. It helps the information retrieval system enhance the efficiency and reduce the processing overhead.

  • PDF

Design and Implementation of a Multimedia Information Retrieval System based on Internet (인터넷기반 멀티미디어 정보검색시스템 : 옥서'95의 색인 및 검색)

  • Kang, Hyun-Kyu;Jang, Ho-Wook;Jun, Mi-Seon;Park, Se-Young
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.85-92
    • /
    • 1996
  • 본 논문은 인터넷 기반의 멀티미디어 정보 검색 시스템인 옥서 '95의 정보 색인 및 검색에 대한 설계 및 구현에 대하여 논한다. 정보 구축시 키워드의 확장 개념으로서의 키팩트 추출과 모호성 해소 그리고 키팩트, 하이퍼 문서 및 멀티미디어 데이타의 색인을 한다. 또한 검색시 자연언어 질의에 대한 키팩트의 추출, 확장 및 서열처리를 통하여 사용자가 원하는 정보를 검색하게 한다. 검색대상의 문서로서 백과사전, 신문기사, 기술문서를 다루었으며 여러가지 검색 기능을 설계 및 구현하였다. 전문을 대상으로 색인 및 검색을 하였으며 앞으로 전자도서관이나 정보통신 서비스에 활용할 예정이다.

  • PDF

Implementation of Phrase-based Indexing (구 기반 색인 시스템의 구현)

  • Lee, Chung-Hee;Kim, Hyun-Jin;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.63-69
    • /
    • 2001
  • 정보 검색 결과의 정확성을 높이기 위해서는 상위수준의 색인 정보를 이용한 검색 기법이 요구된다. 상위수준의 색인을 하기 위해서는 구문 분석을 이용할 필요가 있지만 웹 페이지를 이용하는 웹 검색에서는 웹 폐이지 자체의 오류 때문에 구문 분석을 할 때 실패할 확률이 높으므로 견고한 구문 분석이 요구된다. 본 논문은 구, 문장에 기반한 색인 기법 및 기존 색인 방법을 병행해서 사용하는 시스템에 대하여 소개한다. 본 논문에서 소개하는 시스템은 5가지 방법의 색인 기법을 사용한다. 각 색인 기법은 적용될 분야 또는 범위에 따라 선택적으로 사용될 수 있다. 색인 기법은 1)명사 색인 2)명사+용언 색인 3)명사+용언+문장정보 색인 4)명사구 색인 5)중심어-종속어(Head-Modifier) 색인으로 나누어진다. 색인 기법 중 4와 5의 경우, 구문 분석된 결과를 사용하여 특정 명사구 및 중심어-종속어 관계를 고려함으로써 문서의 특성을 잘 나타내는 색인어를 추출할 수 있고 그러므로 정보검색의 성능을 향상시키는 기반 기술로 사용될 수 있다.

  • PDF

A Study on the Extraction and Utilization of Index from Bibliographic MARC Database (서지마크 데이터베이스로부터의 색인어 추출과 색인어의 검색 활용에 관한 연구 - 경북대학교 도서관 학술정보시스템 사례를 중심으로 -)

  • Park Mi-Sung
    • Journal of Korean Library and Information Science Society
    • /
    • v.36 no.2
    • /
    • pp.327-348
    • /
    • 2005
  • The purpose of this study is to emphasize the importance of index definition and to prepare the basis of optimal index in bibliographic retrieval system. For the purpose, this research studied a index extraction theory on index tag definition and index normalization from the bibliographic marc database and analyzed a retrieval utilization rate of extracted index. In this experiment, we divided index between text-type and code-type about the generated 29,219,853 indexes from 2,200,488 bibliographic records and analyzed utilization rate by the comparison of index-type and index term of web logs. According to the result, the text-type indexes such as title, author, publication, subject are showed high utilization rate while the code-type indexes were showed low utilization rate. So this study suggests that the unused index is removed from index definition to optimize index.

  • PDF

한글 문서의 색인어와 색인 기법

  • 강승식
    • Communications of the Korean Institute of Information Scientists and Engineers
    • /
    • v.22 no.4
    • /
    • pp.72-77
    • /
    • 2004
  • 정보검색 시스템의 성능을 평가하는 요소는 재현율(recall)과 정확률(precision)이고, 재현율과 정확률을 결정하는데 가장 큰 영향을 미치는 것은 문서에 대한 색인어와 색인어 가중치이다[1]. '질의어'에 적합한 문서를 검색할 수 있는지를 결정하는 것은 "적합 문서에 대해 색인이 되어 있는가\ulcorner"하는 문제이며, 이는 재현율에 직접적인 영향을 미치게 된다. 즉, 적합 문서를 색인할 때 '질의어'에 대한 색인이 되어 있지 않은 문서는 검색이 되지 않으며, 또한 부적합 문서에 색인이 되어 있으면 부적합 문서들이 다수 검색되기 때문에 정확률이 낮아지게 된다.이 낮아지게 된다.

Design and Performance Evaluation of an Efficient Index Mechanism for Real-Time MMDBMS (실시간 MMDBMS 를 위한 효율적인 색인 기법의 설계 및 성능평가)

  • Min, Young-Soo;Shin, Jae-Ryong;Yoo, Jae-Soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04a
    • /
    • pp.61-64
    • /
    • 2001
  • 본 논문에서는 실시간 MMDBMS 를 위한 효율적인 색인 기법을 제안한다. 기존의 주기억장치 트리 기반 색인 구조는 범위 검색을 효과적으로 지원할 수 있지만 한 노드에 대한 접근시간과 평균 접근시간의 차이가 클 수 있기 때문에 실시간 특성을 보장하지 못하는 단점이 있다. 또한 해시 기반 색인 구조는 간단한 검색에서 접근 시간이 매우 빠르고 일정하지만 범위 검색을 지원하지 못하는 단점이 있다. 이러한 두 색인 구조의 단점을 해결하기 위해 본 논문에서는 동적 확장이 가능하며 검색 시간이 빠르고 실시간 특성을 지원할 수 있는 ECBH(Extendible Chained Bucket Hashing)와 범위 검색에 더욱 효과적인 $T^{\ast}$-트리를 상호보완적으로 결합하여 Hyper-TH(Hyper Tree-Hash)라는 실시간 MMDBMS 에 적합한 새로운 색인 기법을 제안하고 구현한다. 그리고 성능 평가를 통해 제안하는 색인 기법의 우수성을 증명한다.

  • PDF

An Efficient Content-based Retrieval System using High-Dimensional Index Structure Image Database (대규모 이미지 데이터베이스에서 고차원 색인 구조를 이용한 효율적인 내용 기반 검색 시스템)

  • Lee, Dong-Ho;Park, Ju-Hong;Jeong, Jin-Wan;Kim, Hyeong
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.1
    • /
    • pp.52-65
    • /
    • 1999
  • 이미지나 비디오, 오디오와 같이 멀티미디어 데이터들은 기존의 단순한 텍스트 기반의 데이터에 비하여 대용량적인 특성과 비정형적인 특성을 가지고 있어서 검색시 많은 어려움이 따른다. 본 논문에서는 대규모의 이미지 데이터베이스에서 효율적이고 신속하게 사용자가 원하는 이미지를 검색할수 있는 내용 기반 검색 시스템을 제시한다. 이를 위해서 본 논문에서는 최근 여러 장점으로 인하여 신호 분석이나 이미지 압축 분야에 많이 사용되는 웨이브릿 변환을 이용하여 이미지 데이터로부터 내용 기반 검색에 사용되는 특징 벡터를 효율적으로 추출하는 기법과 유사성 측정 방법을 제안한다. 그리고, 이러한 특징 추출방법과 유사성 측정 방법을 이용하여 내용 기반 질의 및 검색을 수행할 경우, 검색 조건을 만족하는 객체인데 실수로 검색해내지 못하는 경우인 false dismissals 이 발생하지 않음을 보인다. 또한 대규모 이미지 데이터베이스에서 신속한 내용 기반 검색을 지원하기 위하여 고차원 데이터에 대한 효율적인 색인을 제공하는 X-tree를 이용한 이미지 색인 방법을 보이며 이것이 기존의 순차 검색이나 R*-tree를 이용한 색인 방법보다 신속하게 이미지 데이터들을 검색할 수 있다는 것을 다양한 실험을 통해 보인다. 마지막으로 QBIC에서 제안한 검색 적합성 측정 방법을 이용하여 본 논문에서 제안하는 내용 기반 이미지 검색시스템의 검색 적합성을 보인다.

MPEG Video Retrieval using KD-Trees and PCA (KD-Trees 와 PCA를 이용한 MPEG 비디오 검색)

  • 김대일;장혜경;홍종선;김영호;강대성
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2003.06a
    • /
    • pp.118-121
    • /
    • 2003
  • 본 논문은 동영상 압축 부호화에 대한 표준안인 MPEG기반의 압축 비디오 stream에서[1, 2], 질의 영상에 대한 효율적인 검색 기법을 제안한다. 비디오 검색은 높은 차원의 색인 정보를 이용하는데, 높은 차원의 data set을 색인 정보로 하여 효율적인 검색 능력을 보여주는 KD-Trees(K Dimensional-Trees)알고리즘[3]을 비디오 검색기법에 적용하고자 한다. 먼저, key frame에 PCA (Principal Component Analysis) 알고리즘[4]을 이용하여 색인 정보를 추출한 다음, 추출된 색인 정보를 KD-Trees에 적용하여 효율적인 검색을 가능하게 한다. 실험 결과, 기존의 검색 기법보다 상당한 양의 처리 시간과 메모리 공간을 줄일 수 있음을 보였다.

  • PDF

Indexing method with deduplication for efficient RDF data retrieving (효율적인 RDF 데이터 검색을 위한 중복 제거 색인 방법)

  • Jang, Hyeonggyu;Bang, Sungho;Oh, Sangyoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.01a
    • /
    • pp.61-62
    • /
    • 2020
  • RDF의 활용이 증가하면서 RDF데이터를 저장하는 방법 또한 많은 연구가 이루어졌다. 그래프 형태인 RDF 데이터를 테이블로 바꿀 때, 동일한 데이터가 중복 저장되어 검색 시 불필요한 연산을 하는 문제점이 발생한다. 본 논문에서는 중복저장 및 불필요한 검색을 줄이기 위해 색인을 주어(S), 목적어(O) 색인과 이들의 중복 값을 별도의 색인을 만들고, 검색 시 중복 값을 확인하여 필요한 색인만 검색하는 기법을 제안한다. 실험에서 본 기법을 사용하여 불필요한 검색을 줄여서 전체적인 검색 시간이 줄어드는 것을 확인하였다.

  • PDF

A study on the XML Indexing model for Efficient Retrieval (XML의 RDB로의 맵핑과 효율적인 검색을 위한 색인 모델)

  • 김태희;김선경
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2004.06a
    • /
    • pp.55-60
    • /
    • 2004
  • XML 문서의 관계형 데이터베이스로의 맵핑과. 데이터베이스의 성능을 향상시키기 위한 방안으로 내용질의와 함께 XML 문서의 특성을 활용한 구조 검색 질의를 하기 위한 효율적인 색인 모델을 제안한다. 내용 색인과 구조 색인, 애트리뷰트 색인을 각각 구성하여 내용과 구조가 혼합된 효율적인 검색이 가능하도록 하였다. 검색의 효율성을 위해 노드 간의 위치 정보와 함께 독립적인 ID를 부여하여 경로테이블을 생성하여 질의의 효율을 높인다.

  • PDF