• 제목/요약/키워드: Query Index

검색결과 411건 처리시간 0.026초

프리픽스 매취 조인을 이용한 XML 문서에 대한 분기 경로 질의 처리 (Branching Path Query Processing for XML Documents using the Prefix Match Join)

  • 박영호;한욱신;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권4호
    • /
    • pp.452-472
    • /
    • 2005
  • 본 논문에서는 정보 검색(Information Retrieval, IR) 기술과 새로운 인스턴스 조인 기술을 이용하여 방대하고도 이질적인 XML 문서들에 대한 부분 매취 질의(Partial Match Query)를 처리하는 새로운 방법으로, XIR-Branching을 제안한다. 부분 매취 질의는 경로 표현식에 조상-후손 관계성(descendent-or-self axis) "//"를 가지는 질의로 정의되며, 선형 경로 표현식(Linear Path Expression, LPE)과 분기 경로 표현식(Branching Path Expression, BPE)으로 구분된다 일반적 형식의 부분 매취 질의는 분기하는 경로들을 만드는 분기 조건들을 가진다. XIR-Branching의 목적은 이질적인 스키마들을 가진 방대한 문서들에 주어지는 부분 매취 질의를 효과적으로 지원하는 것이다. XIR-Branching은 관계형 테이블을 사용하는 전통적인 스키마-레벨 방법들(XRel, XParent, XIR-Linear[21])에 그 기초를 두고, 역 인덱스(inverted index) 기술과 새롭게 소개하는 인스턴스-레벨 조인 기술인 프리픽스 매취 조인(Prefix Match Join)을 사용하여 질의 처리 효율성과 확장성을 향상시킨다. 전자는 LPE를 처리하기 위한 기술로 XIR-Linear[21]에서 사용한 방법이다. 후자는 BPE를 처리하기 위한 기술로 본 논문에서 새롭게 제안하는 기술이며, 전통적인 방법에서 사용하는 포함 관계 조인(containment join) 보다 효과적인 방법으로 결과 노드(result node)를 찾는다. 기존 연구인 XR-Linear는 역 인덱스를 사용하여 LPE 처리에 우수한 성능을 보이고 있지만, BPE 처리 방법을 다루지 않았다. 그러나. 더욱 구체적이고 일반적인 질의를 위해서는 BPE도 처리할 수 있어야 한다. 본 논문에서는 BPE까지 다룰 수 있는 새로운 방법으로 기존의 XIR-Linear를 확장한 XIR-Branching을 제안한다. 제안하는 방법은 스키마-레벨 방법으로 질의 대상 후보 집합을 크게 줄인 후, 인스턴스-레벨 조인 방법인 프리픽스 매취 조인으로 최종 결과 집합을 효과적으로 구하는 방법이다. XIR-Branching의 우수성을 보이기 위해 기존 BP포 처리 방법인 XRei, XParent와 비교 분석을 수행한다. 마지막으로, 성능 평가를 통하여 XIR-Branching이 기존 방법들에 비해 수십에서 수백배 효과적이고 확장성 또한 뛰어남을 보인다.

센서네트워크 상에서 영역질의 처리를 위한 분산 색인 관리 메카니즘 (Distributed Index Management Mechanism for Region Query in Sensor Network)

  • 김규철;장기영;진봉;김창화;박찬정;김상경
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.72-76
    • /
    • 2006
  • 센서 네트워크에서는 싱크에서 센서로 자료요청을 위한 쿼리를 발송하고 감지된 데이터를 싱크로 수집하는 방법은 여러 가지가 있을 수 있다. 그러나 어떠한 쿼리 최적화 방법을 사용하느냐에 따라 센서 네트워크의 성능이 달라질 수 있다. 본 논문에서 센서 네트워크 상에서 영역질의를 처리하는 분산 색인 방법을 제안하였다. 본 연구에서 제안한 DIMTree(Distributed Index Management Tree)는 센터에서 데이터를 수집하기 위하여 모든 영역에 쿼리를 배포할 필요가 없이 질의에 적합한 지역에서만 쿼리를 배포하여, 자료 전송 및 수집으로 인한 데이터 전송량을 줄임으로써 통신으로 인한 노드의 에너지를 절감시킬 수 있는 장점을 가진다.

  • PDF

하이퍼텍스트 기반 디소러스의 실험적 설계와 운용 (Experimental development of hypertext-based thesaurus)

  • 노진구
    • 한국도서관정보학회지
    • /
    • 제22권
    • /
    • pp.373-401
    • /
    • 1995
  • This study aims to improve subject retrieval by constructing the hypertext-based thesaurus to provide a browsing interface to a thesaurus. The experimental system used IBM 486 DXII as a hardware, C++ language as a programming language and Hangul Window 3.1 version as a user interface. The results of this study are summarized as follows : (1) The experimental hypertext-based thesaurus can be used as an efficient search aid for query formulation for the retrieval of bibliographic information. (2) The initial access to the hypertext-based thesaurus is via a keyword index. This index is consist of all the words used to form thesaurus terms, whether descriptors or nondescriptors. (3) Hypertext-based thesaurus allow bookmark button and history button to alleviating the problem of disorientation. (4) This system allow an end-user to view a rich variety of inter-term relationships and a complete conceptus of associations through the information space in a nonsequential manner.

  • PDF

Location-Based Services for Dynamic Range Queries

  • Park Kwangjin;Song Moonbae;Hwang Chong-Sun
    • Journal of Communications and Networks
    • /
    • 제7권4호
    • /
    • pp.478-488
    • /
    • 2005
  • To conserve the usage of energy, indexing techniques have been developed in a wireless mobile environment. However, the use of interleaved index segments in a broadcast cycle increases the average access latency for the clients. In this paper, we present the broadcast-based location dependent data delivery scheme (BBS) for dynamic range queries. In the BBS, broadcasted data objects are sorted sequentially based on their locations, and the server broadcasts the location dependent data along with an index segment. Then, we present a data prefetching and caching scheme, designed to reduce the query response time. The performance of this scheme is investigated in relation to various environmental variables, such as the distributions of the data objects, the average speed of the clients, and the size of the service area.

$O_2$기반의 XML 문서관리 시스템 설계 및 구현 (Design and Implementation of an XML Document Management System Based on $O_2$)

  • 유재수
    • 정보기술과데이타베이스저널
    • /
    • 제7권1호
    • /
    • pp.27-39
    • /
    • 2000
  • In this paper, we design and implement a XML management system based on OODBMS that supports structured information retrieval of XML documents. We also propose an object oriented modeling to store and fetch XML documents, to manage image data, and to support versioning for the XML document management system(XMS). The XMS consists of a repository manager that maintains the interfaces for external application programs, a XML instance storage manager that stores XML documents in the database, a XML instance manager that fetches XML documents stored in the database, a XML index manager that creates index for the structure information and the contents of documents, and a query processor that processes various queries.

  • PDF

색인 구조 예측을 통한 이동체의 지연 다량 삽입 기법 (Lazy Bulk Insertion Method of Moving Objects Using Index Structure Estimation)

  • 김정현;박순영;장용일;김호석;배해영
    • 한국공간정보시스템학회 논문지
    • /
    • 제7권3호
    • /
    • pp.55-65
    • /
    • 2005
  • 본 논문은 이동체의 잦은 갱신에 의해 발생하는 색인 재구성에 대한 비용을 줄이기 위해 이동체의 지연 다량 삽입 기법을 제안한다. 기존 이동체 색인에 대한 연구는 주로 색인 구성 후에 발생하는 질의 처리 효율성에 초점을 두었다. 이들은 이동체 데이터의 갱신 연산에 의한 색인 재구성에 대한 디스크 접근 오버헤드를 거의 고려하지 않았다. 이러한 이동체 데이터의 갱신 연산에 대한 비용을 줄이기 위해 다량 삽입 기법과 여러 색인이 제안되었다. 하지만 제안된 기법들은 매우 가변적이고 대량인 데이터를 효율적으로 처리하는데 많은 디스크 I/O 비용을 필요로 한다. 본 논문에서는 빠른 데이터 생성 속도에 적합하도록 디스크 접근 오버헤드를 고려해서 R-트리를 관리할 수 있는 현재색인에 대한 다량 삽입 기법을 제안한다. 이 기법에서는 다차원 색인 구조에서의 다량 삽입 기법을 위한 버퍼링 기법을 사용한다. R-트리의 단말 노드 정보를 관리하는 보조 색인을 추가하여 노드의 분할과 합병을 예상한다. 또한 연산을 종류에 따라 분류하여 불필요한 삽입과 삭제 연산을 줄인다. 노드의 변환를 최소화하는 방향으로 이동 객체의 처리 순서를 정하여 데이터 갱신에 따른 노드의 분할과 합병을 최소화한다. 실험을 통해 제안한 기법을 이용한 다량 삽입 기법이 기존의 삽입 기법들보다 색인의 갱신 비용을 감소시키는 것을 알 수 있다.

  • PDF

사용자 질의를 이용한 XML 태그의 가중치 결정 (Weighting of XML Tag using User's Query)

  • 우선미;유춘식;김용성
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.439-446
    • /
    • 2005
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐만 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있다. 이러한 연구들 대부분이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하거나 HTML 문서 태그의 중요도를 결정하는 연구들이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그의 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자의 질의에 바탕을 둔 사용자의 검색 행위를 반영한다. 그리고 기존 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

서지 데이터베이스에서의 레코드 필드 선택이 검색 성능에 미치는 영향에 관한 연구 (A Study of the Influence of Choice of Record Fields on Retrieval Performance in the Bibliographic Database)

  • Heesop Kim
    • 한국문헌정보학회지
    • /
    • 제35권4호
    • /
    • pp.97-122
    • /
    • 2001
  • 본 연구에서는 레코드필드 선택이 대규모 서지 데이터베이스 탐색시 미치는 검색 성능에 대하여 관찰하였다. 실험의 구성 요소는 크게 (1) 대규모 상업용 데이터베이스 INSPEC. (2) 관련된 레코드들 (target sets이라고 정의함). (3) 4개의 키워드가 한 세트로 이루어진 4개의 서로 다른 형태의 질의어들 (CT_TF, CT_IDF, UT_TF, UT_IDF), (4) 최적의 질의를 위한 알고리즘, (5) 가능한 모든 경우의 탐색식을 생성해내는 블리언 탐색식 생성기, 그리고 (6) 실제 운영중인 웹 기반의 검색 시스템으로 이뤄졌다. 실험에서의 레코드 필드 선택은 (1) Abstract, (2) Descriptors, (3) Identifiers, (4) 'Subject'(Descriptors + Identifiers). (5) Title. (6) 'All fields'로 정의하여 독립변수로 채택하였다. 검색 성능은 재현율, 정도율을 모두 반영한 Heine의 D측정에 의하여 평가 되었다. 본 연구에서 얻은 주된 결과로는 (1) 필드선택은 검색성능에 중요한 영향을 미치며, (2) 각 검색 성능에서 보여준 순위는 질의어에 따라 민감한 결과를 보였고 (3) 제목(Title)필드 선택이 D측정에서 최적의 결과를 보였다.

  • PDF

OLAP 환경에서 다중점 MAX/MIN 질의의 효율적인 처리기법 (Efficient Processing of Multipoints MAX/MIN Queries in OLAP Environment)

  • 양우석;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제27권1호
    • /
    • pp.13-21
    • /
    • 2000
  • OLAP(Online analytical processing)은 의사지원시스템을 효과적으로 지원하기 위한 핵심요소이며 주로 집단함수를 포함한 분석 질의를 처리한다. 이러한 질의를 효율적으로 처리하기 위한 연구들이 많이 이루어져 왔으나, 기존의 연구들은 어떤 범위 내의 모든 값을 대상으로 하는 집단함수의 처리 방법들을 다루고 있다. 그러나 이러한 범위 질의 외에도 범위 내의 특정 값들, 즉 다중점에 대한 질의도 많이 사용될 수 있으며, 이러한 질의에는 기존의 연구가 적용되기 어렵다. 본 논문에서는 다중점 MAX/MIN 질의를 효율적으로 처리하는 방법으로 순위 색인과 순위 결정 트리를 제안한다. 최대/최소값을 구하기 위해, 비트맵 형태의 노드로 이루어진 순위 결정 트리를 사용하여 결과의 순위를 구하고, 순위 색인을 통하여 질의의 결과를 얻는다. 그리고 실험을 통하여 제안한 방법이 대부분의 MAX/MIN 질의에 대해 안정적으로 높은 성능을 나타낸다는 것을 보였다. 또한, 단일 선계산 자료만으로 MAX와 MIN 질의를 모두 처리할 수 있다는 것도 제안한 방법의 주요 장점이다.

  • PDF

시퀀스 데이터베이스를 위한 서브시퀀스 탐색 : 세그먼트 기반 접근 방안 (Efficient Subsequence Searching in Sequence Databases : A Segment-based Approach)

  • 박상현;김상욱;노웅기
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권3호
    • /
    • pp.344-356
    • /
    • 2001
  • 본 논문에서는 시퀀스 데이터베이스에서 시간왜곡 변환(time warping)을 지원하는 서브시퀀스 탐색 문제를 다룬다. 서브시퀀스 탐색은 데이터 시퀀스의 평균 길이의 이차 함수로 성능이 저하된다. 이러한 문제를 해결하기 위하여 본 논문에서는 세그먼트 기반 서브시퀀스 탐색 기법(Segment-Based Approach for Subsequence Searches : SBASS)을 제안한다. SBASS는 데이터와 질의 시퀀스를 연속된 세그먼트들로 분할하여 다음의 두가지 조건을 만족하는 모든 데이터 시퀀스를 검색한다. (1) 세그먼트의 개수가 질의 시퀀스의 세그먼트 개수와 같다. (2) 모든 세그먼트 쌍 간의 거리가 주어진 오차 한도 이내이다. 제안된 세그먼트 분할 기법에서는 세그먼트가 서로 다른 길이를 갖도록 허용하며, 세그먼트 쌀간의 유사성의 척도로서 시간왜곡 변환 거리를 이용한다. 효율적인 유사 서브시퀀스 탐색을 위하여, 각 데이터 세그먼트로부터 요서 값들이 단조적으로 변화하는 특성을 이용하여 특성 벡터를 추출하고, 추출된 특성 벡터를 이용하여 공간 인덱스를 생성한다. 질의는 이 인덱스를 이용하여 (1) R-트리 여과, (2) 특성 여과, (3) 순서 여과, (4) 후처리의 네 단계로 처리된다. 다양한 실험을 통하여 제안된 기법의 효율성을 입증한다.

  • PDF