• 제목/요약/키워드: 분할 색인

검색결과 1,057건 처리시간 0.031초

고차원 데이타 패킹을 위한 주기적 편중 분할 방법 (A Cyclic Sliced Partitioning Method for Packing High-dimensional Data)

  • 김태완;이기준
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권2호
    • /
    • pp.122-131
    • /
    • 2004
  • 이전의 연구들에서 제안된 많은 색인 방법들은 저차원과 동적인 환경을 가정하고 제안되었다. 그러나 최근의 많은 데이타베이스 응용분야들은 대용량, 고차원 그리고 정적인 환경에 대한 처리를 요구하고 있다. 따라서 기존의 저차원이고 동적인 환경에서 제안되었던 색인 구축 전략들은 특히 데이타 및 공간 분할에 있어서 새로운 환경에 잘 적응하지 못한다. 본 연구에서 우리는 이러한 사실들을 지적하였고, 새로운 환경에 적응하는 색인 구축 시 적용되는 새로운 분할 전략을 성능 모델에 근거하여 제안하였다. 우리의 접근 방법은 기본적으로 정적인 환경에서 색인 구축에 사용되는 패킹이라는 기법을 적용하였다. 그리고 고차원 환경에서 질의 성능의 기대 값을 제시하는 민코프스키-합 비용모델에 대한 관찰 결과를 이용하였다. 이러한 것들에 바탕을 두어 우리는 데이타 및 공간을 균등하게 분할하는 것보다 불균등하게 분할하는 것이 좋을 것이라는 예측을 비용 모델에 대한 관찰 결과로써 도출하였다. 그리고 이러한 결과를 이용한 불균등 분할 방법과 성능 모델들을 제시하였다. 이 연구의 결론으로서 균등 분할 방법보다 불균등 분할 방법이 고차원 환경에서 더 효율적인 방법임을 성능 모델 및 실험을 통하여 보여주었다. 그리고, 어떻게 불균등하게 분할하는 것이 좋은지에 대한 명확한 계량적 기준들을 제시하였다.

오디세우스/parallel-OOSQL: 오디세우스 객체 관계형 데이터베이스 관리 시스템을 사용한 병렬 정보 검색 시스템 (ODYSSEUS/Parallel-OOSQL: A Parallel Information Retrieval System Using the Odysseus Object-Relational Database Management System)

  • 류재준;이재길;이민재;황규영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.187-189
    • /
    • 2002
  • 인터넷의 성장과 함께 전자적인 형태로 표현되는 정보의 양이 급격하게 증가함에 따라, 문서를 병렬적으로 검색하는 병렬 정보 검색이 많은 양의 문서에 대한 빠른 검색을 지원하는 것에 있어 더욱 중요한 역활을 하고 있다. 병렬 정보 검색 시스템을 구현하기 위해서는 역 색인을 분활하고 분활된 역 색인을 병렬적으로 검색하는 것이 필요하다 역 색인을 분활하는 방법으로는 다음과 같은 두 가지 방법이 있다: 1) 문서 식별자를 기반으로 하는 분활 방법과 2) 키워드 식별자를 기반으로 하는 분활 방법. 그러나 각 방법은 단점들을 가지고 있다. 본 논문에서는 정보 검색 기능이 밀결합된 데이터베이스 관리 시스템인 오디세우스를 사용하여 병렬 정보 검색 시스템을 설계하고 구현한다. 첫째로, 기존의 역 색인 분할 방법을 분석하고 각 분말 방법의 단점들을 보완할 수 있는 혼합 분활 방법을 제안한다. 둘째로, 많은 양의 문서에 대해 성능 저하의 원인이 되는 대형 포스팅을 분할 하는 방법을 제안한다. 마지막으로 제안된 시스템의 유용성을 보이기 위해 실험을 수행한다. 예제 데이터베이스로서는 이백만 건의 웹 페이지를 사용한다. 실험 결과, 질의 저리 시간이 역 색인 분말의 블록의 개수에 근사하게 비례하여 줄어들고 시스템이 좋은 확장성을 가짐을 보인다.

  • PDF

대용량 이동체의 색인을 위한 시간축 분할 프레임웍의 설계 및 구현 (Design and Implementation of Time Division Framework for Indexing Numerous Moving Objects)

  • 조대수;임덕성;박종현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.722-724
    • /
    • 2003
  • 이동체 데이터베이스에서는 대용량의 위치정보를 효과적으로 저장, 검색하기 위해 이동체 색인을 이용한다. 이동체 색인은 시간에 지남에 따라 검색 영역이 증가하고, 관리해야 하는 위치정보의 양이 커지게 되므로, 삽입 검색, 삭제 연산의 성능이 계속해서 저하되는 문제가 있다. 이 논문에서는 기존의 이동체 색인을 시간축으로 분할하여 관리하기 위한 시간축 분할 프레임웍을 제안하고, 기존의 TB-tree 및 STR-tree에 대해서 제안한 프레임웍에 적용하였다. 시간축 분할 프레임웍은 전체 시간 도메인에 대해서 하나로 구성되는 색인을 시간 구간별로 쪼개어서 여러 색인으로 구성하여 관리함으로서, 위치정보의 삽입 및 검색 비용을 줄일 수 있으며, 오래된 위치정보에 대한 삭제 연산을 효과적으로 처리할 수 있다.

  • PDF

STR-Tree : 계층 공간 분할을 이용한 다차원 정적 데이터 색인 (STR-Tree : A Multidimensional Index Structure for Static Data using a Hierarchical STR)

  • 최미나;문정욱;이기준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.64-66
    • /
    • 2002
  • 최근 다차원 공간색인 방법의 성능 향상을 위해 근사법을 사용하여 노드의 팬아웃을 증가시키려는 시도가 많이 행해졌다. 하지만 이러한 방법은 색인 구조의 정확성이 떨어져 불필요한 노드를 방문할 확률을 높다는 단점이 있다 본 논문에서는 정적 데이터에 대하여 노드의 팬아웃을 증가시키기 위해 하향식 STR 공간분할방법을 사용한 새로운 색인 방법을 제안한다. 제안한 방법은 공간분할방법을 사용하므로 근사법을 이용한 방법에 비해 정확성이 높을 백 아기라 하향식 계층 STR을 제안하여 STR 공간 분할방법을 효율적으로 트리 구조에 적용할 수 있도록 하였다. 이 피에도 이중분할 방법을 제안하여 점 데이터 및 사각형 데이터의 색인을 가능하게 딸 딱 아니라 사상 공간을 줄여 불필요한 노드의 방문을 막아 성능을 향상시켰다.

  • PDF

연속적인 이동 객체의 효과적인 갱신을 위한 색인 구조 (An Index Structure for Updating Continuously Moving Objects Efficiently)

  • 복경수;윤호원;김명호;조기형;유재수
    • 정보처리학회논문지D
    • /
    • 제13D권4호
    • /
    • pp.477-490
    • /
    • 2006
  • 기존에 제안된 색인 구조는 연속적 이동 객체를 갱신하기 위해 이동 객체의 기존 위치를 삭제하고 새로운 위치를 삽입하는 과정을 반복하기 때문에 많은 갱신 비용을 소요한다. 본 논문에서는 연속적 이동 객체의 갱신 비용을 감소시키기 위한 새로운 색인 구조를 제안한다. 제안하는 색인 구조는 이동 객체의 위치를 저장한 공간 분할 방식의 색인 구조와 이동 객체의 위치를 직접 접근하기 위한 보조 색인 구조로 구성된다. 노드의 팬아웃을 증가시키기 위해 자식 노드에 대한 정보는 실제 분할 영역을 저장하는 것이 아니라 kd-tree로 저장한다. 또한, 이동 객체의 위치 갱신을 빠르게 처리하기 위해 색인 구조 전체를 순회하지 않고 단말 노드를 직접 접근하여 상향식으로 갱신을 수행한다. 제안하는 색인 구조의 우수성을 입증하기 위해 다양한 분포 특성에 따라 이동 객체를 생성하고 이동 객체에 대한 삽입, 갱신, 검색 성능을 비교 분석한다.

다차원 색인구조 M-트리에서 노드 색인 공간의 중첩을 최소화하기 위한 효율적인 분할 알고리즘 (An Efficient Split Algorithm to Minimize the Overlap between Node Index Spaces in a Multi-dimensional Indexing Scheme M-tree)

  • 임상혁;구경이;김기창;김유성
    • 정보처리학회논문지D
    • /
    • 제12D권2호
    • /
    • pp.233-246
    • /
    • 2005
  • 멀티미디어 데이터를 위한 내용기반 검색 서비스의 속도를 증진하기 위해 다차원 색인 기법에 대한 연구가 활발하게 진행되고 있다. 다차원 색인 기법의 하나인 M-트리는 노드의 중심점과 객체간의 상대적 거리를 이용하여 색인을 구성하고, 검색 공간에 포함되는 객체를 액세스하는 기법으로서 노드들은 페이지 단위로 구성되며 하위 엔트리들을 포함할 수 있는 반경, 즉 유사도 거리에 의해 노드의 영역이 표현되어진다. 그러나 이와 같은 노드의 영역 표현에 있어서 노드 색인 공간의 중첩으로 인해 질의 시 검색해야 하는 노드수가 증가하고 이는 거리계산과 디스크 입출력의 횟수를 증가시킨다. 본 논문에서는 M-트리에서 문제가 되고 있는 노드 색인 공간 중첩을 최소화하는 노드 분할 정책을 제안한다. M-트리의 기존 분할 정책들과는 다르게 노드의 가상 중심점을 계산하여 라우팅 객체로 이용하여 노드 색인 공간의 중첩을 최소화하고 노드 안의 엔트리 재분배를 통해 노드의 색인 공간의 크기를 작게 유지하며 밀도 높은 노드를 구성하도록 한다. 실험으로부터 제안된 노드 분한 알고리즘이 라우팅 노드의 색인 공간의 반경을 작게 유지하며 결과적으로는 사용자 질의에 대해 개선된 응답 시간을 제공하는 것으로 판명되었다.

텍스트분할에 의한 색인방법 연구 (A Study on Indexing Method using Text Partition)

  • 강무영;이상구
    • 정보관리학회지
    • /
    • 제16권4호
    • /
    • pp.75-94
    • /
    • 1999
  • 색인은 데이터베이스에 저장된 문서를 효과적으로 검색하기 위한 정보검색시스템의 필수 기능이다. 컴퓨터의 발달로 전자정보가 점점 많아짐에 따라 데이터베이스에 저장해야할 문서가 대량화되고 있고, 이러한 대용량 문서를 색인하기 위해서는 많은 시스템 자원과 처리 시간을 필요로 한다. 따라서 본 논문에서는 대용량 문서를 적은 자원으로 짧은 시간에 색인할 수 있는 개선된 텍스트분할에 의한 색인기법을 제안한다. 제안한 색인기법은 실제 검색시스템에 적용하고, 실험을 통해 우수성을 증명한다.

  • PDF

노드 이용률과 검색 속도 개선을 위한 비트 벡터 기반 공간 분할 색인 기법 (Bit-Vector-Based Space Partitioning Indexing Scheme for Improving Node Utilization and Information Retrieval)

  • 여명호;성동욱;유재수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권7호
    • /
    • pp.799-803
    • /
    • 2010
  • KDB-트리는 다차원 데이터를 검색하기 위한 전통적인 색인 기법이다. 많은 연구에서 낮은 저장 공간 사용과 검색 성능이 KDB-트리군의 두 병목현상이라고 언급되고 있다. 데이터 삽입 순서와 데이터의 편향으로 인한 불필요한 공간 분할이 그 원인이다. 본 논문에서는 편향 데이터를 효율적으로 처리하고, 검색 성능을 향상시키기 위한 새로운 색인 구조인 $KDB_{CS}^+$-트리를 제안한다. $KDB_{CS}^+$-트리는 분할 정보를 비트벡터로 표현하는 압축 기법과 노드의 그룹화를 통한 포인터 제거 기법을 활용하여 중간 노드의 팬-아웃을 증가시키고, 중간 노드의 엔트리를 계층적으로 표현함으로써 중간 노드의 사용율을 높인다.

다차원 데이타를 위한 공간 분할 및 적응적 비트 할당 기반 색인 구조 (An Index Structure based on Space Partitions and Adaptive Bit Allocations for Multi-Dimensional Data)

  • 복경수;김은재;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권5호
    • /
    • pp.509-525
    • /
    • 2005
  • 본 논문에서는 다차원 데이타의 유사도 검색을 효율적으로 지원하기 위한 벡터 근사 기반의 색인 구조를 제안한다. 제안하는 색인 구조는 공간 분할 방식으로 영역을 분할하고 실제 데이타들이 존재하는 영역에 대해 동적 비트를 할당하여 영역을 표현한다. 따라서, 분할된 영역들 사이에 겹침이 발생하지 않으며 하나의 중간 노드에 많은 영역 정보를 저장할 수 있어 트리의 깊이를 감소시킨다. 또한, 특정 영역에 군집화되어 있는 데이타에 대해서 효과적인 표현 기법을 제공하며 자식 노드의 영역 정보는 부모 노드의 영역 정보를 이용하여 상대적으로 표현함으로써 영역 표현에 대한 정확성을 보장한다. 이를 통해 검색성능 향상을 제공한다. 제안하는 색인 구조의 우수성을 보이기 위해 기존에 제안된 다차원 색인 구조와의 다양한 실험을 통하여 성능의 우수성을 입증한다. 성능 평가 결과를 통해 제안하는 색인 구조가 기존 색인 구조보다 $40\%$정도 검색 성능이 향상됨을 증명한다.

영역 질의 처리를 위한 TB-tree의 삽입 알고리즘 (The Insertion Algorithm of TB-tree for Improving Range Queries)

  • 장종우;임덕성;홍봉희
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2003년도 추계학술대회
    • /
    • pp.135-140
    • /
    • 2003
  • 차량과 같이 시간의 흐름에 따라 위치를 변경하는 객체를 이동체라 한다. 이동체의 과거 궤적은 시간이 지남에 따라 누적되므로 대용량 정보가 된다. 대용량 궤적 정보를 저장하는 이동체 데이터베이스에서 효율적으로 궤적을 검색하기 위해서는 색인이 필요하다. 특히 궤적을 선택하는 과정과 선택된 궤적의 일부분을 추출하는 과정으로 이루어진 복합 질의를 처리하기 위해서는 궤적 보존을 지원하는 TB-tree와 같은 색인 구조가 적합하다. 그러나 TB-tree와 같이 시간적으로 잘 구성된 색인은 공간적인 겹침이 괴지는 문제가 있고, 반대로 공간적으로 잘 구성된 색인은 시간 도메인의 겹침을 심화시키는 문제점이 있다. 이 논문에서는 시간 도메인 중심의 분할 정책과 공간 도메인 중심의 분할 정책을 분석하여 서로 다른 두 도메인 사이의 관계를 밝힐 수 있는 파라미터를 제안하고, 이를 TB-tree에 적용하여 78-tree의 장점을 유지하면서 영역 질의껜 효과적인 분할 정책을 설계 및 구현한다. 또한 성능평가를 통하여 제안된 분할 정책이 기존의 TB-tree 보다 영역 질의에서 우수함을 보인다.

  • PDF