A Density-based k-Nearest Neighbors Query Method

밀도 기반의 k-최근접 질의 처리

  • Jang, In-Sung (Spatial InformationTechnology Center, Electronics and Telecommunications Research Institute) ;
  • Han, Eun-Young (Spatial InformationTechnology Center, Electronics and Telecommunications Research Institute) ;
  • Cho, Dae-Soo (Spatial InformationTechnology Center, Electronics and Telecommunications Research Institute)
  • 장인성 (한국전자통신연구원 공간정보기술센터) ;
  • 한은영 (한국전자통신연구원 공간정보기술센터) ;
  • 조대수 (한국전자통신연구원 공간정보기술센터)
  • Received : 2003.10.25
  • Accepted : 2003.12.12
  • Published : 2003.12.31

Abstract

Spatial data base system provides many query types and most of them are required frequent disk I/O and much CPU time. k-NN search is to find k-th closest object from the query point and up to now, several k-NN search methods have been proposed. Among these, MINMAX distance method has an aim not to access unnecessary node by adapting pruning technique. But this method accesses more disks than necessary while pruning unnecessary nodes. In this paper, we propose new k-NN search algorithm based on density of object. With this method, we predict the radius to be expected to contain k-NN objects using density of data set and search those objects within this radius and then adjust radius if failed. Experimental results show that this method outperforms the previous MINMAX distance method. This algorithm visit less disks than MINMAX method by the factor of maximum 22% and average 7%.

공간 데이터베이스 관리시스템에서 제공하는 공간 질의는 많은 디스크 참조와 CPU 처리시간을 필요로 한다. 이 중에서 k-최근접 질의는 많은 디스크 참조를 요구하는 질의로써 지금까지 많은 연구가 이루어져 왔다. 트리 구조의 색인을 사용하는 k-최근접 질의 처리방법은 조건을 만족하지 않는 노드를 가지치기 기법을 사용하여 노드 방문횟수를 줄인다. 그러나 이 방법은 가지치기 과정에서 불필요한 디스크 참고가 발생하여 성능을 저하시키는 단점을 가지고 있다. 본 논문에서는 가지치기 기법 대신 주어진 k개의 최근접 객체가 존재할 영역을 미리 예측함으로써 디스크 참조횟수를 줄이는 방법을 제시한다. 이 영역을 예측하기 위해서 본 연구에서는 데이터 분포에 대한 밀도를 이용하였다. 실험에 의하면 이러한 방법은 기존의 가지치기 기법을 이용한 방법에 비해서 최고 22%,평균 7% 정도의 디스크 참조횟수의 감소 효과가 있음을 알 수 있다.

Keywords