Design and Performance Analysis of Signature-Based Hybrid Spill-Tree for Indexing High Dimensional Vector Data

고차원 벡터 데이터 색인을 위한 시그니쳐-기반 Hybrid Spill-Tree의 설계 및 성능평가

  • 이현조 (전북대학교 컴퓨터공학과) ;
  • 홍승태 (전북대학교 컴퓨터공학과) ;
  • 나소라 (전북대학교 컴퓨터공학과) ;
  • 장유진 (전북대학교 컴퓨터공학과) ;
  • 장재우 (전북대학교 전기전자컴퓨터공학부) ;
  • 심춘보 (순천대학교 정보통신공학부)
  • Published : 2009.12.31

Abstract

Recently, video data has attracted many interest. That is the reason why efficient indexing schemes are required to support the content-based retrieval of video data. But most indexing schemes are not suitable for indexing a high-dimensional data except Hybrid Spill-Tree. In this paper, we propose an efficient high-dimensional indexing scheme to support the content-based retrieval of video data. For this, we extend Hybrid Spill-Tree by using a newly designed clustering technique and by adopting a signature method. Finally, we show that proposed signature-based high dimensional indexing scheme achieves better retrieval performance than existing M-Tree and Hybrid Spill-Tree.

최근 UCC를 중심으로 동영상 데이터에 대해 사람들의 관심이 증가하고 있다. 따라서 동영상 데이터의 내용-기반 검색을 지원하는 효율적인 색인 기법이 요구된다. 그러나 Hybrid Spill-Tree를 제외한 대부분의 색인 기법들은 대용량의 고차원 데이터를 다루는데 비효율적이다. 본 논문에서는 동영상 데이터의 내용-기반 검색을 지원하기 위한 효율적인 고차원 색인 기법을 제안한다. 제안하는 고차원 색인 기법은 기존 Hybrid Spill-Tree을 기반으로 새롭게 제안하는 클러스터링 방법과 시그니쳐를 이용한 데이터 저장 방법을 결합하여 확장된 색인 기법이다. 또한 제안하는 시그니쳐-기반 고차원 색인 기법이 기존 M-Tree 및 Hybrid Spill-Tree에 비해 성능이 우수함을 보인다.

Keywords

References

  1. S. Berchtold, D. A. Keim and H-P. Kriegel, "TheX-tree : An Index Structure for High-DimensionalData", Proceedings of the 22nd VLDB Conference,pp.28-39, 1996.
  2. H.I. Lin, H. Jagadish, and C. Faloutsos, "TheTV-tree : An Index Structure for High DimensionalData", VLDB Journal, Vol. 3, pp.517-542, 1995. https://doi.org/10.1007/BF01231606
  3. P. Ciaccia, M. Patella, and P. Zezula, "M-tree: Anefficient access method for similarity search inmetric spaces", In Proc. of the Int. Conference onVery Large Databases, 1997.
  4. Ting Liu, Andrew W. Moore, Alexander Gray andKe Yang, "An Investigation of PracticalApproximate Nearest Neighbor Algorithms", Inproceedings of Neural Information ProcessingSystems(NIPS 2004), Vancouver, 2004
  5. Ting Liu, Charles Rosenberg, Henry A. Rowley,"Clustering Billions of Images with Large ScaleNearest Neighbor Search", IEEE Workshop onApplications of Computer Vision, 2007
  6. Jiangtao Cui, Shuisheng Zhou, and Shan Zhao1,"PCR-tree: a Compression-based Index Structurefor Similarity Searching in High-dimensional ImageDatabases", Fuzzy Systems and Knowledge Discovery(FSKD), 2007.
  7. Hyun Hwa Choi, Hun Soon Lee, Kyeong Hyeon Park, and Mi Young Lee, “GLORY-DB: A Distributed Data Management System for Large Scale High-Dimensional Data", The 23rd International Technical Conference on Circuits/Systems, 2008.
  8. 이규웅, 이훈순, 이미영, 김명준, “클러스터 파일시스템의 고확장성 지원을 위한 고차원 인덱스기법”, 한국정보기술학회논문지 제6권 제6호,pp. 209-217, 2008.
  9. Roger Weber, Hans-J. Schek, Stephen Blott, "A Quantitative Analysis and Performance Study for Similarity-Search Methods in High-Dimensional Spaces", submitted publication, 1998.
  10. 송광택, 장재우, "고차원 멀티미디어 데이터에 대한 근사 k-최근접 데이터 탐색 알고리즘의 설계", 한국 데이터베이스 학술대회 논문집, Vol.15, No. 1, pp.261-265, 1999.
  11. 장재우, 한성근, 김현진, “셀 기반 필터링 방법을 이용한 고차원 색인 기법”, 정보과학회 논문지제 28권 2호, pp.204-216, 2001.
  12. http://www.autonlab.org/autonweb/15960.html