연속적 I/O와 클러스터 인덱싱 구조를 이용한 이미지 데이타 검색 연구

A study on searching image by cluster indexing and sequential I/O

  • 김진옥 (성균관대학교 대학원 전기전자 및 컴퓨터공학부) ;
  • 황대준 (성균관대학교 전기전자 및 컴퓨터공학과)
  • 발행 : 2002.10.01


이미지, 비디오, 오디오와 같은 멀티미디어 데이터들은 텍스트기반의 데이터에 비하여 대용량이고 비정형적인 특성때문에 검색이 어렵다. 또한 멀티미디어 데이터의 특징은 행렬이나 벡터의 형태로 표현되기 때문에 완전일치 검색이 아닌 유사 검색을 수행하여 원하는 이미지와 유사한 이미지를 검색해야 한다. 본 논문에서는 멀티미디어 데이터 검색에 클러스터링과 인덱싱 기법을 같이 적용하여 유사한 이미지는 인접 디스크에 클러스터하고 이 클러스터에 접근하는 인덱스를 구축함으로써 이미지 근처의 클러스터를 찾아 빠른 검색 결과를 제공하는 유사 검색방법을 제시한다. 본 논문에서는 트리 유사 구조의 인덱스 대신 해싱 방법을 이용하며 검색시 I/O 시간을 줄이기 위해 오브젝트를 가진 클러스터 위치를 찾는데 한번의 I/O를 사용하고 이 클러스터를 읽기 위해 연속적인 파일 I/O를 사용하여 클러스터를 찾는 비용을 최소화한다. 클러스터 인덱싱 접근은 클러스터링을 생성하는 알고리즘과 해싱 기법의 인덱싱을 이용함으로써 고차원 데이터가 갖는 차원의 문제를 해결하며 클러스터링 또는 인덱싱 만을 이용하는 내용기반의 이미지 검색보다 효율적인 검색 적합성을 보인다.

There are many technically difficult issues in searching multimedia data such as image, video and audio because they are massive and more complex than simple text-based data. As a method of searching multimedia data, a similarity retrieval has been studied to retrieve automatically basic features of multimedia data and to make a search among data with retrieved features because exact match is not adaptable to a matrix of features of multimedia. In this paper, data clustering and its indexing are proposed as a speedy similarity-retrieval method of multimedia data. This approach clusters similar images on adjacent disk cylinders and then builds Indexes to access the clusters. To minimize the search cost, the hashing is adapted to index cluster. In addition, to reduce I/O time, the proposed searching takes just one I/O to look up the location of the cluster containing similar object and one sequential file I/O to read in this cluster. The proposed schema solves the problem of multi-dimension by using clustering and its indexing and has higher search efficiency than the content-based image retrieval that uses only clustering or indexing structure.



  1. P. Aigrain, H. Zang and D. Petkovic, 'Content based representaiton and retrieval of visual media: A State-of-the-Art Review,' Multimedia Tools and Applications, Vol.3, pp. 179-202, 1996
  2. James Z. Wang and Jia Li, Gio Wiederhold, 'SIMPLIcity: Semantics-sensitive Integrated Matching for Picture LIbraries,' IEEE Trans. PAMI, Vol.23, No.9, pp.947-963, 2001
  3. M. Carson, S. Thomas, J. Belongie, M. Hellerstein, and J. Malik, 'Blobworld : A system for region-based image indexing and retrieval,' In Proceeding of International Conference Visual Information System, 1999
  4. M. Flickner, H. Sawhney, W. Niblack, J. Ashley, Q. Huang, and et al, 'Query by image and video content: the QBIC system,' IEEE Computer, Vol.28(9), pp.23-32, 1995
  5. R. Weber, H. Schek and S. Blott, 'A quantitative analysis and performance study for similarity-search methods in high-dimensional spaces,' In Proceeding of the 24th VLDB, pp.194-205, 1998
  6. J. M. Kleinberg, 'Two algorithms for nearest-neighbor search in high dimensions,' Proceeding of 29th Symposium on Theory of Computing, 1997
  7. W. Y. Ma and B. S. Manjunath, 'Netra : A toolbox for navigating large image database,' IEEE International Conference on Image Processing, 1997
  8. J. R. Smith and S. F. Chang, 'VisualSeek : A fully automated content-based image query system,' Multimedia, Boston, 1996
  9. A. Hampapur, A. Gupta, B. Horowitz, C. Fuller, J. R. Bach M. Gorkani, and R. C. Jain, 'Virage : virage video engine,' In Proceeding of SPIE, Vol.30(22), pp.188-198, Februry, 1997
  10. T. Kohonen, 'Sel-Organizing Maps Springer,' Berlin, Heidelberg(2nd extended edition), 1997
  11. J. A. Hartigan and M. A. Wong, 'A K-means clustering algorithm,' Applied Statistics 28, pp.100-108, 1979
  12. T. Zhang, R. Ramakrishnan and M. Liny, 'Birch: An efficient data clustering method for very large databases,' Proceeding of SIGMOD, June, 1996
  13. J. Han and M. Kamber, 'Data mining, Concepts & Techniques,' Morgan Kaufman, 2001
  14. M. Ester, H. P. Kriegel, J. Sander and X. Xu, 'A density-based algorithm for discovering clusters in large spatial databases with noise,' Proceeding of the 2nd International Conference on Knowledge Discovery in Databases and Data Mining, August, 1996
  15. S. Guha, R. Rastogi and K. Shim, 'CURE: An efficient clustering algorithm for large databases,' In Proceeding of SIGMOD98, 1998
  16. A. Guttman, 'R-tree : A dynamic index structure for spatial searching,' In Proceeding of SIGMOD, June, 1984
  17. N. Beckmann, H. P. Kriegel, R. Schneider and B. Seeger, 'The $R^*$-tree: An efficient and robust access method for points and rectangles,' In Proceeding of SIGMOD, May, 1990
  18. N. Katayama and S. Sotoh, 'The SR-tree : An index structure for high-dimensional nearest neighbor queries,' In Proceeding of SIGMOD, May, 1997
  19. S. Berchtold, 'The X -tree : An index structure for high-demensional data,' Proceedings of the 22nd VLDB, August, 1996
  20. P. Ciaccia, M. Patella and P. Zezula, 'M -tree: An efficient access method for similarity search in metric spaces,' Proceedings of the 23rd VLDB, August, 1997
  21. R. Weber and S. Blott, 'A Approximation-based Data Structure for Similarity Search,' Technical Report, No.24, ESPRIT project HERMES, No.9141, Oct., 1997
  22. J. Ullman, H. Garcia-Molina and J. Widom, 'Database system principles lecture notes,' 1998
  23. 김진옥, 황대준, '클러스터인덱싱을 이용한 이미지 데이타 검색연구', 정보처리학회 2002 춘계학술대회논문집(상), 제9권 제1호, pp.97-100, 2002
  24. A. Gersho and R. Gray, 'Vector quantization and signal compression,' Kluwer Academic, 1991
  25. 장동식, 정세환, 유헌우, 손용준, 'VQ를 이용한 영상의 객체 특징 추출과 이를 이용한 내용기반 영상 검색', 정보과학회논문지 : 컴퓨팅의 실제, Vol.7(6), pp.724-732, 2001
  26. E. Chang, C. Li, J. Wang, P. Mork and G. Wiederhold, 'Searching Near-Replicas of Images via Clustering,' Proceedings of SPIE Symposium of Voice, Video, and Data Communications, Boston, pp.281-92, September, 1999