A Parameter-Free Approach for Clustering and Outlier Detection in Image Databases

이미지 데이터베이스에서 매개변수를 필요로 하지 않는 클러스터링 및 아웃라이어 검출 방법

  • Oh, Hyun-Kyo (Department of Electronics and Computer Engineering, Hanyang University) ;
  • Yoon, Seok-Ho (Department of Electronics and Computer Engineering, Hanyang University) ;
  • Kim, Sang-Wook (Department of Electronics and Computer Engineering, Hanyang University)
  • 오현교 (한양대학교 전자컴퓨터통신공학과) ;
  • 윤석호 (한양대학교 전자컴퓨터통신공학과) ;
  • 김상욱 (한양대학교 전자컴퓨터통신공학과)
  • Published : 2010.01.25

Abstract

As the volume of image data increases dramatically, its good organization of image data is crucial for efficient image retrieval. Clustering is a typical way of organizing image data. However, traditional clustering methods have a difficulty of requiring a user to provide the number of clusters as a parameter before clustering. In this paper, we discuss an approach for clustering image data that does not require the parameter. Basically, the proposed approach is based on Cross-Association that finds a structure or patterns hidden in data using the relationship between individual objects. In order to apply Cross-Association to clustering of image data, we convert the image data into a graph first. Then, we perform Cross-Association on the graph thus obtained and interpret the results in the clustering perspective. We also propose the method of hierarchical clustering and the method of outlier detection based on Cross-Association. By performing a series of experiments, we verify the effectiveness of the proposed approach. Finally, we discuss the finding of a good value of k used in k-nearest neighbor search and also compare the clustering results with symmetric and asymmetric ways used in building a graph.

이미지 데이터가 증가함에 따라 효율적인 검색을 위해서 이미지 데이터를 구조화해야 할 필요성이 증가하고 있다. 이미지 데이터를 구조화하기 위한 대표적인 방법으로는 클러스터링이 있다. 그러나 기존 클러스터링 방법들은 클러스터링을 수행하기 전에 매개변수로서 클러스터의 개수를 사용자로부터 제공 받아야 되는 어려움이 있다. 본 논문에서는 클러스터의 개수를 사용자에게 제공 받지 않고 이미지 데이터를 클러스터링 하는 방안에 대해서 논의 한다. 제안하는 방안은 객체들 간의 상호 연관관계를 이용하여 매개변수 없이 데이터의 감추어진 구조나 패턴을 찾아내는 방법인 Cross-Association을 기반으로 한다. 이미지 데이터 클러스터링에 Cross-Association을 적용하기 위해서는 먼저 이미지 데이터를 그래프로 변환해야 한다. 그런 후에 생성된 그래프를 Cross-Association에 적용시키고 그 결과를 클러스터링 관점에서 해석한다. 본 논문에서는 또한 Cross-Association을 기반으로 계층적 클러스터링 하는 방법과 아웃라이어 검출 방법을 제안한다. 실험을 통해서 제안하는 방법의 우수성을 규명하고 이미지 데이터를 클러스터링 하는데 적절한 k-최근접 이웃검색에서의 k값과 더 나은 그래프 생성 방법이 무엇인지를 제시한다.

Keywords

References

  1. Y. Gdalyahu, D. Weinshall, and M. Werman, "Self-Organization in Vision: Stochastic Clustering for Image Segmentation, Perceptual Grouping, and Image Database Organization," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 23, No. 10, pp. 1053-1074, 2001. https://doi.org/10.1109/34.954598
  2. Y. Chen, J. Wang, and R. Krovetz, "CLUE: Cluster-Based Retrieval of Images by Unsupervised Learning," IEEE Trans. Image Processing, Vol. 14, No. 8, pp. 1187-1201, 2005. https://doi.org/10.1109/TIP.2005.849770
  3. J. Han and M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann, 2006.
  4. S. Guha, R. Rastogi, and K. Shim, "CURE: An Efficient Clustering Algorithm for Large Databases," In Proc. of ACM SIGMOD Int'l. Conf. on Management of Data, pp. 73-84, 1998.
  5. T. Zhang, R. Ramakrishnan, and M. Livny, "BIRCH: An Efficient Data Clustering Method for Very Large Databases," In Proc. of ACM SIGMOD Int'l. Conf. on Management of Data, pp. 103-114, 1996.
  6. G. Karypis, E. H. Han, and V. Kumar, "Chameleon: A Hierarchical Clustering Algorithm Using Dynamic Modeling," IEEE Computer, Vol. 32, No. 8, pp. 68-75, 1999. https://doi.org/10.1109/2.781637
  7. D. Chakrabarti, S. Papadimitriou, D. S. Modha, C. Faloutsos, "Fully Automatic Crossssociations," In Proc. Int'l Conf. on Knowledge Discovery and Data Mining, pp. 79-88, 2004.
  8. P. Grunwald, A Tutorial Introduction To The Minimum Description Length Principle, MIT Press, 2005.
  9. S. Papadimitriou, J. Sun, P. S. Yu, C. Faloutsos, "Hierarchical, parameter-free community discovery," In Proc. of ECML PKDD, page 170-187, 2008.
  10. D. Chakrabarti, "Autopart: Parameter-free graph partitioning and outlier detection," In Proc. of ECML PKDD, pages 112–124, 2004.
  11. K. Beyer, J. Goldstein, R. Ramakrishnan, U. Shaft, "When Is Nearest Neighbor Meaningful?," In Proc. Int'l Conf. on Database Theory, pp. 217-235, 1999.
  12. 이 재호, 장 민희, 김 두열, 김 상욱, 김 민호, 최 진성, "Shader Space Navigator: 유사 쉐이더 검색 시스템," 대한전자공학회논문지, Vol. 45, No. 3, pp. 198-207, 2008년 5월.
  13. W. Niblack, R. Barber, W. Equitz, M. Flickner, E. H. Clasman, D. Petkovic, P. Yanker, C. Faloutsos, G. Taubin, "The QBIC Project: Querying Images by Content using Color, Texture, and Shape," In Proc. of Storage and Retrieval for Image and Video Databases, pp. 173-187, 1993.