An Effective Method for Approximating the Euclidean Distance in High-Dimensional Space

고차원 공간에서 유클리드 거리의 효과적인 근사 방안

  • Jeong, Seung-Do (Dept. of Electronics and Computer Engineering, Hanyang University) ;
  • Kim, Sang-Wook (College of Information and Communications, Hanyang University) ;
  • Kim, Ki-Dong (Dept. of Industrial Engineering, Kangwon National University) ;
  • Choi, Byung-Uk (College of Information and Communications, Hanyang University)
  • 정승도 (한양대학교 전자통신컴퓨터공학과) ;
  • 김상욱 (한양대학교 정보통신대학) ;
  • 김기동 (강원대학교 산업공학과) ;
  • 최병욱 (한양대학교 정보통신대학)
  • Published : 2005.09.25

Abstract

It is crucial to compute the Euclidean distance between two vectors efficiently in high dimensional space for multimedia information retrieval. In this paper, we propose an effective method for approximating the Euclidean distance between two high-dimensional vectors. For this approximation, a previous method, which simply employs norms of two vectors, has been proposed. This method, however, ignores the angle between two vectors in approximation, and thus suffers from large approximation errors. Our method introduces an additional vector called a reference vector for estimating the angle between the two vectors, and approximates the Euclidean distance accurately by using the estimated angle. This makes the approximation errors reduced significantly compared with the previous method. Also, we formally prove that the value approximated by our method is always smaller than the actual Euclidean distance. This implies that our method does not incur any false dismissal in multimedia information retrieval. Finally, we verify the superiority of the proposed method via performance evaluation with extensive experiments.

고차원 공간상의 벡터들 간의 유클리드 거리를 빠르게 계산하는 것은 멀티미디어 정보 검색을 위하여 매우 중요하다. 본 논문에서는 고차원 공간상의 두 벡터들 간의 유클리드 거리를 효과적으로 근사하는 방법을 제안한다. 이러한 근사를 위하여 두 벡터들의 놈(norm)을 사용하는 방법이 기존에 제안된 바 있다. 그러나 기존의 방법은 두 벡터간의 각도 성분을 무시하므로 근사 오차가 매우 커지는 문제점을 가진다. 본 연구에서 제안하는 방법은 기준 벡터라 부르는 별도의 벡터를 이용하여 추정된 두 벡터간의 각도 성분을 그들을 위한 유클리드 거리 근사에 사용한다. 이 결과, 각도 성분을 무시하는 기존의 방법과 비교하여 근사 오차를 크게 줄일 수 있다. 또한, 제안된 방법에 의한 근사 값은 유클리드 거리 보다 항상 작다는 것을 이론적으로 증명하였다. 이는 제안된 방법을 이용하여 멀티미디어 정보 검색을 수행할 때 착오 기각이 발생하지 않음을 의미하는 것이다. 다양한 실험에 의한 성능 평가를 통하여 제안하는 방법의 우수성을 규명한다.

Keywords

References

  1. R. Agrawal, C. Faloutsos, A. Swami, 'Efficient Similarity Search in Sequence Database,' in Proc. of the 4th Int'l Conference on Foundations of Data Organization and Algorithms, pp. 69-84, Oct. 1993
  2. K. S. Beyer, J. Goldstein, R. Ramakrishnan, and U. Shaft, 'When Is 'Nearest Neighbor' Meaningful?,' in Proc. the 7th International Conference on Database Theory (ICDT '99), pp. 217-235, Jan. 1999
  3. C. Bohm, S. Berchtold and D. A. Keim, 'Searching in High-Dimensional Spaces-IndexStructures for Improving the Performance of Multimedia Databases,' ACM Computing Surveys (CSUR) Vol. 33, Issue 3, pp. 322-373, Sep. 2001 https://doi.org/10.1145/502807.502809
  4. O. Egecioglu and H. Ferhatosmanoglu, 'Dimensionality Reduction and Similarity Computation by Inner Product Approximations,' in Proc. the 9th ACM Interational Conference on Information and Knowledge Management, pp. 219-226, Nov. 2000 https://doi.org/10.1145/354756.354822
  5. O. Egecioglu, 'Parametric Approximation Algorithms for High-dimensional Euclidean Similarity,' in Proc. of the 5-th European Conference on Principles of Data Mining and Knowledge Discovery, (PKDD 2001), pp. 79-90, Sep. 2001
  6. U. Y. Ogras and H. Ferhatosmanoglu, 'Dimensionality Reduction Using Magnitude and Shape Approximations,' in Proc. the Twelfth International Conference on Information and Knowledge Management, pp. 99-107, 2003 https://doi.org/10.1145/956863.956883
  7. C. Faloutsos, R. Barber, M. Flickner, W. Niblack, D. Petkovic, and W. Equitz, 'Efficient and Effective Querying By Image Content,' in Journal of Intelligent Information Systems, Vol. 3 No.3/4 pp. 231-262, Jul. 1994 https://doi.org/10.1007/BF00962238
  8. T. Seidl, and H.-P. Kriegel, 'Efficient User-adaptable Similarity Search in Large Multimedia Databases,' in Proc. 23rd Int. Conf. on Very Large Databases, pp. 506-515, Aug. 1997
  9. R. Weber, H. J. Schek, and S. Blott, 'A Quantitative Analysis and Performance Study for Similarity-Search Methods in High-Dimensional Spaces,' in Proc. 24rd International Conference on Very Large Data Bases (VLDB '98), pp. 194-205, Aug. 1998
  10. http://kdd.ics.uci.edu/databases/CorelFeatures/CorelFeatures.html