DOI QR코드

DOI QR Code

2차원 배열 데이터에서 유사 구역의 효율적인 탐색 기법

An Efficient Method for Finding Similar Regions in a 2-Dimensional Array Data

  • 투고 : 2016.12.15
  • 심사 : 2017.01.01
  • 발행 : 2017.04.30

초록

여러 과학 분야에서 측정 또는 시뮬레이션의 결과로 2차원 배열 데이터가 활발히 생성되고 있다. 현재 배열 데이터에 대한 다양한 질의 처리 기법들이 연구되고 있으나 2차원 배열 데이터에서 크기가 미리 알려져 있지 않은, 값이 서로 유사한 구역을 찾는 문제는 거의 다루어지지 않았다. 따라서 본 논문에서는 주어진 2차원 배열 데이터에서 사용자가 지정한 값 이상의 크기를 갖는, 원소 값들이 서로 유사한 구역을 빠르게 찾는 방법을 제안한다. 본 논문의 제안 방법은 2차원 배열의 각 원소 쌍에 대해, 해당 원소로만 이루어진 크기가 1인 구역부터 시작하여 두 구역을 동일한 모양을 유지하면서 오른쪽 및 아래쪽으로 단계적으로 확장시켜나간다. 만약 두 구역의 값의 차이가 사용자가 지정한 값 이상으로 커지면 확장을 중단한다. 따라서 제안 방법은 배열에서 유사 구역이 될 가능성이 있는 부분들만 접근하여 유사 구역을 효율적으로 찾아낼 수 있다. 본 논문에서는 성능 분석과 다양한 실험을 통해 제안 방법이 매우 효율적으로 유사 구역을 찾을 수 있음을 보인다.

In various fields of science, 2-dimensional array data is being generated actively as a result of measurements and simulations. Although various query processing techniques for array data are being studied, the problem of finding similar regions, whose sizes are not known in advance, in 2-dimensional array has not been addressed yet. Therefore, in this paper, we propose an efficient method for finding regions with similar element values, whose size is larger than a user-specified value, for a given 2-dimensional array data. The proposed method, for each pair of elements in the array, expands the corresponding two regions, whose initial size is 1, along the right and down direction in stages, keeping the shape of the two regions the same. If the difference between the elements values in the two regions becomes larger than a user-specified value, the proposed method stops the expansion. Consequently, the proposed method can find similar regions efficiently by accessing only those parts that are likely to be similar regions. Through theoretical analysis and various experiments, we show that the proposed method can find similar regions very efficiently.

키워드

참고문헌

  1. The Sloan Digital Sky Survey [Internet], http://www.sdss.org/.
  2. Palomar Transient Factory [Internet], http://www.ptf.caltech.edu/.
  3. YeonJeong Choe and Ki Yong Lee, "Efficient Search of Similar Regions in Two-Dimensional Array Data," KIPS Fall Conference, November, 2016.
  4. Agrawal, Rakesh, Christos Faloutsos, and Arun Swami, "Efficient similarity search in sequence databases," International Conference on Foundations of Data Organization and Algorithms, Springer Berlin Heidelberg, 1993.
  5. Li, Ming, Bin Ma, and Lusheng Wang, "Finding similar regions in many strings," Proceedings of the thirty-first annual ACM symposium on Theory of computing, ACM, 1999.
  6. N. Kumar, L. Zhang, and S. K. Nayar, "What is a good nearest neightbors algorithm for finding similar patches in images?" in European Conference on Computer Vision (ECCV), II: 364-378, 2008.
  7. Q. Lv, M. Charikar, and K. Li, "Image Similarity Search with Compact Data Structures," in CIKM'04, November 8-13, 2004.
  8. Ming Li, Bin Ma, and Lusheng Wang, "Finding Similar Regions in Many Sequences," Journal of Computer and System Sciences, Vol.65, pp.73-96, 2002. https://doi.org/10.1006/jcss.2002.1823
  9. C. Sheng and Y. Zheng, "Answering Top-k Similar Region Queries," Database Systems for Advanced Applications, Lecture Notes in Computer Science, 5981:186-201, 2010.
  10. L. Jiang, H. Kawashima, and O. Tatebe, "Incremental Window Aggregates over Array Database," IEEE International Conference on Big Data, 2004.
  11. D. V. Kalashnikov, "Super-EGOL fast multi-dimensional similarity join," VLDB Journal, Vol.4, No.2, pp.561-585, 2013.
  12. Weijie Zhao, Florin Rusu, Bin Dong Kesheng Wu, "Similarity Join over Array Data," in Proceedings of ACM SIGMOD, 2016.
  13. Divisor function [Internet], https://en.wikipedia.org/wiki/Div isor_function.