DOI QR코드

DOI QR Code

An Index-Based Search Method for Performance Improvement of Set-Based Similar Sequence Matching

집합 유사 시퀀스 매칭의 성능 향상을 위한 인덱스 기반 검색 방법

  • 이주원 (연세대학교 전산학과) ;
  • 임효상 (연세대학교 컴퓨터정보통신공학부)
  • Received : 2017.06.30
  • Accepted : 2017.07.26
  • Published : 2017.11.30

Abstract

The set-based similar sequence matching method measures similarity not for an individual data item but for a set grouping multiple data items. In the method, the similarity of two sets is represented as the size of intersection between them. However, there is a critical performances issue for the method in twofold: 1) calculating intersection size is a time consuming process, and 2) the number of set pairs that should be calculated the intersection size is quite large. In this paper, we propose an index-based search method for improving performance of set-based similar sequence matching in order to solve these performance issues. Our method consists of two parts. In the first part, we convert the set similarity problem into the intersection size comparison problem, and then, provide an index structure that accelerates the intersection size calculation. Second, we propose an efficient set-based similar sequence matching method which exploits the proposed index structure. Through experiments, we show that the proposed method reduces the execution time by 30 to 50 times then the existing methods. We also show that the proposed method has scalability since the performance gap becomes larger as the number of data sequences increases.

집합 유사 시퀀스 매칭 방법은 유사한 정도를 나타내는 척도로 교집합을 기반으로 한 유사도를 사용한다. 그러나 교집합 크기를 계산하는 과정에 시간이 오래 걸릴 뿐만 아니라, 유사한 시퀀스를 찾기 위해서 수많은 집합 간 교집합 크기를 구해야 하므로 수행 시간이 오래 걸리는 성능상의 문제가 있다. 본 논문에서는 이러한 성능상의 문제를 해결하기 위해 인덱스 기반의 검색 방법을 사용하여 집합 기반 유사 시퀀스 매칭을 빠르게 수행하는 방법을 제안한다. 제안하는 방법은 크게 두가지로 구분된다. 첫 번째로 집합 시퀀스 유사도 문제를 교집합의 크기 비교 문제로 정형적으로 변환하고, 교집합의 크기를 빠르게 찾을 수 있는 인덱스 구조를 제안한다. 두 번째로 제안한 인덱스 구조를 사용하여 집합 기반 유사 시퀀스 매칭을 효율적으로 수행할 수 있는 방법을 제안한다. 성능 평가 결과, 제안하는 방법이 기존 방법에 비해 최대 30배에서 50배의 수행 시간 단축이 있음을 보인다. 또한 데이터 시퀀스의 개수가 증가할수록 수행시간의 차이가 점점 커지므로, 대용량 데이터 처리에 적절함을 보인다.

Keywords

References

  1. Babcock, Brian et al., "Models and issues in data stream systems," Proceedings of the Twenty-First ACM SIGMOD-SIGACT- SIGART Symposium on Principles of Databased Systems, ACM, 2002.
  2. Eunji, Yeo, Juwon, Lee, and Hyo-Sang, Lim, "A Similar Data Stream Matching Method by Using the Concept of Item-Set Time Series," Korea Computer Congress, pp.237-239, 2016.
  3. Eunji, Yeo, "A Data Stream Similar Sequence Matching technique Using the Concept of Item Set and Hierarchy," M. Sc. thesis, Yonsei University, 2016.
  4. Eunji,Yeo, Juwon, Lee, and Hyo-Sang, Lim, "Set-based Subsequence Matching," KIISE SIGDB, Vol.32, No.3, pp.152-169, 2016.
  5. Juwon, Lee, Daewon, Kim, and Hyo-Sang Lim, "An index Technique for Efficiently Measuring Set Similarities," KIISE Winter Conference, pp.214-216, 2016.
  6. Jaccard, Paul, "Etude comparative de la distribution florale dans une portion des Alpes et du Jura. Impr. Corbaz, 1901.
  7. Sorensen, Thorvald, "A method of establishing groups of equal amplitude in plant sociology Indexedd on similarity of species and its application to analyses of the vegetation on Danish commons," Biol. Skr., 5, pp.1-34, 1948.
  8. Faloutsos, Christos, Mudumbai Ranganathan, and Yannis Manolopoulos, "Fast subsequence matching in time-series database," ACM, Vol.23, No.2, 1994.
  9. Yang-Sae, Moon, Kyu-Young Whang, and Woong-Kee Loh, "Efficient time-series subsequence matching using duality in constructing windows," Information Systems, Vol.26, No.4, pp.279-293, 2001. https://doi.org/10.1016/S0306-4379(01)00021-7