RSP-DS: Real Time Sequential Patterns Analysis in Data Streams

RSP-DS: 데이터 스트림에서의 실시간 순차 패턴 분석

  • 신재진 (인하대학교 컴퓨터정보공학과) ;
  • 김호석 (인하대학교 컴퓨터정보공학과) ;
  • 김경배 (서원대학교 컴퓨터교육과) ;
  • 배해영 (인하대학교 컴퓨터정보공학과)
  • Published : 2006.09.01

Abstract

Existed pattern analysis algorithms in data streams environment have researched performance improvement and effective memory usage. But when new data streams come, existed pattern analysis algorithms have to analyze patterns again and have to generate pattern tree again. This approach needs many calculations in real situation that needs real time pattern analysis. This paper proposes a method that continuously analyzes patterns of incoming data streams in real time. This method analyzes patterns fast, and thereafter obtains real time patterns by updating previously analyzed patterns. The incoming data streams are divided into several sequences based on time based window. Informations of the sequences are inputted into a hash table. When the number of the sequences are over predefined bound, patterns are analyzed from the hash table. The patterns form a pattern tree, and later created new patterns update the pattern tree. In this way, real time patterns are always maintained in the pattern tree. During pattern analysis, suffixes of both new pattern and existed pattern in the tree can be same. Then a pointer is created from the new pattern to the existed pattern. This method reduce calculation time during duplicated pattern analysis. And old patterns in the tree are deleted easily by FIFO method. The advantage of our algorithm is proved by performance comparison with existed method, MILE, in a condition that pattern is changed continuously. And we look around performance variation by changing several variable in the algorithm.

데이터 스트림에 대한 기존의 패턴 분석 알고리즘은 대부분 속도 향상과 효율적인 메모리 사용에 대하여 연구되어 왔다. 그러나 기존의 연구들은 새로운 패턴을 가진 데이터 스트림이 입력되었을 경우, 이 전에 분석된 패턴을 버리고 다시 패턴을 분석하여야 한다. 이러한 방법은 데이터의 실시간적인 패턴 분석을 필요로 하는 실제 환경에서는 많은 속도와 계산 비용이 소모된다. 본 논문에서는 끊임없이 입력되는 데이터 스트림의 패턴을 실시간으로 분석하는 방법을 제안한다. 이 것은 먼저 빠르게 패턴을 분석하고 그 다음부터는 이전에 분석된 패턴을 효율적으로 갱신하여 실시간적인 패턴을 얻어내는 방법이다. 데이터 스트림이 입력되면 시간 기반 윈도우로 나누어 여러 개의 순차들을 생성한다. 그리고 생성된 순차들의 정보는 해시 테이블에 입력되어 정해진 개수의 순차가 해시 테이블에 채워질 때마다 해시 테이블에서 패턴을 분석해 낸다. 이렇게 분석된 패턴은 패턴 트리를 형성하게 되고, 이 후에 새로 분석된 패턴들은 이 패턴 트리 안의 패턴 별로 갱신하여 현재 패턴을 유지하게 된다. 새로운 패턴 추가를 위해 패턴을 분석할 때 이전에 이미 발견된 패턴이 Suffix로 나올 수 있다. 그러면 패턴 트리에서 이 전 패턴으로의 포인터를 생성하여 중복되는 패턴 분석으로 인한 계산 시간의 낭비를 방지한다. 그리고 FIFO방법을 사용하여 오랫동안 입력이 안 된 패턴을 손쉽게 제거한다. 패턴이 조금씩 바뀌는 데이터 스트림 환경에서 RSP-DS가 기존의 알고리즘보다 우수하다는 것을 성능 평가를 통하여 증명하였다. 또한 패턴 분석을 수행할 데이터 순차의 개수와 자주 등장하는 데이터를 판별하는 기준을 조절하여 성능의 변화를 살펴보았다.

Keywords