Trend-based Sequential Pattern Discovery from Time-Series Data

시계열 데이터로부터의 경향성 기반 순차패턴 탐색

  • 오용생 (포항공과대학교 정보통신학과 연구원) ;
  • 이동하 (포항공과대학교 정보통신연구소 연구원) ;
  • 남도원 (포항공과대학교 전자컴퓨터공학부 연구원) ;
  • 이전영 (포항공과대학교 전자컴퓨터공학부)
  • Published : 2001.06.01

Abstract

Sequential discovery from time series data has mainly concerned about events or item sets. Recently, the research has stated to applied to the numerical data. An example is sensor information generated by checking a machine state. The numerical data hardly have the same valuers while making patterns. So, it is important to extract suitable number of pattern features, which can be transformed to events or item sets and be applied to sequential pattern mining tasks. The popular methods to extract the patterns are sliding window and clustering. The results of these methods are sensitive to window sine or clustering parameters; that makes users to apply data mining task repeatedly and to interpret the results. This paper suggests the method to retrieve pattern features making numerical data into vector of an angle and a magnitude. The retrieved pattern features using this method make the result easy to understand and sequential patterns finding fast. We define an inclusion relation among pattern features using angles and magnitudes of vectors. Using this relation, we can fad sequential patterns faster than other methods, which use all data by reducing the data size.

데이터마이닝에서 시계열 데이터로부터 순차패턴을 발견하는 연구는 사건이나 아이템이 주로 연구되어왔지만, 최근에는 설비의 상태를 알 수 있는 센서와 같은 수치 값의 형태를 가지는 분야에 관심을 가지게 되었다. 그러나 수치 형태의 데이터는 패턴을 만드는 동안 동일한 값을 가지는 경우가 거의 없기 때문에 기존의 사건이나 아이템 등으로 변환될 수 있는 패턴요소의 특징을 만드는 것이 가장 중요하다. 이러한 패턴요소를 발견하는 지금가지 방법은 이동 윈도우와 클러스터링을 사용하는 방법을 적용하였는데, 이러한 방법은 다양한 윈도우의 크기와 클러스터 값을 적용하여 반복적으로 작업을 하며, 찾아진 결과를 해석하는데도 많은 문제가 있다. 본 연구는 수치 값을 가진 데이터를 벡터의 형태로 만들어 패턴요소를 만드는 방법을 제시한다. 이렇게 만들어진 패턴요소는 전체 데이터를 사용하는 것 보다 이해되기 쉽고 보다 빠르게 순차패턴을 찾을 수 있다. 벡터로 변환된 패턴요소는 각도와 크기를 가지는데 우리는 이들 벡터들의 상호 연관성을 정의하고, 이들 연관성을 이용하여 순차패턴을 찾는 방법을 제시한다.

Keywords

References

  1. 한국지능정보시스템학회논문지 v.4 no.1 시계열 데이터의 성격과 예측모델의 예측력에 관한 연구 이원하;최종국
  2. 한국정보과학회 데이터베이스연구회 가을 학술발표논문집 시퀀스 데이터베이스에서 시간왜곡 변환에 기반하는 서브시퀀스 탐색 박상현;김상욱;노웅기
  3. Foundations of Data Organization and Algorithms, 4th International Conference,(FODO'93) Efficient Similarity Search In Sequence Databases R. Agrawal;C. Faloutsos;A. Swami
  4. Proceedings of the 21ST International Conference on Very Large Data Bases(VLDB'95) Fast Similarity Search in the Presence of Noise, Scaling, and Translation in Time-Series Databases R. Agrawal;K.-P. Lin;H.S. Sawhney;K. Sim
  5. Proceedings of the 21st International Conference on Very Large Data Bases(VLDB’’95) Querying Shapes of Histories R. Agrawal;G. Psaila;E.L. Wimmers
  6. 11TH International Conference on Data Engineering(ICDE’’95) Mining Sequential Patterns R. Agrawal;R.Srikant
  7. Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining(KDD’’98) Rule Discovery from Time Series G. Das;K.-I. Lin;H. Mannila
  8. Principles and Practice of Knowledge Discovery in Databases(PKDD99) Scaling up Dynamic Time Warping to Massive Datasets J. Eamonn;E. Keogh;M. Pazzani
  9. Proceedings of the 1994 ACM SIGMOD International Conference on Management of Data Fast Subsequence Matching in Time-Series Databases C. Faloutsos;M. Ranganathan;Y. Manolopoulos
  10. Proceedings of the 4rd International Conference on Knowledge Discovery and Data Mining(KDD’’98) An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback E. Keogh;M.Pazzani
  11. Proceeding of the 11th International Conference on Scientific and Statistical Database Management An Indexing Scheme for Fast Similarity Search in Large Time Series Database E. Keogh;M. Pazzani
  12. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining(KDD’’96) Discovering generalized episodes using minimal occurrences H. Mannila;H. Toivonen
  13. Proceedings of the First International Conference on Knowledge Discovery and Data Mining(KDD’’95) Discovering frequent episodes in sequence H. Mannila;H. Tovonen;A. Verkamo
  14. Proceedings of the Seventeenth International Conference on Data Engineering(ICDE2001) Duality-Based Subsequence Matching in Time-Series Databases Y. S. Moon;K. Y. Whang;W. K. Loh
  15. 5th International Conference Extending Database Technology Mining Sequential Patterns: Generalizations and Performance Improvements R. Srikant;R. Agrawal