DOI QR코드

DOI QR Code

패턴의 변화를 가지는 연속성 데이터를 위한 스트리밍 의사결정나무

Streaming Decision Tree for Continuity Data with Changed Pattern

  • 윤태복 (성균관대학교 컴퓨터공학과) ;
  • 심학준 (성균관대학교 컴퓨터공학과) ;
  • 이지형 (성균관대학교 컴퓨터공학과) ;
  • 최영미 (성결대학교 멀티미디어공학부)
  • 투고 : 2009.11.30
  • 심사 : 2010.02.03
  • 발행 : 2010.02.25

초록

데이터 마이닝(Data Mining)은 환경으로부터 수집된 데이터에서 패턴을 추출하고 의미 있는 정보를 발견하기 위하여 주로 사용된다. 하지만, 기존의 방법은 데이터의 수집이 완료된 상태에서 분석하는 것을 기반으로 하고 있으며, 시간의 흐름에 따른 패턴의 변화를 반영하기 어렵다. 본 논문은 연속성(Continuity data), 대량성(Large scale) 그리고 패턴의 가변성(Changed pattern)과 같은 특성을 가지는 스트림 데이터(Stream Data)의 분석을 위한 스트리밍 의사결정 나무(Streaming Decision Tree : SDT) 방법을 소개한다. SDT는 연속적으로 발생하는 데이터를 블록으로 정의하고, 각 블록은 의사결정나무 학습 방법을 이용하여 규칙을 추출한다. 추출된 규칙은 발생 시간, 빈도 그리고 모순 등을 고려하여 결합하였다. 실험에서는 시계열 데이터를 이용하여 분석하였고, 적절한 결과를 확인하였다.

Data Mining is mainly used for pattern extracting and information discovery from collected data. However previous methods is difficult to reflect changing patterns with time. In this paper, we introduce Streaming Decision Tree(SDT) analyzing data with continuity, large scale, and changed patterns. SDT defines continuity data as blocks and extracts rules using a Decision Tree's learning method. The extracted rules are combined considering time of occurrence, frequency, and contradiction. In experiment, we applied time series data and confirmed resonable result.

키워드

참고문헌

  1. U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, "Knowledge Discorvery and Data Mining : Towards a Unifying Framework", KDD-96, 1996.
  2. B. Babcock, S. Babu, M. Datar, R. Motwani, J. Widom, "Models and issues in data stream systems", ACM SIGMOD-SIGACT-SIGART Symposium on principles of database systems, 2002.
  3. 김진화, 민진영, "연속발생 데이터를 위한 실시간 데이터 마이닝 기법", 한국경영과학회지, 2004.
  4. A. Jain, "Statistical Mining in Data Streams", Ph.D. Dissertation, University of California, Santa Barbara, 2006.
  5. L. Golab, M. Tamer Ozsu, "Issues in Data Stream Management", SIGMOD Record, Vol. 32, No. 2, 2003.
  6. UCI Machine Learning Repository Web site : http://archive.ics.uci.edu/ml/
  7. P. Domingos and G. Hulten. "Mining high-speed data streams", In Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2000.
  8. J. Ross Quinlan, "C4.5: Programs for Machine Learning", Morgan Kaufmann, 1992.
  9. S. Hashemi and Y. Yang, "Flexible decision tree for data stream classification in the presence of concept change, noise and missing values", Data Mining and Knowledge Discovery, Vol. 19, No. 1, 2009.
  10. C. C. Aggarwal, "Data Streams Models and Algorithms, Chapter 1 : AN INTRODUCTION TO DATA STREAMS", Springer US, 2007.