DOI QR코드

DOI QR Code

Finding Frequent Itemsets Over Data Streams in Confined Memory Space

한정된 메모리 공간에서 데이터 스트림의 빈발항목 최적화 방법

  • 김민정 (삼성전자 무선사업부 GSM 단말 MMI 개발) ;
  • 신세정 (연세대학교 컴퓨터과학과) ;
  • 이원석 (연세대학교 컴퓨터과학과)
  • Published : 2008.12.31

Abstract

Due to the characteristics of a data stream, it is very important to confine the memory usage of a data mining process regardless of the amount of information generated in the data stream. For this purpose, this paper proposes the Prime pattern tree(PPT) for finding frequent itemsets over data streams with using the confined memory space. Unlike a prefix tree, a node of a PPT can maintain the information necessary to estimate the current supports of several itemsets together. The length of items in a prime pattern can be reduced the total number of nodes and controlled by split_delta $S_{\delta}$. The size and the accuracy of the PPT is determined by $S_{\delta}$. The accuracy is better as the value of $S_{\delta}$ is smaller since the value of $S_{\delta}$ is large, many itemsets are estimated their frequencies. So it is important to consider trade-off between the size of a PPT and the accuracy of the mining result. Based on this characteristic, the size and the accuracy of the PPT can be flexibly controlled by merging or splitting nodes in a mining process. For finding all frequent itemsets over the data stream, this paper proposes a PPT to replace the role of a prefix tree in the estDec method which was proposed as a previous work. It is efficient to optimize the memory usage for finding frequent itemsets over a data stream in confined memory space. Finally, the performance of the proposed method is analyzed by a series of experiments to identify its various characteristics.

지속적으로 확장되는 데이터 스트림에 대한 데이터 마이닝 수행과정에서는 메모리 사용량을 가용한 범위 내로 제한하는 것이 중요한 요소이다. 본 논문에서는 데이터 스트림 환경에서 한정된 메모리 공간을 이용하여 빈발 항목집합을 탐색하는데 효과적인 프라임 패턴 트리(Prime pattern tree: PPT)구조를 제안한다. 프라임 패턴 트리는 기존의 전위 트리 구조와 비교하여 항목집합들을 하나의 노드로 관리함으로써 트리의 크기를 크게 줄일 수 있는 장점이 있다. 또한, 전지 임계값 $S_{\delta}$에 따라 노드를 병합하거나 분리하여 동적으로 트리의 크기와 결과 집합의 정확도를 마이닝 수행 중에 조절 할 수 있다. $S_{\delta}$값이 크면 한 노드에서 관리되는 항목집합의 수가 증가하게 되고, 출현 빈도수를 추정해야 하기 때문에, $S_{\delta}$값이 작을수록 결과집합의 정확도가 높다. 이처럼 PPT에는 트리의 크기와 정확도의 trade-off 가 존재한다. PPT의 이러한 특성에 기반하여, 데이터 스트림에서 갑자기 데이터 집합에 변화가 생겨 빈발항목이 될 가능성이 높은 항목들이 많이 출현하는 경우에도 마이닝을 지속적으로 수행할 수 있도록 지원한다. 본 논문에서는 프라임 패턴 트리를 이전 연구에서 제안한 데이터 스트림에서 최근 빈발 항목 탐색 방법인 estDec 방법에 적용하여 한정된 작은 양의 메모리 공간을 이용하여 온라인 데이터 스트림에서 빈발항목을 탐색하는 방법을 제시한다. 또한, 가용 메모리 범위에서 최적의 메모리를 사용하여 최적의 마이닝 결과를 얻을 수 있도록 하는 메모리 사용량에 대한 적응적 방법을 제시한다. 끝으로, 여러 실험을 통한 효율성 검증을 통해 제안된 방법의 여러 특성을 확인한다.

Keywords

References

  1. M. Charikar, K. Chen, and M. Farach-Colton, “Finding Frequent Items in Data Streams,” Proc. of the 29th Int'l. Colloq. Automata, Language and Programming, 2002
  2. G.S. Manku and R. Motwani, “Approximate Frequency Counts over Data Streams,” Proc. of the 28th Int'l Conf. on Very Large Data Bases, 2002
  3. M. Datar, A. Gionis, P. Indyk, and R. Motwani, “Maintaining Stream Statistics over Sliding Windows,” Proc. of the 13th Ann. ACM-SIAM Symp. Discrete Algorithms, pp.635-644, 2002
  4. S. Guha and N. Koudas, “Approximating a Data Stream for Querying and Estimation: Algorithms and Performance Evaluation,” In Proc. of the 18th Int'l Conf. on Data Engineering, pp.567-576, 2002 https://doi.org/10.1109/ICDE.2002.994775
  5. G. Dong, J. Han, L.V.S. Lakshmanan, J. Pei, H. Wang, and P.S. Yu. Online Mining of Changes from Data Streams: Research Problems and Preliminary Results. Proc. of the Workshop on Management and Processing of Data Streams, 2003
  6. Wei-Guang Teng, Ming-Syan Chen, Philip S. Yu. A Regression-Based Temporal Pattern Mining Scheme for Data Streams, Proc. of the 29th Int'l Conf on Very Large Database, Berlin, Germany, 2003
  7. Zhihong Chong, Jeffrey Xu Yu, Hongjun Lu, Zhengjie Zhang, and Aoying Zhou. False-Negative Frequent Items Mining from Data Streams with Bursting. Proc. of the 10th Int'l Conf on Database Systems for Advanced Applications, pp.422-434, 2005 https://doi.org/10.1007/11408079_38;Yu,JeffreyXu;Lu,Hongjun;Zhang,Zhengjie;Zhou,Aoying
  8. L. Qiao, D. Agrawal, and A.E. Abbadi, “RHist: Adaptive Summarization over Continuous Data Streams,” Proc. of the 10th Int'l Conf. on Information and Knowledge Management, pp.469-476, 2002
  9. M. Garofalakis, J. Gehrke and R. Rastogi. “Querying and mining data streams: you only get one look”. In the tutorial notes of the 28th Int'l Conf. on Very Large Databases, 2002
  10. J. H. Chang, W. S. Lee. “Finding recent frequent itemsets adaptively over online data streams.” In Proc. of the 9th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining, Washington, DC, 24-27, August, 2003 https://doi.org/10.1145/956750.956807
  11. S. Brin, R. Motwani, J.D. Ullman, and S. Tsur, “Dynamic Itemset Counting and Implication Rules for Market Basket Data,” In Proc. of ACM SIGMOD Int'l Conf. Management of Data, pp.255-264, 1997 https://doi.org/10.1145/253260.253325
  12. M.J. Zaki, “Generating Non-Redundant Association Rules,” In Proc. of the 6th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining, pp.34-43, 2000 https://doi.org/10.1145/347090.347101
  13. R.C. Agarwal, C.C. Aggarwal, and V.V.V. Prasad, “Depth First Generation of Long Patterns,” In Proc. of the 6th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining, pp.108-118, 2000 https://doi.org/10.1145/347090.347114
  14. C.C. Aggarwal and P.S. Yu, “Online Generation of Association Rules,” Proc. of the 14th Int'l IEEE Conf. on Data Engineering, pp.402-411, 1998
  15. R. Agrawal, and R. Srikant. Fast algorithms for mining association rules. Proc. of the 20th Int'l Conf. on Very Large Databases, Santiago, Chile, Sept., 1994
  16. A. Hafez, J. Deogun, and V. V. Raghavan. “The Item-Set Tree: A data Structure for Data Mining.” Proc. of the 1st int'l Conf on data warehousing and knowledge discovery, pp. 183-192, Aug., 1999
  17. Yun Chi, Haixun Wang, Philip S. Yu, Richard R. Muntz “Moment: Maintaining Closed Frequent Itemsets over a Stream Sliding Window.” In Proc. of the 4th IEEE int'l Conf. on Data Mining, pp.59-66, 2004 https://doi.org/10.1109/ICDM.2004.10084
  18. N. Jiang, and L. Gruenwald, “CFI-Stream: Mining Closed Frequent Itemsets in Data Streams,” Proc. of the 12th ACM SIGKDD int'l Conf. on Knowledge Discovery and Data Mining, pp.592-597, 2006 https://doi.org/10.1145/1150402.1150473