DOI QR코드

DOI QR Code

PPFP(Push and Pop Frequent Pattern Mining): A Novel Frequent Pattern Mining Method for Bigdata Frequent Pattern Mining

PPFP(Push and Pop Frequent Pattern Mining): 빅데이터 패턴 분석을 위한 새로운 빈발 패턴 마이닝 방법

  • Received : 2016.07.29
  • Accepted : 2016.08.09
  • Published : 2016.12.31

Abstract

Most of existing frequent pattern mining methods address time efficiency and greatly rely on the primary memory. However, in the era of big data, the size of real-world databases to mined is exponentially increasing, and hence the primary memory is not sufficient enough to mine for frequent patterns from large real-world data sets. To solve this problem, there are some researches for frequent pattern mining method based on disk, but the processing time compared to the memory based methods took very time consuming. There are some researches to improve scalability of frequent pattern mining, but their processes are very time consuming compare to the memory based methods. In this paper, we present PPFP as a novel disk-based approach for mining frequent itemset from big data; and hence we reduced the main memory size bottleneck. PPFP algorithm is based on FP-growth method which is one of the most popular and efficient frequent pattern mining approaches. The mining with PPFP consists of two setps. (1) Constructing an IFP-tree: After construct FP-tree, we assign index number for each node in FP-tree with novel index numbering method, and then insert the indexed FP-tree (IFP-tree) into disk as IFP-table. (2) Mining frequent patterns with PPFP: Mine frequent patterns by expending patterns using stack based PUSH-POP method (PPFP method). Through this new approach, by using a very small amount of memory for recursive and time consuming operation in mining process, we improved the scalability and time efficiency of the frequent pattern mining. And the reported test results demonstrate them.

현존하는 빈발 패턴 마이닝 방법은 대부분 시간 효율성을 목표로 하고, 물리적 메모리 사용에 매우 의존적이다. 하지만 빅데이터 시대가 도래함에 따라 실제 세상의 데이터베이스는 급속도로 증가하고 있으며, 그에 따라 기존의 방법으로 현실적인 거대한 양의 데이터를 마이닝하기에 물리적 메모리 공간이 부족한 실정이다. 이러한 문제를 해결하기 위해, 빈발 패턴 마이닝의 메모리 의존성을 줄이기 위한 보조저장장치 기반의 연구들이 진행되었으나, 메모리 기반의 방법들에 비해 처리 시간이 너무 많이 소비된다는 한계가 있었다. 따라서 확장성을 가지며, 기존의 디스크 기반의 방법들에 비해 시간효율성을 높인 새로운 빈발 패턴 마이닝이 필요하게 되었다. 본 논문에서는 빅데이터로부터 빈도 아이템 집합들을 마이닝하기 위해 메모리와 디스크를 함께 사용하는 스택 기반의 새로운 접근법인 PPFP 알고리즘을 제안하였다. PPFP는 빈발 패턴 마이닝 접근법 중 가장 인기 있고 효율적인 접근법 중 하나인 FP-growth를 기반으로 하고 있다. PPFP 마이닝 방법은 다음과 같이 두 단계로 진행된다. (1) IFP-tree 구축: FP-tree를 생성한 후, 새로운 인덱스 번호 부여 방법으로 FP-tree의 각 노드에 인덱스 번호를 부여하고, 이 인덱스 번호가 부여된 FP-tree(IFP-tree)를 테이블로 변환하여(IFP-table) 디스크에 저장한다. (2) PPFP 알고리즘을 이용한 빈발 패턴 마이닝: 스택 기반의 PUSH-POP 방식으로 패턴을 확장시켜 나가며 빈발 패턴을 마이닝한다. 이러한 방식을 통해 메모리 기반의 방법에 비해 반복적으로 많은 시간이 소모되는 연산에 매우 적은 양의 메모리를 활용하여 확장성과 함께 시간효율성 또한 향상시킬 수 있었다. 그리고 기존의 연구 방법들과 비교 실험을 통해 새로운 알고리즘의 성능을 증명하였다.

Keywords

References

  1. R. Agrawal, T. Imieliski, and A. Swami, "Mining association rules between sets of items in large databases," in Proc. ACM SIGMOD Int. Conf. Manage. Data, pp.207-216, 1993.
  2. R. Agrawal and R. Srikant, "Fast algorithms for mining association rules in large databases," in Proc. Int. Conf. Very Large Data Bases, pp.487-499, 1994.
  3. A. Amir, R. Feldman, and R. Kashi, "A new and versatile method for association generation," Inf. Syst., Vol.22, No.6/7, pp.333-347, Sep.-Nov., 1997. https://doi.org/10.1016/S0306-4379(97)00021-5
  4. J. Han, J. Pei, and Y. Yin, "Mining frequent patterns without candidate generation," in Proc. ACM SIGMOD Int. Conf. Manage. Data, pp.1-12, 2000.
  5. M. J. Zaki, "Scalable algorithms for association mining," IEEE Trans. Knowl. Data Eng., Vol.12, No.3, pp.372-390, May, 2000. https://doi.org/10.1109/69.846291
  6. M. El-Hajj and O. R. Zaiane, "COFI approach for mining frequent item-sets revisited," in Proc. ACM SIGMOD Workshop Res. Issues Data Mining Knowl. Discovery, New York, pp.70-75, 2004.
  7. W. Cheung and O. R. Zaiane, "Incremental mining of frequent patterns without candidate generation or support constraint," in Proc. IEEE Int. Conf. Database Eng. Appl., Los Alamitos, CA, pp.111-116, 2003.
  8. C. K.-S. Leung, Q. I. Khan, and T. Hoque, "Cantree: A tree structure for efficient incremental mining of frequent patterns," in Proc. IEEE Int. Conf. Data Mining, Los Alamitos, CA, pp.274-308, 2005.
  9. C. K. -S. Leung and Q. I. Khan, "DSTree: A Tree Structure for the Mining of Frequent Sets from Data Streams," in Proc. IEEE ICDM, pp.928-932, 2006.
  10. J. H. Lee, "IRFP-tree: Intersection Rule Based FP-tree," KIPS Transaction on Software and Data Engineering, Vol. 5, Issue 3, pp.155-164, 2016. https://doi.org/10.3745/KTSDE.2016.5.3.155
  11. J.-L. Koh and S.-F. Shieh, "An efficient approach for maintaining association rules based on adjusting FP-tree structures," in Proc. DASFAA, Springer-Verlag, Berlin Heidelberg New York, pp.417-424, 2004.
  12. G. Liu, H. Lu, J. X. Yu, W. Wang, and X. Xiao, "AFOPT: An efficient implementation of pattern growth approach," in Proc. FIMI, 2003.
  13. M. Adan and R. Alhajj, "DRFP-tree: Disc-resident frequent pattern tree," Appl. Intell., Vol.30, No.2, pp.207-216, 2009.
  14. M. Adan and R. Alhajj, "A Bounded and Adaptive Memory-Based Approach to Mine Frequent Patterns From Very Large Databases," IEEE Transactions on Systems, Man, and Cybernetics, Part B, Vol.41, Issue 1, pp.154-172, 2011. https://doi.org/10.1109/TSMCB.2010.2048900
  15. X. Shang, K.-U. Sattler, and I. Geist, "SQL Based Frequent Pattern Mining with FP-growth," in INAP/WLP, pp.32-46, 2005.
  16. B. Goethals, "Memory issues in frequent itemset mining," in Proc. ACM SAC, pp.530-534, 2004.
  17. R. Vaarandi, "A breadth-first algorithm for mining frequent patterns from event logs," in Proc. IEEE INTELLCOMM, pp.293-308, 2004.
  18. G. Buehrer, S. Parthasarathy, and A. Ghoting, "Out-of-core frequent pattern mining on a commodity PC," in Proc. 12th ACM SIGKDD Int. Conf. KDD, pp.86-95, 2006.