DOI QR코드

DOI QR Code

Incremental Frequent Pattern Detection Scheme Based on Sliding Windows in Graph Streams

그래프 스트림에서 슬라이딩 윈도우 기반의 점진적 빈발 패턴 검출 기법

  • 정재윤 (충북대학교 정보통신공학과) ;
  • 서인덕 (충북대학교 빅데이터학과) ;
  • 송희섭 (충북대학교 빅데이터학과) ;
  • 박재열 (충북대학교 정보통신공학과) ;
  • 김민영 (충북대학교 정보통신공학과) ;
  • 최도진 (충북대학교 정보통신공학과) ;
  • 복경수 (충북대학교 정보통신공학과) ;
  • 유재수 (충북대학교 정보통신공학과)
  • Received : 2017.10.24
  • Accepted : 2017.11.17
  • Published : 2018.02.28

Abstract

Recently, with the advancement of network technologies, and the activation of IoT and social network services, many graph stream data have been generated. As the relationship between objects in the graph streams changes dynamically, studies have been conducting to detect or analyze the change of the graph. In this paper, we propose a scheme to incrementally detect frequent patterns by using frequent patterns information detected in previous sliding windows. The proposed scheme calculates values that represent whether the frequent patterns detected in previous sliding windows will be frequent in how many future silding windows. By using the values, the proposed scheme reduces the overall amount of computation by performing only necessary calculations in the next sliding window. In addition, only the patterns that are connected between the patterns are recognized as one pattern, so that only the more significant patterns are detected. We conduct various performance evaluations in order to show the superiority of the proposed scheme. The proposed scheme is faster than existing similar scheme when the number of duplicated data is large.

최근 네트워크 기술 발전과 함께 IoT 및 소셜 네트워크 서비스의 활성화로 인해 많은 그래프 스트림 데이터가 생성되고 있다. 이와 같은 그래프 스트림에서 객체들 사이의 관계가 동적으로 변화함에 따라 그래프의 변화를 탐지하거나 분석하기 위한 연구들이 진행되고 있다. 본 논문에서는 그래프 스트림에서 이전 슬라이딩 윈도우에서 검출한 빈발 패턴에 대한 정보를 이용해 빈발 패턴을 점진적으로 검출하는 기법을 제안한다. 제안하는 기법은 이전 슬라이딩 윈도우에서 검출된 패턴이 앞으로 몇 슬라이딩 윈도우동안 빈발할지 또는 빈발하지 않을지를 계산하여 빈발 패턴 관리 테이블에 저장한다. 그리고 이 값을 통해 다음 슬라이딩 윈도우에서는 필요한 계산만 수행함으로써 전체 연산량을 감소시킨다. 또한 패턴 간에 간선을 통해 연결되어있는 것만 하나의 패턴으로 인식함으로써 더 유의미한 패턴만을 검출한다. 본 논문에서는 제안하는 기법의 우수함을 보이기 위해 여러 성능 평가를 진행하였다. 그래프 데이터의 크기가 커지고 슬라이딩 윈도우의 크기가 커질수록 중복되는 데이터가 증가되기 때문에 기존 기법보다 빠른 처리 속도를 나타낸다.

Keywords

References

  1. 임종태, 복경수, 유재수, "대용량 그래프 환경에서 스카이라인을 이용한 서브 그래프 유사도 측정 기법," 한국콘텐츠학회 종합학술대회, pp.47-48, 2017.
  2. 유병국, 김순홍, "소셜네트워크 분석을 통한 마케팅 전략," 한국콘텐츠학회논문지, 제13권, 제5호, pp.396-407, 2013. https://doi.org/10.5392/JKCA.2013.13.05.396
  3. A. Cuzzocrea, F. Furfaro, G. M. Mazzeo, and D. Sacca, "A grid framework for approximate aggregate query answering on summarized sensor network readings," Proc. OTM Workshops, pp.144-153, 2004.
  4. A. Fariha, C. F. Ahmed, C. K. Leung, S. M. Abdullah, and L. Cao, "Mining frequent patterns from human interactions in meetings using directed acyclic graphs," Proc. Pacific-Asia Conference on Knowledge Discovery and Data Mining, Springer, pp.38-49, 2013.
  5. F. Jiang and C. K. Leung, "Mining interesting "following" patterns from social networks," Proc. International Conference on Data Warehousing and Knowledge Discovery, Springer, pp.308-319, 2014.
  6. S. K. Tanbeer, F. Jiang, C. K. Leung, R. K. MacKinnon, and I. J. M. Medina, "Finding groups of friends who are significant across multiple domains in social networks," Proc. International Conference on Computational Aspects of Social Networks, pp.21-26, 2013.
  7. 한진수, 조중권, 최도진, 임종태, 복경수, 유재수, "부하 분산을 위한 정점 절단 기반의 그래프 스트림 분할 기법," 한국정보과학회 학술발표논문, pp.206-208, 2017.
  8. 강필성, "사물인터넷과 빅데이터 분석 기반의 스마트공장 구현 사례 및 시사점," 한국정보화진흥원, Near & Future, Vol.20, pp.25-35, 2016.
  9. C. Giannella, J. Han, J. Pei, X. Yan, and P. S. Yu, "Mining frequent patterns in data streams at multiple time granularities," Next generation data mining, pp.191-212, 2003.
  10. C. K. Leung and Q. I. Khan, "DSTree: A Tree Structure for the Mining of Frequent Sets from Data Streams," Proc. International Conference on Data Mining, pp.928-932, 2006.
  11. P. Braun, J. J. Cameron, A. Cuzzocrea, F. Jiang, and C. K. Leung, "Effectively and Efficiently Mining Frequent Patterns from Dense Graph Streams on Disk," Proc. International Conference in Knowledge Based and Intelligent Information and Engineering Systems, pp.338-347, 2014.
  12. A. Cuzzocrea, Z. Han, F. Jiang, C. K. Leung, and H. Zhang, "Edge-based Mining of Frequent Subgraphs from Graph Streams," International Conference in Knowledge Based and Intelligent Information and Engineering Systems, pp.573-582, 2015.
  13. S. K. Tanbeer, C. K. Leung, and J. J. Cameron, "Interactive Mining of Strong Friends from Social Networks and its Applications in E-Commerce," Journal of Organizational Computing and Electronic Commerce, Vol.24, No.2-3, pp.157-173, 2014. https://doi.org/10.1080/10919392.2014.896715
  14. 서복일, 김재인, 황부현, "스트림 데이터 환경에서 배치 가중치를 이용하여 사용자 특성을 반영한 빈발항목 집합 탐사," 한국콘텐츠학회논문지, 제11권, 제1호, pp.56-64, 2011. https://doi.org/10.5392/JKCA.2011.11.1.056
  15. C. C. Aggarwal, Y. Li, P. S. Yu, and R. Jin, "On dense pattern mining in graph streams," Proceedings of the VLDB Endowment, Vol.3, No.1-2, pp.975-984, 2010. https://doi.org/10.14778/1920841.1920964
  16. A. Bifet, G. Holmes, B. Pfahringer, and R. Gavalda, "Mining frequent closed graphs on evolving data streams," Proc. ACM SIGKDD international conference on Knowledge discovery and data mining, pp.591-599, 2011.
  17. E. Valari, M. Kontaki, and A. N. Papadopoulos, "Discovery of top-k dense subgraphs in dynamic graph collections," Proc. International Conference on Scientific and Statistical Database Management, Springer, pp.213-230, 2012.