DOI QR코드

DOI QR Code

A Weighted Frequent Graph Pattern Mining Approach considering Length-Decreasing Support Constraints

길이에 따라 감소하는 빈도수 제한조건을 고려한 가중화 그래프 패턴 마이닝 기법

  • Yun, Unil (Dept. of Computer Engineering, Sejong University) ;
  • Lee, Gangin (Dept. of Computer Engineering, Sejong University)
  • Received : 2014.07.11
  • Accepted : 2014.09.22
  • Published : 2014.12.31

Abstract

Since frequent pattern mining was proposed in order to search for hidden, useful pattern information from large-scale databases, various types of mining approaches and applications have been researched. Especially, frequent graph pattern mining was suggested to effectively deal with recent data that have been complicated continually, and a variety of efficient graph mining algorithms have been studied. Graph patterns obtained from graph databases have their own importance and characteristics different from one another according to the elements composing them and their lengths. However, traditional frequent graph pattern mining approaches have the limitations that do not consider such problems. That is, the existing methods consider only one minimum support threshold regardless of the lengths of graph patterns extracted from their mining operations and do not use any of the patterns' weight factors; therefore, a large number of actually useless graph patterns may be generated. Small graph patterns with a few vertices and edges tend to be interesting when their weighted supports are relatively high, while large ones with many elements can be useful even if their weighted supports are relatively low. For this reason, we propose a weight-based frequent graph pattern mining algorithm considering length-decreasing support constraints. Comprehensive experimental results provided in this paper show that the proposed method guarantees more outstanding performance compared to a state-of-the-art graph mining algorithm in terms of pattern generation, runtime, and memory usage.

대규모의 데이터베이스로부터 숨겨진 유용한 패턴 정보를 찾기 위해 빈발 패턴 마이닝이 제안된 이래로, 다양한 종류의 접근 방법들과 어플리케이션들이 연구되어 왔다. 특히, 빈발 그래프 패턴 마이닝은 계속해서 복잡해져 가는 최근의 데이터들을 효과적으로 다루기 위해 제안되었고, 이와 관련한 다양한 효율적인 알고리즘들이 연구되어 왔다. 그래프 데이터베이스로부터 얻을 수 있는 그래프 패턴들은 이를 구성하는 요소들에 따라 다른 중요도를 가지며 길이에 따라 다른 특성을 갖는다. 하지만, 전통적인 빈발 그래프 패턴 마이닝 접근 방법들은 이러한 문제들을 고려할 수 없다는 한계점을 지닌다. 즉, 기존의 방법들은 마이닝 과정에서 추출되는 그래프 패턴들의 길이에 상관없이 오직 하나의 최소 지지도 임계값만을 고려하고 이들의 가중치 요소들을 사용하지 않기 때문에, 실제적으로 쓸모없는 그래프 패턴들이 상당량 생성될 수 있다. 작은 수의 정점과 간선을 갖는 작은 그래프 패턴들은 이들에 대한 가중화 지지도 값이 상대적으로 높을 때 흥미로운 특성을 갖는 경향이 있는 반면, 많은 정점과 간선을 갖는 큰 그래프 패턴들은 비록 가중화 지지도 값이 상대적으로 낮을지라도 흥미로운 특성을 가질 수 있다. 이러한 이유로, 본 논문에서는 길이에 따라 감소하는 지지도 제한조건을 고려한 가중치 기반의 빈발 그래프 패턴 마이닝 알고리즘을 제안한다. 본 논문에서 제공되는 총체적인 실험 결과들은 제안되는 방법이 기존의 최신 그래프 마이닝 알고리즘과 비교하여 패턴 생성, 수행시간, 그리고 메모리 사용량 측면에서 더욱 뛰어난 성능을 보장함을 보인다.

Keywords

References

  1. R. Agrawal and R. Srikant, "Fast Algorithms for Mining Association Rules," in Proc. of the 20th Int'l Conf. on Very Large Data Bases (VLDB), pp. 487-499, 1994.
  2. A. Bifet, G. Holmes, B. Pfahringer, and R. Gavalda, "Mining Frequent Closed Graphs on Evolving Data Streams", in Proc. of the 17th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining, pp. 591-599, 2011.
  3. A.Y.R. Gonzalez, J.F.M. Trinidad, J.A. Carrasco-Ochoa, and J. Ruiz-Shulcloper, "Mining frequent patterns and association rules using similarities," Expert Systems with Applications, Vol. 40, No. 17, pp. 6823-6836, 2013. https://doi.org/10.1016/j.eswa.2013.06.041
  4. S. Gunnemann and T. Seidl, "Subgraph Mining on Directed and Weighted Graphs", in Pro. of the 14th Pacific-Asia Conf. on Knowledge Discovery and Data Mining, pp. 133-146, 2010.
  5. J. Han, J. Pei, and Y. Yin, "Mining Frequent Patterns without Candidate Generation," in Proc. of the 2000 ACM SIGMOD Int'l Conf. on Management of Data, pp. 1-12, 2000.
  6. J. Huan, W. Wang, and J. Prins, "Efficient Mining of Frequent Subgraphs in the Presence of Isomorphism", in Proc. of the 3rd IEEE International Conf. on Data Mining, pp. 549-552, 2003.
  7. Y. Jia, J. Zhang, and J. Huan, "An efficient graph-mining method for complicated and noisy data with real-world applications", Knowledge Information Systems, vol. 28, no. 2, pp 423-447, 2011. https://doi.org/10.1007/s10115-010-0376-y
  8. C. Jiang, F. Coenen, and M. Zito, "Frequent Sub-graph Mining on Edge Weighted Graphs" in Proc. of the 12th int'l conf. on Data warehousing and knowledge discovery, pp. 77-88, 2010.
  9. G. Lee and U. Yun, "Frequent Graph Pattern Mining with Length-Decreasing Support Constraints", Multimedia and Ubiquitous Engineering, pp. 185-192, 2013.
  10. S. Nijssen and J.N. Kok, "The Gaston Tool for Frequent Subgraph Mining", Electronic Notes in Theoretical Computer Science, vol. 127, no. 1 pp. 77-87, 2005. https://doi.org/10.1016/j.entcs.2004.12.039
  11. L.T. Thomas, S.R. Valluri, and K. Karlapalem, "MARGIN: Maximal frequent subgraph mining", Transactions on Knowledge Discovery from Data. vol. 4, no. 3, pp. 10:1-42, 2010.
  12. X. Yan and J. Han, "gSpan: graph-based substructure pattern mining", in Proc. of the 2002 IEEE Int'l Conf. on Data Mining, pp. 721-724, 2002.
  13. M. Seno, and G. Karypis, "Finding frequent patterns using length-decreasing support constraints", Data Mining and Knowledge Discovery, vol. 10, no. 3, pp. 197-228, 2005. https://doi.org/10.1007/s10618-005-0364-0

Cited by

  1. Analysis and Performance Evaluation of Pattern Condensing Techniques used in Representative Pattern Mining vol.16, pp.2, 2015, https://doi.org/10.7472/jksii.2015.16.2.77