DOI QR코드

DOI QR Code

An Optimization of Hashing Mechanism for the DHP Association Rules Mining Algorithm

DHP 연관 규칙 탐사 알고리즘을 위한 해싱 메커니즘 최적화

  • 이형봉 (강릉원주대학교 컴퓨터공학과) ;
  • 권기현 (강원대학교 전자정보통신공학부)
  • Received : 2010.05.19
  • Accepted : 2010.07.14
  • Published : 2010.08.31

Abstract

One of the most distinguished features of the DHP association rules mining algorithm is that it counts the support of hash key combinations composed of k items at phase k-1, and uses the counted support for pruning candidate large itemsets to improve performance. At this time, it is desirable for each hash key combination to have a separate count variable, where it is impossible to allocate the variables owing to memory shortage. So, the algorithm uses a direct hashing mechanism in which several hash key combinations conflict and are counted in a same hash bucket. But the direct hashing mechanism is not efficient because the distribution of hash key combinations is unvalanced by the characteristics sourced from the mining process. This paper proposes a mapped perfect hashing function which maps the region of hash key combinations into a continuous integer space for phase 3 and maximizes the efficiency of direct hashing mechanism. The results of a performance test experimented on 42 test data sets shows that the average performance improvement of the proposed hashing mechanism is 7.3% compared to the existing method, and the highest performance improvement is 16.9%. Also, it shows that the proposed method is more efficient in case the length of transactions or large itemsets are long or the number of total items is large.

DHP 연관 규칙 탐사 알고리즘의 가장 큰 특징은 단계 k-1에서 k 개의 항목으로 구성된 해시 키 조합에 대한 계수를 미리 실시하고, 이를 단계 k에서 후보 빈발 항목 집합을 구성할 때 전지 정보로 활용하여 그 크기를 줄임으로써 성능을 개선한다는 점에 있다. 이 때, 모든 해시 키 조합에 대한 계수를 독립적으로 관리할 수 있다면 가장 이상적이나, 메모리 소요가 너무 많으므로 여러 개의 해시 키 조합들이 계수 공간을 공유하는 직접 해싱 메커니즘을 활용한다. 그러나, 연관 규칙 탐사 알고리즘의 특성상 해시 키 조합의 분포 공간이 불규칙하여 해싱 함수에 일반적인 단순 제산 연산을 사용할 경우 직접 해싱의 효율이 저하된다. 이 논문에서는 단계 3을 위한 길이 3인 해시 키 공간을 연속되는 정수 공간으로 사상하여 직접 해싱의 효율을 극대화시키는 사상 완전 해싱 함수를 제안한다. 42개의 시험 데이터 유형을 대상으로 실험한 결과 제안된 해싱 함수는 기존 방법보다 평균 7.3%, 최대 16.9%의 성능 개선 효과가 있는 것으로 나타났고, 특히 평균 거래 길이, 평균 빈발 항목 집합의 크, 전체 항목의 개수 등이 클수록 성능 개선 정도가 높았다.

Keywords

References

  1. 임승환, 권용석, 김상욱, "클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관규칙 마이닝," 정보과학회지:컴퓨팅의 실제, 60-64쪽, 2010년. 1월.
  2. 이혜리, 류근호, 김원재, 이건영, "마이크로 어레이 데이터에서 특정 클래스 식별을 위한 이진 연관규칙 추출," 한국지능시스템학회 2009년도 추계 학술발표 논문집, 293-294쪽, 2009년. 12월.
  3. 송성렬, 송원문, 김은주, 김명원, "IPTV 환경에서의 점진적 데이터를 위한 효과적인 연관규칙 추출 기법," 한국정보과학회 2009 가을 학술발표논문집 제 36권, 제 2호(C), 246-251쪽, 2009년. 11월.
  4. 이병엽, 박용훈, 유재수, "자동차 산업의 고객 분류 및 타겟 마케팅 모델," 한국컨텐츠학회 논문지, 제 9권 제 4호, 313-322쪽, 2009년. 4월.
  5. 권형준, 정동근, 홍광석, "사용자의 재생 시간을 이용한 멀티미디어 추천 시스템," 인터넷정보학회 논문지, 제 10 권, 제 1호, 111-121쪽, 2009년 2월.
  6. 임영희, 이종욱, 박대희. 장진경, "연관 규칙 마이닝을 이용한 한국 신노년층의 생활 만족도에 관한 연구," 한국가정관리학회 2008년 추계학술대회, 164-173쪽, 2008년11월.
  7. M. Schrader, D. Vlamis, M. Nader, C. Claterbos, D. Collins, M. Campbel, F. Conrad, "Oracle Essbase & Oracle OLAP," McGraw-Hill, Oct. 2009.
  8. Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten, "The WEKA Data Mining Software: An Update," SIGKDD Explorat- ions, Volume 11, Issue 1, 2009. http://www.cs.waikato.ac.nz/-ml/weka/
  9. J. S. Park, M.-S. Chen and P. S. Yu, "An Effective Hash-Based Algorithm for Mining Association Rules," Proceedings of ACM SIGMOD, pp. 175-186, 1995.
  10. J. Han, J. Pei, and Y. Yin, "Mining frequent patterns without candidate generation," Proceedings ACM SIGMOD Int'l Conf. Management of Data(SIGMOD' 00), pp. 1-12, May 2000.
  11. 이형봉, 김진호, "FP-tree와 DHP 연관 규칙 탐사 알고리즘의 실험적 성능 비교," 정보과학회논문지:데이터베이스, 제 35권, 제 3호, 341-351쪽, 2008년. 6월,
  12. R. Agrawal, T. Imielinski and A. Swami, "Mining Association Rules between Sets of Items in Large Databases," Proceedings of ACM SIGMOD on Management of Data, pp. 207-216, 1993.
  13. R. Agrawal and R. Srikant, "Fast Algorithms for Mining Association Rules," Proceedings of the 20th Inte- rnational Conference on Very Large Databases, pp. 487-499, 1994.
  14. 이형봉, "완전 해싱을 위한 DHP 연관 규칙탐사 알고리즘의 개선 방안," 정보과학회논문지:데이터베이스, 제31권, 제 2호, 91-98쪽, 2004년. 4월.
  15. 이형봉, "DHP 연관 규칙 탐사 알고리즘을 위한 효율적인 해싱 메커니즘," 정보처리학회 논문지(D), 제 13-D권, 제 5호, 651-660쪽, 2006년. 10월.
  16. R. Agrawal and et al, "Synthetic Data Generation Code for Associations and Sequential Patterns," http://www.almaden.ibm.com/cs/projects/iis/hdb/ Projects/data_mining/mining.shtml, 1999.

Cited by

  1. Parkinson’s disease classification using gait characteristics and wavelet-based feature extraction vol.39, pp.8, 2012, https://doi.org/10.1016/j.eswa.2012.01.084