Transactions Clustering based on Item Similarity

항목 유사도를 고려한 트랜잭션 클러스터링

  • 이상욱 (한양대학교 산업공학과) ;
  • 김재련 (한양대학교 산업공학과)
  • Published : 2003.06.01

Abstract

Clustering is a data mining method which help discovering interesting data groups in large databases. In traditional data clustering, similarity between objects in the cluster is measured by pairwise similarity of objects. But we devise an advanced measurement called item similarity in this paper, in terms of nature of clustering transaction data and use this measurement to perform clustering. This new algorithm show the similarity by accepting the concept of relationship between different attributes. With this item similarity measurement, we develop an efficient clustering algorithm for target marketing in each group.

군집화(clustering)는 주어진 객체들 중에서 유사한 것들을 몇몇의 집단으로 그룹화 하여 각 집단의 성격을 파악하는데, 실제적으로 각 객체가 유사한지 그렇지 않은지를 측정할 수 있는 도구가 필요하다. 기존의 군집화에서 객체간에 유사하다는 의미는 각 군집(cluster)안에 있는 객체들이 같은 속성 값이 많으면 많을수록 객체간에 유사성이 높아 유사도가 높은 객체끼리 군집을 이루게 된다는 것을 의미했다. 그 중에서도 범주형 속성을 갖는 군집화는 같은 속성 값이면 1, 서로 다르면 0으로 표현하여 유사성을 측정하는 방법이다. 제안된 알고리듬은 속성 값을 0과1로만 표현하는 것에 대한 문제점을 제시하고 서로 다른 속성이라도 속성간에 친밀한 관계가 있다는 개념을 도입하여 어느 정도 유사한 지를 보여준다. 같은 객체간에 같은 값을 갖는 속성이 하나로 없더라도 구해진 유사도에 의해 유사한 개체끼리는 하나의 군집이 될 수 있는 알고리듬을 만든 후 그 군집에 속해 있는 고객들의 니즈와 구매 선호도에 따라 적절한 타겟 마케팅(Target Marketing)을 할 수 있다.

Keywords

References

  1. 인터넷 마케팅 김재일
  2. 마케팅 문준연
  3. Data Mining: Concepts and Techniques Han,J.;M.Kamber
  4. VLDB Discovery of multiple-level association rules from large databases Han,J.;Y.Fu
  5. Math Statist. Prob. v.1 Some methods for classification and analysis of multivariate observations MacQueen J.
  6. ACMCIKM Clustering Transactions Using Large Items Wang,K.;C.Xu,;B.Liu
  7. In Proc.1994 Int. Conf. VLDB Fast algorithms for mining association rules Agrawal,R.;R.Srikant
  8. in Proceedings of the 15th International Conference on Data Engineering ROCK : a robust clustering algorithm for categorical attributes Guha,S.;R.Rastog;K.Shim
  9. SIGMOD98 CURE : An Effcient Clustering Algorithm for Large Databases Guha,S.;R.Rastogi;K.Shim
  10. Proc. of the 5th PAKDD Scalable Hierarchical Clustering Method for Sequences of Categorical Values Morzy T.;M.Wojciechowski;M.Zakrzewicz
  11. ACM SIGMOD96 BIRCH : An Efficient Data Clustering Method for Very Large Databases Zhang T.;R.Ramakrishnan;M.Livny
  12. VLDB Efficient and Effective Clustering Method for Spatial Data Mining Raymond T.;J.Han
  13. Data Mining and Knowledge Discovery v.2 Extensions to the k-means algorithm for clustering large data sets with cataegorical values Huang Z.