Abstract
Clustering is a data mining method which help discovering interesting data groups in large databases. In traditional data clustering, similarity between objects in the cluster is measured by pairwise similarity of objects. But we devise an advanced measurement called item similarity in this paper, in terms of nature of clustering transaction data and use this measurement to perform clustering. This new algorithm show the similarity by accepting the concept of relationship between different attributes. With this item similarity measurement, we develop an efficient clustering algorithm for target marketing in each group.
군집화(clustering)는 주어진 객체들 중에서 유사한 것들을 몇몇의 집단으로 그룹화 하여 각 집단의 성격을 파악하는데, 실제적으로 각 객체가 유사한지 그렇지 않은지를 측정할 수 있는 도구가 필요하다. 기존의 군집화에서 객체간에 유사하다는 의미는 각 군집(cluster)안에 있는 객체들이 같은 속성 값이 많으면 많을수록 객체간에 유사성이 높아 유사도가 높은 객체끼리 군집을 이루게 된다는 것을 의미했다. 그 중에서도 범주형 속성을 갖는 군집화는 같은 속성 값이면 1, 서로 다르면 0으로 표현하여 유사성을 측정하는 방법이다. 제안된 알고리듬은 속성 값을 0과1로만 표현하는 것에 대한 문제점을 제시하고 서로 다른 속성이라도 속성간에 친밀한 관계가 있다는 개념을 도입하여 어느 정도 유사한 지를 보여준다. 같은 객체간에 같은 값을 갖는 속성이 하나로 없더라도 구해진 유사도에 의해 유사한 개체끼리는 하나의 군집이 될 수 있는 알고리듬을 만든 후 그 군집에 속해 있는 고객들의 니즈와 구매 선호도에 따라 적절한 타겟 마케팅(Target Marketing)을 할 수 있다.