Design and development of the clustering algorithm considering weight in spatial data mining

공간 데이터 마이닝에서 가중치를 고려한 클러스터링 알고리즘의 설계와 구현

  • Published : 2002.12.01

Abstract

Spatial data mining is a process to discover interesting relationships and characteristics those exist implicitly in a spatial database. Many spatial clustering algorithms have been developed. But, there are few approaches that focus simultaneously on clustering spatial data and assigning weight to non-spatial attributes of objects. In this paper, we propose a new spatial clustering algorithm, called DBSCAN-W, which is an extension of the existing density-based clustering algorithm DBSCAN. DBSCAN algorithm considers only the location of objects for clustering objects, whereas DBSCAN-W considers not only the location of each object but also its non-spatial attributes relevant to a given application. In DBSCAN-W, each datum has a region represented as a circle of various radius, where the radius means the degree of the importance of the object in the application. We showed that DBSCAN-W is effective in generating clusters reflecting the users requirements through experiments.

공간 데이터 마이닝이란 공간 데이터베이스 내에 함축적으로 존재하는 흥미 있는 관계와 특징을 발견하는 과정이다. 많은 공간 클러스터링 알고리즘이 개발 되었으나, 공간 속성을 기준으로 클러스터링을 수행하면서 동시에 오브젝트의 비 공간적 속성에 대하여 가중치를 부여하는 방법에 대한 연구는 부족하였다. 본 논문은 새로운 공간 클러스터링 알고리즘인 DBSCAN-W를 제안하였다. DBSCAN-W는 밀도 기반 클러스터링 알고리즘인 DBSCAN을 확장한 알고리즘이다. 기존의 DBSCAN에서는 클러스터링을 위해 오브젝트의 위치 속성만을 고려한 반면, DBSCAN-W는 오브젝트의 위치 속성 뿐 아니라 주어진 응용과 관련된 오브젝트의 비 공간 속성들을 함께 고려한다. DBSCAN-W에서 각 오브젝트들은 다양한 크기의 원으로 표현되는 영역을 갖는다. 이때 원의 반지름은 해당 응용 시스템에서 오브젝트가 갖는 중요도를 반영한다 또한 실험을 통하여 DBSCAN-W알고리즘이 사용자의 의도를 반영한 다양한 클러스터를 효과적으로 생성하는 결과를 보였다.

Keywords

References

  1. Data Mining Techniques;For Marketing Sales and Customer Support Michael J. A Berry;Gorden Linoff
  2. In Proc. of the VLDB Conference Efficient and Effective Culstering Method for Spatial Data Mining Raymond, T. Ng.;Jiawei Han
  3. In Proc. of the ACM SIGMOD Conference on Management of Data BIRCH;An Efficient Data Clustering Method for Very Large Database Tian, Zhang;Raghu Ramakrishnan;Miron Livny
  4. In Proc. of the ACM SIGMOD Confercence on Maangement of Data CURE;An Efficient Culstering Algorthm for Large Databases Sudipto Guha;Rajeev Rastogi;Kyuseok Shim
  5. In Proc. Of ACM SIGMOD 3rd International Conference on Knowledge Discovery and Data Mining A Density-Based Algorithm for Discovering Culsters in Large Spatial Databases with Noise Martin Easter;Hans-Peter Kriegel;Jorg Sander;Xiaowei Xu
  6. In Proc. Of ACM SIGMOD 3rd International Conference on Management of Data OPTICS;Ordering Points To Identify the Culstering Structure Michael Ankerst;Markus M. Breuning;Hans-Peter Kriegel;Jorg Sander
  7. In Proc. 1997 Int. conf. Very Large Data Bases(VDLB'97) STING;A statistical information grid apporach to spatial data mining W.Wang;J. Yang;R, Muntz
  8. Data Mining;concepts and Techniques Jiawei Han;Micheline Kamber
  9. In Proc. of the 15th Annual International ACM SIGIR Conference Scatter/Gather;A Culster-based Approach to Browising Large Document Collections Douglass R. Cutting;David, R. Karger;Jan O. Pedersen;John W. Tukey
  10. Informix Universal Server Guide to SQL;Tutorial 9.1 Informix
  11. Informix Spatial Datablade Module;User's Guide Informix