Performance Comparison of Clustering Techniques for Spatio-Temporal Data

시공간 데이터를 위한 클러스터링 기법 성능 비교

  • Kang Nayoung (Engineering Information Group, Memory Division, Semicroductor Business, SAMSUNG ELECTRONICS CO., LTD.) ;
  • Kang Juyoung (Power Information Technology Group, Power System Research Laboratory, Korea Electric Power Research Institute) ;
  • Yong Hwan-Seung (Dept. of Computer Science and Engineering, Ewha Womans Univ.)
  • Published : 2004.11.01

Abstract

With the growth in the size of datasets, data mining has recently become an important research topic. Especially, interests about spatio-temporal data mining has been increased which is a method for analyzing massive spatio-temporal data collected from a wide variety of applications like GPS data, trajectory data of surveillance system and earth geographic data. In the former approaches, conventional clustering algorithms are applied as spatio-temporal data mining techniques without any modification. In this paper, we focused to SOM that is the most common clustering algorithm applied to clustering analysis in data mining wet and develop the spatio-temporal data mining module based on it. In addition, we analyzed the clustering results of developed SOM module and compare them with those of K-means and Agglomerative Hierarchical algorithm in the aspects of homogeneity, separation, separation, silhouette width and accuracy. We also developed specialized visualization module fur more accurate interpretation of mining result.

최근 데이터 양이 급증하면서 데이터 마이닝에 대한 연구가 활발하게 진행되고 있으며 특히 GPS 시스템, 감시시스템, 기상 관측 시스템과 같은 다양한 응용 시스템으로부터 수집된 데이터를 분석하고자 하는 시공간 데이터 마이닝 연구에 대한 관심이 더욱 높아지고 있다. 기존의 시공간 데이터 마이닝 연구들에서는 비시공간 데이터 기반의 일반적인 클러스터링 기법들을 그대로 적용하고 있으나 데이터의 속성이 다른 시공간 데이터 마이닝에서 기존의 알고리즘들이 어느 정도의 성능을 보장하는지, 데이터의 시공간 속성에 따라 적절한 마이닝 알고리즘을 선택하기 위한 기준이 무엇인지 등에 대한 연구는 미흡한 실정이다. 본 논문에서는 기존의 시공간 데이터 마이닝 연구에서 일반적으로 많이 사용되어 온 알고리즘인 SOM(Self-Organizing Map)을 기반으로 시공간 데이터 마이닝 모듈을 개발하고, 개발된 클러스터링 모듈의 성능을 K-means과 두 가지 응집 계층(Hierarchical Agglomerative) 알고리즘들과 균질도, 분리도, 반면영상 너비, 정확도의 네 가지 평가 기준을 기반으로 비교하였다. 또한 입력 데이터의 특성 가시화 및 클러스터링 결과의 정확한 분석을 위해 시공간 데이터 클러스터링을 위한 가시화 모듈을 개발하였다.

Keywords