DOI QR코드

DOI QR Code

A Spatial Entropy based Decision Tree Method Considering Distribution of Spatial Data

공간 데이터의 분포를 고려한 공간 엔트로피 기반의 의사결정 트리 기법

  • 장윤경 (인하대학교 대학원 컴퓨터정보공학과) ;
  • 유병섭 (인하대학교 컴퓨터정보공학과) ;
  • 이동욱 (인하대학교 컴퓨터정보공학과) ;
  • 조숙경 (인하대학교 지능형GIS센터) ;
  • 배해영 (인하대학교 대학원)
  • Published : 2006.12.31

Abstract

Decision trees are mainly used for the classification and prediction in data mining. The distribution of spatial data and relationships with their neighborhoods are very important when conducting classification for spatial data mining in the real world. Spatial decision trees in previous works have been designed for reflecting spatial data characteristic by rating Euclidean distance. But it only explains the distance of objects in spatial dimension so that it is hard to represent the distribution of spatial data and their relationships. This paper proposes a decision tree based on spatial entropy that represents the distribution of spatial data with the dispersion and dissimilarity. The dispersion presents the distribution of spatial objects within the belonged class. And dissimilarity indicates the distribution and its relationship with other classes. The rate of dispersion by dissimilarity presents that how related spatial distribution and classified data with non-spatial attributes we. Our experiment evaluates accuracy and building time of a decision tree as compared to previous methods. We achieve an improvement in performance by about 18%, 11%, respectively.

의사결정 트리는 데이터 마이닝의 분류와 예측 작업에 주로 사용되는 기법 중의 하나이다. 실생활에서 공간의사결정을 위한 분류를 수행할 때에는 인접 데이터의 위치와 분산도를 고려하는 것이 매우 중요하다. 기존의 공간 의사결정 트리는 데이터의 공간적 특성을 표현하기 위해 각 객체간의 유클리디안 거리비율을 엔트로피로 반영하여 트리 구축 시 이용하였다. 그러나 이것은 공간 객체간의 거리 비율만을 설명할 뿐 공간 차원에서의 데이터 분산 정도와 각 분류된 클래스간의 연관관계 등은 파악할 수 없다는 한계점이 있었다 본 논문에서는 분산도와 차별도 기반의 공간 엔트로피를 이용하여 공간 데이터의 분포도를 반영하는 공간 의사결정 트리를 제안한다 분산도는 분류된 클래스 내의 공간 객체 분포도를 나타내고 차별도는 다른 클래스 내 공간 객체와의 분포도 및 관계성을 나타낸다. 이러한 분산도와 차별도의 비율을 엔트로피 계산 시 이용함으로써 비공간적 속성으로 분류된 각 클래스가 공간적으로는 얼마나 뚜렷하게 분류되는지 알 수 있게 한다. 제안 기법은 정확성과 계산 비용에 있어서 기존 기법보다 각각 약 18%, 11%의 성능 향상을 보였다.

Keywords

References

  1. Longley P. A., Goodchild M. F., Maguire D. J., Rhind D. W., Geographical Information Systems - Principies and Technical Issues, John Wiley & Sons, Inc., 1999
  2. Nadjim Chelghoum, Karine Zeitouni,' Spatial Decision Tree-Application to Traffic Risk Analysis,' GeoI100 info Symposium, 2004
  3. Claramunt C 2005 A Spatial form of diversity. In Mark D M and Cohn A (eds) Spatial Information Theory: Proceedings of COSIT 2005. Berlin, Springer Lecture Notes in Computer Science No 3693: 218 - 31 https://doi.org/10.1007/11556114_14
  4. Martin Ester, Hans-Peter Kriegel, Jorg Sander, 'Spatial Data Mining: A Database Approach,' Proceedings of the Fifth Int. Symposium on Large Spatial Detabases, 1997 https://doi.org/10.1007/3-540-63238-7_24
  5. Miller, H. J. and Han, J., 2000, Discovering geographic Knowledge in data rich environments: a report on a specialist meeting, ACM SIGKDD Explorations. 1(2), 105-107 https://doi.org/10.1145/846183.846208
  6. Han, J., Kamber, M., 'Data Mining: Concepts and Techniques,' Morgan Kaufman, 2001
  7. Quinlan J R 1986 Introduction of decision tree. Machine Learing 1:81-106 https://doi.org/10.1007/BF00116251
  8. Koperski, K., Han, J., and Stefanovic, N., 1998, An efficient two-step method for classification of spatial data, Proc. International Symposium on Spatial Data Handling(SDH '98), Vancou-ver, Canada, 45-54
  9. Kaneko, K., Globally coupled chaos violates the law of large numbers but not the central-limit theorem, Physical Review Letters 65 (12), pp. 1391-1394, 1990 https://doi.org/10.1103/PhysRevLett.65.1391
  10. Xiang Li, Christophe Claramunt, 'A Spatial Entropy-Based Decision Tree for Classification of Geographical Information,' Transactions in GlS, 2006 https://doi.org/10.1111/j.1467-9671.2006.01006.x
  11. Ester M, Kriegel H, and Sander J 1997 Spatial datamining: A (eds) Proceedings of the Fifth International Symposium on Large Spatial Databases (SSD'97) Berlin, Springer Leture Notes in Computer Science No 1262: 48-66 https://doi.org/10.1007/3-540-63238-7_24
  12. De Maesschalck R., Jouan-Rimbaud D., Massart D.L., 'The Mahalanobis distance,' Chemomerics and Intelligent Laboratory Systems, Vol, 50, No. 1, 2000
  13. Pal N R and Chakraborty S 2001 Fuzzy rule extraction from ID3-type decision trees for real data. IEEE Transactions on Systems Man and Cybernetics Part B-Cybernetics 31: 745-54 https://doi.org/10.1109/3477.956036
  14. Shekhar S, Zhang P, Huang Y, And Vatsavai R 2003 Trends in spatial data mining, In Kargupta H, Joshi A, Sivakumar K and Yesha Y (eds) Data Mining: Next Generation Challenges and Future Directions. London, AAAI Press: 357-801
  15. Mitchell T M 1997 Machine Learning, New York, McGraw-Hill