Sampling-Based Automated Parameter Estimation for Canopy Clustering

샘플링 기반 Canopy Clustering 파라미터 설정 기법

  • 최성운 (고려대학교 IT융합학과) ;
  • 유승학 (고려대학교 IT융합학과) ;
  • 윤성로 (고려대학교 전기전자전파공학과)
  • Published : 2012.06.22

Abstract

대용량 데이터를 효율적으로 군집화하기위해 개발된 Canopy Clustering은 2개의 파라미터 (T1, T2)에 기반하여 Canopy 형성이 결정되며, 결과적으로 이들 파라미터에 의해 군집화 결과가 크게 달라질 수 있다. 이에 따라 데이터의 특성을 잘 반영하는 파라미터 값을 적절히 선택하는 것이 매우 중요하지만, 자동화된 파라미터 설정 기법의 부재로 인하여, 기존 연구에서는 사용자의 경험에 의하여 Canopy Clustering의 파라미터 값을 설정하는 것이 일반적이었다. 본 논문에서는 통계적 샘플링을 이용하여 T1, T2의 값을 효과적으로 설정하는 방법을 제안한다.

Keywords

Acknowledgement

Supported by : 한국연구재단