고차원 범주형 데이터를 위한 투영 군집화 기법의 핵심 요소 개발

Development of Core Components of Projected Clustering for High-Dimensional Categorical Data

  • 김민호 (한국전자통신연구원, 바이오인포매틱스팀) ;
  • Kim Min-Ho (Bioinformatics Team, Electronics and Telecommunications Research Institute (ETRI)) ;
  • Ramakrishna R.S. (Dept. of Information & Communications, Gwangju Institute of Science and Technology (GIST))
  • 발행 : 2006.06.01

초록

본 논문은 고차원의 범주형 데이터에 대한 군집화에 대해서 다룬다. 기존의 범주형 데이터 객체를 위한 유사성(상이성) 계측들의 기저에 깔려 있는 한계점은 수치형 데이터에서와 같은 순서화 (ordering)의 부재와 데이터의 고차원성과 희소성에 기인하는데, 이를 효과적으로 극복할 수 있는 기법이 투영 군집화이다. 본 논문에서는 고차원의 범주형 데이터를 효과적으로 처리할 수 있는 투영 군집화를 다루며 핵심 요소인 군집 차원의 정의와 군집 응집도를 제안한다.

키워드