Efficient K-means Clustering for High-dimensional Large Data

고차원 대규모 데이터를 위한 효율적인 K-means 클러스터링

  • Yoon, Tae-Sik (Dept. of Electronic Engineering and Computer Science, Seoul National University) ;
  • Shim, Kyu-Seok (Dept. of Electronic Engineering and Computer Science, Seoul National University)
  • 윤태식 (서울대학교 전기컴퓨터 공학부) ;
  • 심규석 (서울대학교 전기컴퓨터 공학부)
  • Published : 2011.06.29

Abstract

클러스터링은 데이터 포인트들을 그룹으로 묶어 데이터를 분석하는데 유용하다. 특히 K-means는 가장 널리 쓰이는 클러스터링 알고리즘으로 k개의 군집(Cluster)을 찾는다. 본 논문에서는 기존의 K-means 알고리즘과 비교해 고차원 대규모데이터에 대해서 효율적으로 동작하는 K-means 알고리즘을 제안한다. 제안된 알고리즘은 기존의 알고리즘에서와 같이 거리 정보를 이용해 불필요한 계산을 줄여나가며 또한 움직임 없는 군집들을 계산에서 제외하여 수행시간을 단축한다. 제안된 알고리즘은 기존의 관련연구에서 제안된 알고리즘에 비해 공간을 적게 쓰면서 동시에 빠르다. 실제 고차원 데이터 실험을 통해서 제안된 알고리즘의 효율성을 보였다.

Keywords

Acknowledgement

Supported by : 한국연구재단