Effective Time Interval Clustering Algorithm of Data Stream Environment

데이터 스트림 환경에서 임의 시간 구간에 대한 효율적 클러스터링 알고리즘

  • 장주현 (강원대학교 컴퓨터과학과) ;
  • 문양세 (강원대학교 컴퓨터과학과) ;
  • 노희영 (강원대학교 컴퓨터과학과)
  • Published : 2006.06.01

Abstract

최근에 데이터의 양이 방대하게 늘어남에 따라 이러한 데이터의 처리를 위한 여러 연구들이 진행되어지고 있다. 이 중에 데이터들 간의 군집 관계를 파악하기 위하여 사용되는 클러스터링에 관한 연구가 많이 수행되었는데, 이중 BIRCH는 대용량의 데이터를 처리하는데 있어서 적합한 모델로 제시되고 있다. 하지만 BIRCH는 데이터 스트림 환경에서 클러스터링은 효과적이지 못한 단점을 가지고 있다. 본 논문은 데이터 스트림 환경에서 과거의 임의 시간구간에 대한 클러스터링을 수행하는 방법을 제안한다. 이를 위하여 CF-트리를 일정 시간 마다 생성 및 저장하고 이를 이용하여 사용자가 원하는 시간 구간에 대해 동안의 클러스터링을 수행한다. 본 논문에서는 임의 시간구간에 대한 효율적인 클러스터링을 위해 기존의 CF-트리 노드 구조에 추가 데이터를 사용하는 $CF^{\delta}$-트리를 제안한다. 그리고 ${\delta}$에 대한 연구를 통해, 근사적 접근법을 제안하였다.

Keywords