A Selection Method of an Optimal Number of Clusters Using a Fuzzy Cluster Validity Measure

퍼지 클러스터 타당성 척도를 이용한 최적 클러스터 수의 선택방법

  • 이현숙 (서강대학교 전자계산학과 인공지능 연구실) ;
  • 오경환 (서강대학교 전자계산학과 인공지능 연구실)
  • Published : 1996.10.01

Abstract

클러스터의 타당성 정도를 계산하기 위한 측정자로서, 퍼지 분할된 데이터의 서로 다른 클래스 사이의 분리성과 한 클래스안에서의 밀접성의 비율, G를 정의하였다. 본 논문에서는 이렇게 정의된 G로부터, 각 클러스터가 가지는 데이터 수의 차이점을 고려하여 하나의 데이터 집합에 대하여 서로 다른 분할들을 비교할 수 있도록 하기 위하여, IG를 재정의하였다. 기존의 클러스터 타당성 전략은 클러스터 수의 함수로서, 주어진 척도의 값을 계산하여 기록한 후 그 값의 변화가 가장 큰 경우를 최적의 클러스터의 수로서 선택하였다. 이때 그 값의 변화를 고려하기 위한 주관적인 해석이 필요하게 된다. 본 논문에서는 주관적인 해석 없이 IG를 이용하여 최적의 클러스터 수를 결정하기 위한 방법을 제안하고자 한다. 제안된 방법은 널리 알려진 Iris data와 서로 다른 클러스터 인구수를 가지는 가상의 데이터 집합에 적용하여 그 타당성을 보인다.

Keywords