한국정보과학회:학술대회논문집 (Proceedings of the Korean Information Science Society Conference)
- 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
- /
- Pages.69-71
- /
- 2000
- /
- 1598-5164(pISSN)
데이터 마이닝을 위한 계층적 대표값 군집화 기법
A Hierarchical Representatives Clustering Technique for Data Mining
초록
군집화는 데이터 집합을 유사한 데이터 개체들의 군집들로 분할하여 데이터 속에 존재하는 의미 있는 정보를 얻는 과정이다. 대부분의 군집화 기법들은 비교적 적은 양의 데이터를 대상으로 한 것이고 다차원 대용량의 데이터 처리에 관한 문제는 다루지 않고 있어서 데이터 마이닝을 위한 군집화 기법으로는 부적절하다. 따라서 본 논문을 통해 대용량의 데이터에 적용할 수 있는 새로운 군집화 알고리즘인 계층적 대표값 군집화(HRC) 기법을 제안한다. HRC는 자기조직화지도와 계층적 군집화 기법을 접목한 하이브리드 방법으로 두 단계에 거쳐 군집화를 수행한다. 첫 번째 단계에서 자기조직화지도를 통해 데이터를 요약하고, 두 번째 단계에서 요약된 대표값 정보만을 가지고 계층적인 군집화를 수행한다. 또한, 두 번째 단계의 계층적 군집화 적용시 양질의 군집을 발견하기 위해 군집간의 유사도를 측정하는 새로운 척도를 고안하였다. 그리고 실험을 통해 HRC와 기존 군집화 알고리즘이 발견한 군집의 질을 비교하여 성능을 평가했다.
키워드