• 제목/요약/키워드: K-means 군집분석

검색결과 312건 처리시간 0.021초

자동화 K-평균 군집방법 및 R 구현 (Automated K-Means Clustering and R Implementation)

  • 김성수
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.723-733
    • /
    • 2009
  • K-평균 군집분석이 가지는 두 가지 근본적인 어려움은 사전에 미리 군집 수를 정해야 하는 문제와 초기 군집중심에 따라 결과가 달라질 수 있는 문제이다. 본 연구에서는 이러한 문제를 해결하기 위한 자동화 K-평균 군집분석 절차를 제안하고, R을 이용하여 구현한 결과를 제공한다. 자동화 K-평균 군집분석에서 제안된 절차는 처음 단계로서 계층적 군집분석을 행한 후 이를 이용하여 군집 수와 초기 군집수를 자동으로 정하고, 다음 단계로 이 결과를 이용하여 K-평균 군집분석을 수행하는 방법을 택하였다. 처음 단계에서 이용된 계층적 군집분석 방법으로는 Ward의 군집분석을 한 후에 Mojena의 규칙을 이용하여 군집 수를 정하는 방법을 택하거나, 모형근거 군집분석방법을 수행한 후에 BIC 값을 이용하여 군집 수를 정하는 방법을 이용하였다. 제안된 자동화 K-평균 군집절차에는 대량자료의 분석에도 용이하게 이용될 수 있도록 반복된 표본추출 방법을 이용하여 군집 수 및 군집 중심을 구하는 절차를 포함하였다. 구현된 R 프로그램은 www.knou.ac.kr/ sskim/autokmeans.r에서 제공하고 있다.

확률적 reduced K-means 군집분석 (Probabilistic reduced K-means cluster analysis)

  • 이승훈;송주원
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.905-922
    • /
    • 2021
  • 라벨 없이 진행되는 비지도 학습 중 하나인 군집분석은 자료에 어떤 그룹이 내포되어 있는지 사전 지식이 없을 경우에 군집을 발굴하고, 군집 간의 특성 차이와 군집 안에서의 유사성을 분석하고자 할 때 유용한 방법이다. 기본적인 군집분석 중 하나인 K-means 방법은 변수의 개수가 많아질 때 잘 동작하지 않을 수 있으며, 군집에 대한 해석도 쉽지 않은 문제가 있다. 따라서 고차원 자료의 경우 주성분 분석과 같은 차원 축소 방법을 사용하여 변수의 개수를 줄인 후에 K-means 군집분석을 행하는 Tandem 군집분석이 제안되었다. 하지만 차원 축소 방법을 이용해서 찾아낸 축소 차원이 반드시 군집에 대한 구조를 잘 반영할 것이라는 보장은 없다. 특히 군집의 구조와는 상관없는 변수들의 분산 또는 공분산이 클 때, 주성분 분석을 통한 차원 축소는 오히려 군집의 구조를 가릴 수 있다. 이에 따라 군집분석과 차원 축소를 동시에 진행하는 방법들이 제안되어 왔다. 그 중에서도 본 연구에서는 De Soete와 Carroll (1994)이 제안한 방법론을 확률적인 모형으로 바꿔 군집분석을 진행하는 확률적 reduced K-means를 제안한다. 모의실험 결과 차원 축소를 배제한 군집분석과 Tandem 군집분석보다 더 좋은 군집을 형성함을 알 수 있었고 군집 당 표본 크기에 비해 변수의 개수가 많은 자료에서 기존의 비 확률적 reduced K-means 군집분석에 비해 우수한 성능을 확인했다. 보스턴 자료에서는 다른 군집분석 방법론보다 명확한 군집이 형성됨을 확인했다.

그리드 기반 표본의 무게중심을 이용한 케이-평균군집화 (K-means clustering using a center of gravity for grid-based sample)

  • 이선명;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권1호
    • /
    • pp.121-128
    • /
    • 2010
  • 케이-평균 군집분석은 데이터들을 k개의 군집으로 임의로 분할을 하여 군집의 평균을 대푯값으로 분할해 나가는 방법으로 데이터들을 유사성을 바탕으로 재배치를 하는 방법이다. 이러한 케이-평균 군집분석은 시장조사, 패턴분석 및 인식, 그리고 이미지 처리 분야 등에서 폭넓게 응용되고 있다. 그러나 대용량의 데이터베이스를 분석대상으로 하므로 그 만큼 데이터 처리 시간이 많이 소요되는 것이 문제 중의 하나이다. 특히 웹이 보편화된 현재 사용자들의 다양한 패턴을 분석하기 위한 데이터 마이닝 방법이 사용되어지고 있는데 처리 속도 문제는 더욱 중요하게 생각하고 있다. 이러한 속도 문제를 해결하기 위해 본 논문에서는 분할 군집법에서 가장 일반적으로 사용되고 있는 케이-평균 알고리즘에 대해 그리드를 기반으로 한 무게중심 알고리즘을 제안하고자 한다.

기온과 강수량의 수치모델 격자자료를 이용한 기상관측지점의 월별 군집화 (Cluster analysis by month for meteorological stations using a gridded data of numerical model with temperatures and precipitation)

  • 김희경;김광섭;이재원;이영섭
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권5호
    • /
    • pp.1133-1144
    • /
    • 2017
  • 기상자료를 이용한 군집분석은 기상 특성에 근거한 기상 지역의 세분화를 가능하게 하고 군집을 이루는 지형별 기상 특성의 파악을 용이하게 한다. 이때 기상관측자료를 이용한 군집분석은 관측지점의 밀도가 다르기 때문에 우리나라의 기상특성이 고르게 반영되지 못할 수 있다. 반면 수치모델 격자자료는 $5km{\times}5km$ 간격으로 조밀하고 고른 자료의 생산이 가능하므로 우리나라의 기상 특성을 고르게 반영할 수 있다. 본 연구에서는 기온과 강수량의 수치모델 격자자료를 이용하여 군집분석을 수행하고, 그 결과를 바탕으로 기상관측지점에 대한 군집을 결정하였다. 기상 특성이 월별로 상이할 수 있기 때문에 군집분석은 월별로 수행하였으며, K-Means 군집분석 방법의 단점을 보완하고자 계층적 군집분석 방법인 Ward 방법과 결합하여 적용하였다. 그 결과 우리나라 기상관측지점들에 대해 시 공간적으로 세분화된 군집화가 이루어졌다.

AMI로부터 측정된 전력사용데이터에 대한 군집 분석 (Clustering load patterns recorded from advanced metering infrastructure)

  • 안효정;임예지
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.969-977
    • /
    • 2021
  • 본 연구에서는 Hierarchical K-means 군집화 알고리즘을 이용해 서울의 A아파트 가구들의 전력 사용량 패턴을 군집화 하였다. 차원을 축소해주면서 패턴을 파악할 수 있는 Hierarchical K-means 군집화 알고리즘은 기존 K-means 군집화 알고리즘의 단점을 보완하여 최근 대용량 전력 사용량 데이터에 적용되고 있는 방법론이다. 본 연구에서는 여름 저녁 피크 시간대의 시간당 전력소비량 자료에 대해 군집화 알고리즘을 적용하였으며, 다양한 군집 개수와 level에 따라 얻어진 결과를 비교하였다. 결과를 통해 사용량에 따라 패턴이 군집화 됨을 확인하였으며, 군집화 유효성 지수들을 통해 이를 비교하였다.

성장곡선을 이용한 퍼지군집분석 기법의 연구 (A Study of the Fuzzy Clustering Algorithm using a Growth Curve Model)

  • 김응환;이석훈
    • 응용통계연구
    • /
    • 제14권2호
    • /
    • pp.439-448
    • /
    • 2001
  • 본 연구는 시간자료(Longitudinal data)의 분석을 위하여 Fuzzy k-means 군집분석 방법을 확장한 알고리즘을 제안한다. 이 논문에서 제안하는 군집분석방법은 각각의 개체에 대응하는 성장곡선에 Fuzzy k-means 군집분석의 알고리즘을 결합하는 것을 핵심아이디어로한다. 분석결과는 생성된 군집을 성장곡선모형으로 표현할 수 있고 또한 추정된 모형의 식을 활용하여 새로운 개체를 분류도 할수 있음을 보인다. 그리고 이 군집분석방법은 아직 자라지 않은 나이 어린 개체가 미래에 어느 군집에 속할 것인가 하는 분류와 함께 이 개체의 향후 성장상태를 예측을 하는 데에도 적용이 가능하다. 제안된 알고리즘을 원숭이(macaque)의 상악동(maxillary sinus)의 자료에 적용한 실례로 보인다.

  • PDF

시간단위 전력사용량 시계열 패턴의 군집 및 분류분석 (Clustering and classification to characterize daily electricity demand)

  • 박다인;윤상후
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권2호
    • /
    • pp.395-406
    • /
    • 2017
  • 전력 공급 시스템의 효율적인 운영을 위해 전력수요예측은 필수적이다. 본 연구에서는 군집분석과 분류분석을 이용하여 일 단위 시간별 전력수요량 시계열 패턴의 유형을 살펴보고자 한다. 전력거래소에서 수집된 2008년 1월 1일부터 2012년 12월 31일까지의 일 단위 시간별 전력수요량 데이터를 추세성분, 계절성분, 오차 성분으로 구성된 시계열 자료로 변환하여 사용하였다. 추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법은 k-평균 군집분석 (k-means), 가우시안혼합모델 혼합 모델 군집분석 (Gaussian mixture model), 함수적 군집분석 (functional clustering)을 고려하였다. 주성분분석을 통해 24시간 자료를 2개의 요인로 축소한 후 k-평균 군집분석과 가우시안 혼합 모델, 함수적 군집분석을 수행하였다. 군집분석 결과를 토대로 2008년부터 2011년까지 총 4년간 데이터를 4가지 분류분석방법인 의사결정나무, RF (random forest), Naive bayes, SVM (support vector machine)을 통해 훈련시켜 2012년 군집을 예측하였다. 분석 결과 가우시안 혼합 분포기반 군집분석과 RF를 이용한 군집예측 결과의 성능이 가장 우수하였다.

주성분 분석과 k 평균 알고리즘을 이용한 문서군집 방법 (Document Clustering Technique by K-means Algorithm and PCA)

  • 김우생;김수영
    • 한국정보통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.625-630
    • /
    • 2014
  • 컴퓨터의 발전과 인터넷의 급속한 발전으로 정보의 양이 폭발적으로 증가하게 되었고 이러한 방대한 양의 정보들은 대부분 문서 형태로 관리되기 때문에, 이들을 효과적으로 검색하고 처리하는 방법의 연구가 필요하다. 문서 군집은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 대용량의 문서들을 자동으로 분류하고 검색하고 처리하는데 효율과 정확성을 증대시킨다. 본 논문은 특징 벡터 공간 상의 벡터들로 표현되는 문서들을 K 평균 알고리즘으로 군집화할 때, 주성분 분석을 사용하여 초기 시드점들을 선정함으로써 군집의 효율을 높이는 방법을 제안한다. 실험 결과를 통하여 제안하는 기법이 기존의 K 평균 알고리즘보다 좋은 결과를 얻을 수 있음을 보였다.

효모 마이크로어레이 유전자발현 데이터에 대한 군집화 비교 (Comparison of clustering with yeast microarray gene expression data)

  • 이경아;김재희
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권4호
    • /
    • pp.741-753
    • /
    • 2011
  • 마이크로어레이 유전자 발현데이터인 효모데이터를 이용하여 군집분석을 실시하였다. 모형기반 군집방법, K-평균법, 중앙값 중심분포 (PAM), 자기 조직화 지도 (SOM), 계층적 Ward 군집방법을 이용하여 군집화를 실시하고, 연결성 측도 (connectivity), Dunn지수, 실루엣 측도 (silhouette)를 이용하여 각 군집방법에 대한 유효성을 측정하고 군집분석 결과를 비교하고자한다.

군집분석 비교 및 한우 관능평가데이터 군집화 (A Comparison of Cluster Analyses and Clustering of Sensory Data on Hanwoo Bulls)

  • 김재희;고윤실
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.745-758
    • /
    • 2009
  • 자발적인 군집을 유도하는 다변량 통계기법으로 널리 사용되는 군집분석은 데이터에 기반한 탐색적 방법으로 쓰이며 군집원칙에 따라 여러 가지 방법이 제안되어 왔다. 또한 군집화된 결과에 대하여 유효성을 측정하는 측도도 다양한방법이 개발되었다. 본 연구에서는 계층적 군집분석 방법으로 최장연결법과 Ward의 방법, 비계층적 군집분석 방법으로 K-평균법 그리고 확률분포정보를 활용한 모형기반 군집분석방법을 이용하여 모의실험으로 군집분석을 실시하고 군집유효성 측도로는 연결성, Dunn 지수, 실루엣을 구하여 각 군집방법에 대해 유효성을 비교한다. 또한, 한우 관능평가 데이터에 군집분석을 적용하여 최적의 군집 상황을 구하고자 한다.