• 제목/요약/키워드: 군집분석(群集分析)

검색결과 3,880건 처리시간 0.03초

최적의 군집을 찾기 위한 상대적 군집 평가 방법 (Clustering Validity Assessment Using Relative Criteria for finding Optimal Clusters)

  • 김영옥;이수원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.334-336
    • /
    • 2002
  • 군집 분석은 데이터의 속성을 분석하여 서로 유사한 패턴을 가진 데이터를 묶는 방법이다. 군집 분석은 많은 응용 분야에서 쓰이고 있으나, 수행된 군집 분석 결과가 과연 정확한 결과이고 의미 있는 결과인지를 평가하는데 어려움이 있다. 본 논문에서는 군집이 형성된 데이터를 분석하여 군집 분석 결과를 평가하는 상대적 군집 평가 방법을 제안한다. 본 논문에서는 상대적 군집 평가 방법의 인덱스를 정의하고 형성된 군집 분석 결과에 적용해 최적의 군집, 의미 있는 군집을 찾을 수 있음을 보인다. 또한 실험을 통해 제안한 인덱스의 적합성을 보이며, 제안한 인덱스가 기존의 인덱스에 비해 최적의 군집, 의미 있는 군집을더 잘 찾을 수 있음을 보인다.

  • PDF

자동화 K-평균 군집방법 및 R 구현 (Automated K-Means Clustering and R Implementation)

  • 김성수
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.723-733
    • /
    • 2009
  • K-평균 군집분석이 가지는 두 가지 근본적인 어려움은 사전에 미리 군집 수를 정해야 하는 문제와 초기 군집중심에 따라 결과가 달라질 수 있는 문제이다. 본 연구에서는 이러한 문제를 해결하기 위한 자동화 K-평균 군집분석 절차를 제안하고, R을 이용하여 구현한 결과를 제공한다. 자동화 K-평균 군집분석에서 제안된 절차는 처음 단계로서 계층적 군집분석을 행한 후 이를 이용하여 군집 수와 초기 군집수를 자동으로 정하고, 다음 단계로 이 결과를 이용하여 K-평균 군집분석을 수행하는 방법을 택하였다. 처음 단계에서 이용된 계층적 군집분석 방법으로는 Ward의 군집분석을 한 후에 Mojena의 규칙을 이용하여 군집 수를 정하는 방법을 택하거나, 모형근거 군집분석방법을 수행한 후에 BIC 값을 이용하여 군집 수를 정하는 방법을 이용하였다. 제안된 자동화 K-평균 군집절차에는 대량자료의 분석에도 용이하게 이용될 수 있도록 반복된 표본추출 방법을 이용하여 군집 수 및 군집 중심을 구하는 절차를 포함하였다. 구현된 R 프로그램은 www.knou.ac.kr/ sskim/autokmeans.r에서 제공하고 있다.

인위적 데이터를 이용한 군집분석 프로그램간의 비교에 대한 연구

  • 김성호;백승익
    • 지능정보연구
    • /
    • 제7권2호
    • /
    • pp.35-49
    • /
    • 2001
  • 인터넷 비즈니스나 전자상거래와 연관되어 고객관계관리(Customer Relationship management :CRM)에 대한 관심이 널리 확산됨으로 해서 군집분석에 대한 관심이 한층 높아졌고, 다양한 군집분석 프로그램이 시장에 소개되어 지고 있다. 그런, 군집분석 프로그램들은 다른 데이터 분석 기법과는 달리 그들의 성능을 측정하기가 매우 힘들다. 본 논문에서는 이미 알려져 있는 군집구조를 지닌 인위적 데이터를 사용하여 다양한 군집분석 프로그램을 평가할 수 있는 하나의 방법론을 제시하고, 그 방법론의 유용성을 보여 주기 위해 현재 많이 사용하고 있는 네 가지의 군집분석 프로그램을 본 논문에서 제시한 방법론을 사용하여 평가하는데 그 주요 목적을 두고 있다. 본 연구에서 두 가지의 반복적 군집분석 프로그램(Convergent Cluster Analysis:CCA, SPSS의 Clementine), 전통적인 단순군집 프로그램(One-Shot Clustering Program: Howard-Harris 프로그램), 그리고 IBM의 데이터 마이닝 기법 중 하나인 데모그래픽 군집분석 프로그램의 성능을 비교한 결과, 군집분석을 위하여 다른 군집분석 방법 보다 좀 더 지능적으로 초기치를 생성한 CCA방법이 가장 우월한 성능을 보여 주었다.

  • PDF

시각적 군집분석에 대한 전략 (Strategy for Visual Clustering)

  • 허문열
    • 응용통계연구
    • /
    • 제14권1호
    • /
    • pp.177-190
    • /
    • 2001
  • 전통적으로 많이 사용하는 군집분석의 방법들은 개체간의 거리를 고려하여 이들을 분류해 내는 것이며, 따라서 거리 측정 방법에 따라 여러 형태의 군집분석 방법이 나타나게 된다. 어떤 방법을 적용하던 간에 그 결과는 고정된 수치로써 나타난다. 다차원 자료의 구조파악이 몇 개의 수치로 나타나게 되면 어쩔 수 없이 정보의 손실이 발생하게 된다. 이를 보완하기 위해 시각적 매체를 동원하여 다차원 자료의 구조를 파악하는 연구가 있었으며, 이를 시각적 군집분석이라고 명명하고 있다. 본 연구에서는 시각적 군집분석에 대한 기본적 개념과 이를 위한 통계 도형의 활용, 구현방법 등에 대해 살펴보기로 한다.

  • PDF

시간단위 전력사용량 시계열 패턴의 군집 및 분류분석 (Clustering and classification to characterize daily electricity demand)

  • 박다인;윤상후
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권2호
    • /
    • pp.395-406
    • /
    • 2017
  • 전력 공급 시스템의 효율적인 운영을 위해 전력수요예측은 필수적이다. 본 연구에서는 군집분석과 분류분석을 이용하여 일 단위 시간별 전력수요량 시계열 패턴의 유형을 살펴보고자 한다. 전력거래소에서 수집된 2008년 1월 1일부터 2012년 12월 31일까지의 일 단위 시간별 전력수요량 데이터를 추세성분, 계절성분, 오차 성분으로 구성된 시계열 자료로 변환하여 사용하였다. 추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법은 k-평균 군집분석 (k-means), 가우시안혼합모델 혼합 모델 군집분석 (Gaussian mixture model), 함수적 군집분석 (functional clustering)을 고려하였다. 주성분분석을 통해 24시간 자료를 2개의 요인로 축소한 후 k-평균 군집분석과 가우시안 혼합 모델, 함수적 군집분석을 수행하였다. 군집분석 결과를 토대로 2008년부터 2011년까지 총 4년간 데이터를 4가지 분류분석방법인 의사결정나무, RF (random forest), Naive bayes, SVM (support vector machine)을 통해 훈련시켜 2012년 군집을 예측하였다. 분석 결과 가우시안 혼합 분포기반 군집분석과 RF를 이용한 군집예측 결과의 성능이 가장 우수하였다.

확률적 reduced K-means 군집분석 (Probabilistic reduced K-means cluster analysis)

  • 이승훈;송주원
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.905-922
    • /
    • 2021
  • 라벨 없이 진행되는 비지도 학습 중 하나인 군집분석은 자료에 어떤 그룹이 내포되어 있는지 사전 지식이 없을 경우에 군집을 발굴하고, 군집 간의 특성 차이와 군집 안에서의 유사성을 분석하고자 할 때 유용한 방법이다. 기본적인 군집분석 중 하나인 K-means 방법은 변수의 개수가 많아질 때 잘 동작하지 않을 수 있으며, 군집에 대한 해석도 쉽지 않은 문제가 있다. 따라서 고차원 자료의 경우 주성분 분석과 같은 차원 축소 방법을 사용하여 변수의 개수를 줄인 후에 K-means 군집분석을 행하는 Tandem 군집분석이 제안되었다. 하지만 차원 축소 방법을 이용해서 찾아낸 축소 차원이 반드시 군집에 대한 구조를 잘 반영할 것이라는 보장은 없다. 특히 군집의 구조와는 상관없는 변수들의 분산 또는 공분산이 클 때, 주성분 분석을 통한 차원 축소는 오히려 군집의 구조를 가릴 수 있다. 이에 따라 군집분석과 차원 축소를 동시에 진행하는 방법들이 제안되어 왔다. 그 중에서도 본 연구에서는 De Soete와 Carroll (1994)이 제안한 방법론을 확률적인 모형으로 바꿔 군집분석을 진행하는 확률적 reduced K-means를 제안한다. 모의실험 결과 차원 축소를 배제한 군집분석과 Tandem 군집분석보다 더 좋은 군집을 형성함을 알 수 있었고 군집 당 표본 크기에 비해 변수의 개수가 많은 자료에서 기존의 비 확률적 reduced K-means 군집분석에 비해 우수한 성능을 확인했다. 보스턴 자료에서는 다른 군집분석 방법론보다 명확한 군집이 형성됨을 확인했다.

군집분석을 통한 자연휴양림 이용객의 시장세분화 (Market Segmentation on Recreational Forest Visitors by Cluster Analysis)

  • 신현규;신홍철
    • 한국콘텐츠학회논문지
    • /
    • 제10권3호
    • /
    • pp.364-372
    • /
    • 2010
  • 본 연구의 목적은 자연휴양림의 방문한 이용객들의 방문동기를 통한 군집분석을 통하여 이용객을 분류하고 그에 따른 행동의도간의 차이를 검증하여 그에 따른 세분화된 이용객들의 차별화된 마케팅 및 경영전략을 수립하는데 그 목적이 있다고 할 수 있다. 이의 측정을 위하여 1년 이내에 자연휴양림을 이용한 적이 있는 방문객들을 대상으로 자연휴양림 방문동기에 대한 요인 분석을 실시한 후 군집분석을 실시하여 군집을 분류하였으며, 분류된 군집을 인구통계학적 특성과의 교차분석을 실시하여 군집의 유형화를 실시하였다. 유형화된 군집을 통하여 만족도, 재방문 및 추천의도에 대한 차이검정을 실시하였다. 분석결과 방문동기에 대한 요인분석 결과 3개의 요인으로 분류되었으며, 이를 통해 계층적 군집분석과 K-means군집분석을 통하여 2개의 군집을 도출하였으며, 2개의 군집을 다시 교차분석을 통하여 군집의 유형화를 실시하여 미혼의 100만원 미만의 군집과 기혼의 200~300만원의 군집 집단으로 유형화를 실시하였다. 이 군집을 자연휴양림 방문 후 행동의도간의 차이분석을 실시하였으며, 그 결과 전반적으로 만족, 즐거운 시간을 보냄, 방문은 현명한 선택, 재방문의도, 추천의도 모두 유의한 차이가 있는 것으로 나타났다. 군집 2인 기혼의 200~300만원의 집단에 더 높은 행동의도를 보이고 있는 것으로 나타나 차별화된 마케팅 전략이 필요시 되며, 또한 자연휴양림 공익적 성격을 고려하여 각 집단에 대하여 모두 소구할 수 있는 서설 및 서비스의 개발이 요구 된다.

군집분석 방법들을 비교하기 위한 상사그림 (The Similarity Plot for Comparing Clustering Methods)

  • 장대흥
    • 응용통계연구
    • /
    • 제26권2호
    • /
    • pp.361-373
    • /
    • 2013
  • 군집분석을 위한 알고리즘은 매우 많다. 이러한 군집분석 방법들이 개체들을 어떻게 여러 개의 군집으로 나누는 지를 서로 비교하기 위해서는 나누어지는 군집들이 얼마나 동일한가를 알 수 있는 동의 측도가 필요하다. 우리가 고려하여야 할 군집분석 방법들이 많아질수록 덩달아 동의 측도들 값도 많아지게 된다. 그래서 복수 개의 군집분석 방법들과 대응되는 동의 측도값들을 한 눈에 확인할 수 있는 도구가 필요하다. 본 논문을 통하여 군집분석 방법들과 대응되는 동의 측도값들을 한 눈에 확인할 수 있는 그래픽도구들을 제안하고자 한다.

데이터 마이닝에서의 군집분석 알고리즘 비교 연구

  • 이영섭;안미영
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2003년도 춘계학술대회
    • /
    • pp.19-25
    • /
    • 2003
  • 데이터베이스에 내재된 패턴이나 관계를 묘사한 것만으로도 의사결정에 필요한 정보를 제공할 수 있는데 이 데이터들의 변수들을 비슷한 특징을 가지는 소그룹으로 나누어 패턴을 찾는 것을 군집분석이라 한다. 이러한 군집 분석에는 분리군집방법과 계층적군집방법이 있는데, 재할당이 가능한 분리군집방법의 여러 알고리즘에 대해 비교해보자. 분리군집알고리즘에는 중심을 평균으로 하는 k-평균 알고리즘과, 중심을 메도이드로하는 PAM, CLARA, CLARANS 알고리즘이 있다. 이러한 알고리즘에 대한 이론과, 장단점을 설명하고, 분산과 중심들간의 평균 거리로 비교해 본다.

  • PDF

군집분석 기법을 이용한 공공도서관 그룹화에 대한 연구 (A Study of Library Grouping using Cluster Analysis Methods)

  • 곽철완
    • 한국비블리아학회지
    • /
    • 제31권3호
    • /
    • pp.79-99
    • /
    • 2020
  • 이 연구의 목적은 공공도서관 그룹화를 위해 적합한 군집분석 모델을 파악하고 그 특징을 분석하는데 있다. 국가도서관통계시스템의 공공도서관 통계 데이터를 사용하였으며, 군집분석 기법의 3가지 모델을 적용하였다. 공공도서관 규모를 기준으로 군집분석을 실시한 결과 크게 2가지 군집으로 구분되었으며, 군집의 크기는 크게 한쪽으로 치우쳤다. 그룹화 모델로 도서관 규모를 기준으로 삼으면, 계층적 군집분석의 와드측정법과 k-평균군집분석 모델이 적합하였다. 공공도서관 그룹화 연구 결과에 대한 시사점은 다음과 같다. 첫째, 통계 데이터 외에 도서관 서비스 관련 다양한 데이터 수집이 진행되어야 한다. 둘째, 분석 대상이 되는 데이터 세트에 적합한 분석 모델이 적용되어야 한다. 셋째, 도서관 서비스 향상을 위해 군집분석 기법의 다양한 분야 적용 가능성에 대한 적극적인 연구가 필요가 있다.