• 제목, 요약, 키워드: 군집분석

검색결과 3,197건 처리시간 0.03초

최적의 군집을 찾기 위한 상대적 군집 평가 방법 (Clustering Validity Assessment Using Relative Criteria for finding Optimal Clusters)

  • 김영옥;이수원
    • 한국정보과학회:학술대회논문집
    • /
    • /
    • pp.334-336
    • /
    • 2002
  • 군집 분석은 데이터의 속성을 분석하여 서로 유사한 패턴을 가진 데이터를 묶는 방법이다. 군집 분석은 많은 응용 분야에서 쓰이고 있으나, 수행된 군집 분석 결과가 과연 정확한 결과이고 의미 있는 결과인지를 평가하는데 어려움이 있다. 본 논문에서는 군집이 형성된 데이터를 분석하여 군집 분석 결과를 평가하는 상대적 군집 평가 방법을 제안한다. 본 논문에서는 상대적 군집 평가 방법의 인덱스를 정의하고 형성된 군집 분석 결과에 적용해 최적의 군집, 의미 있는 군집을 찾을 수 있음을 보인다. 또한 실험을 통해 제안한 인덱스의 적합성을 보이며, 제안한 인덱스가 기존의 인덱스에 비해 최적의 군집, 의미 있는 군집을더 잘 찾을 수 있음을 보인다.

  • PDF

자동화 K-평균 군집방법 및 R 구현 (Automated K-Means Clustering and R Implementation)

  • 김성수
    • 응용통계연구
    • /
    • v.22 no.4
    • /
    • pp.723-733
    • /
    • 2009
  • K-평균 군집분석이 가지는 두 가지 근본적인 어려움은 사전에 미리 군집 수를 정해야 하는 문제와 초기 군집중심에 따라 결과가 달라질 수 있는 문제이다. 본 연구에서는 이러한 문제를 해결하기 위한 자동화 K-평균 군집분석 절차를 제안하고, R을 이용하여 구현한 결과를 제공한다. 자동화 K-평균 군집분석에서 제안된 절차는 처음 단계로서 계층적 군집분석을 행한 후 이를 이용하여 군집 수와 초기 군집수를 자동으로 정하고, 다음 단계로 이 결과를 이용하여 K-평균 군집분석을 수행하는 방법을 택하였다. 처음 단계에서 이용된 계층적 군집분석 방법으로는 Ward의 군집분석을 한 후에 Mojena의 규칙을 이용하여 군집 수를 정하는 방법을 택하거나, 모형근거 군집분석방법을 수행한 후에 BIC 값을 이용하여 군집 수를 정하는 방법을 이용하였다. 제안된 자동화 K-평균 군집절차에는 대량자료의 분석에도 용이하게 이용될 수 있도록 반복된 표본추출 방법을 이용하여 군집 수 및 군집 중심을 구하는 절차를 포함하였다. 구현된 R 프로그램은 www.knou.ac.kr/ sskim/autokmeans.r에서 제공하고 있다.

인위적 데이터를 이용한 군집분석 프로그램간의 비교에 대한 연구

  • 김성호;백승익
    • 지능정보연구
    • /
    • v.7 no.2
    • /
    • pp.35-49
    • /
    • 2001
  • 인터넷 비즈니스나 전자상거래와 연관되어 고객관계관리(Customer Relationship management :CRM)에 대한 관심이 널리 확산됨으로 해서 군집분석에 대한 관심이 한층 높아졌고, 다양한 군집분석 프로그램이 시장에 소개되어 지고 있다. 그런, 군집분석 프로그램들은 다른 데이터 분석 기법과는 달리 그들의 성능을 측정하기가 매우 힘들다. 본 논문에서는 이미 알려져 있는 군집구조를 지닌 인위적 데이터를 사용하여 다양한 군집분석 프로그램을 평가할 수 있는 하나의 방법론을 제시하고, 그 방법론의 유용성을 보여 주기 위해 현재 많이 사용하고 있는 네 가지의 군집분석 프로그램을 본 논문에서 제시한 방법론을 사용하여 평가하는데 그 주요 목적을 두고 있다. 본 연구에서 두 가지의 반복적 군집분석 프로그램(Convergent Cluster Analysis:CCA, SPSS의 Clementine), 전통적인 단순군집 프로그램(One-Shot Clustering Program: Howard-Harris 프로그램), 그리고 IBM의 데이터 마이닝 기법 중 하나인 데모그래픽 군집분석 프로그램의 성능을 비교한 결과, 군집분석을 위하여 다른 군집분석 방법 보다 좀 더 지능적으로 초기치를 생성한 CCA방법이 가장 우월한 성능을 보여 주었다.

  • PDF

시각적 군집분석에 대한 전략 (Strategy for Visual Clustering)

  • 허문열
    • 응용통계연구
    • /
    • v.14 no.1
    • /
    • pp.177-190
    • /
    • 2001
  • 전통적으로 많이 사용하는 군집분석의 방법들은 개체간의 거리를 고려하여 이들을 분류해 내는 것이며, 따라서 거리 측정 방법에 따라 여러 형태의 군집분석 방법이 나타나게 된다. 어떤 방법을 적용하던 간에 그 결과는 고정된 수치로써 나타난다. 다차원 자료의 구조파악이 몇 개의 수치로 나타나게 되면 어쩔 수 없이 정보의 손실이 발생하게 된다. 이를 보완하기 위해 시각적 매체를 동원하여 다차원 자료의 구조를 파악하는 연구가 있었으며, 이를 시각적 군집분석이라고 명명하고 있다. 본 연구에서는 시각적 군집분석에 대한 기본적 개념과 이를 위한 통계 도형의 활용, 구현방법 등에 대해 살펴보기로 한다.

  • PDF

시간단위 전력사용량 시계열 패턴의 군집 및 분류분석 (Clustering and classification to characterize daily electricity demand)

  • 박다인;윤상후
    • Journal of the Korean Data and Information Science Society
    • /
    • v.28 no.2
    • /
    • pp.395-406
    • /
    • 2017
  • 전력 공급 시스템의 효율적인 운영을 위해 전력수요예측은 필수적이다. 본 연구에서는 군집분석과 분류분석을 이용하여 일 단위 시간별 전력수요량 시계열 패턴의 유형을 살펴보고자 한다. 전력거래소에서 수집된 2008년 1월 1일부터 2012년 12월 31일까지의 일 단위 시간별 전력수요량 데이터를 추세성분, 계절성분, 오차 성분으로 구성된 시계열 자료로 변환하여 사용하였다. 추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법은 k-평균 군집분석 (k-means), 가우시안혼합모델 혼합 모델 군집분석 (Gaussian mixture model), 함수적 군집분석 (functional clustering)을 고려하였다. 주성분분석을 통해 24시간 자료를 2개의 요인로 축소한 후 k-평균 군집분석과 가우시안 혼합 모델, 함수적 군집분석을 수행하였다. 군집분석 결과를 토대로 2008년부터 2011년까지 총 4년간 데이터를 4가지 분류분석방법인 의사결정나무, RF (random forest), Naive bayes, SVM (support vector machine)을 통해 훈련시켜 2012년 군집을 예측하였다. 분석 결과 가우시안 혼합 분포기반 군집분석과 RF를 이용한 군집예측 결과의 성능이 가장 우수하였다.

군집분석을 통한 자연휴양림 이용객의 시장세분화 (Market Segmentation on Recreational Forest Visitors by Cluster Analysis)

  • 신현규;신홍철
    • 한국콘텐츠학회논문지
    • /
    • v.10 no.3
    • /
    • pp.364-372
    • /
    • 2010
  • 본 연구의 목적은 자연휴양림의 방문한 이용객들의 방문동기를 통한 군집분석을 통하여 이용객을 분류하고 그에 따른 행동의도간의 차이를 검증하여 그에 따른 세분화된 이용객들의 차별화된 마케팅 및 경영전략을 수립하는데 그 목적이 있다고 할 수 있다. 이의 측정을 위하여 1년 이내에 자연휴양림을 이용한 적이 있는 방문객들을 대상으로 자연휴양림 방문동기에 대한 요인 분석을 실시한 후 군집분석을 실시하여 군집을 분류하였으며, 분류된 군집을 인구통계학적 특성과의 교차분석을 실시하여 군집의 유형화를 실시하였다. 유형화된 군집을 통하여 만족도, 재방문 및 추천의도에 대한 차이검정을 실시하였다. 분석결과 방문동기에 대한 요인분석 결과 3개의 요인으로 분류되었으며, 이를 통해 계층적 군집분석과 K-means군집분석을 통하여 2개의 군집을 도출하였으며, 2개의 군집을 다시 교차분석을 통하여 군집의 유형화를 실시하여 미혼의 100만원 미만의 군집과 기혼의 200~300만원의 군집 집단으로 유형화를 실시하였다. 이 군집을 자연휴양림 방문 후 행동의도간의 차이분석을 실시하였으며, 그 결과 전반적으로 만족, 즐거운 시간을 보냄, 방문은 현명한 선택, 재방문의도, 추천의도 모두 유의한 차이가 있는 것으로 나타났다. 군집 2인 기혼의 200~300만원의 집단에 더 높은 행동의도를 보이고 있는 것으로 나타나 차별화된 마케팅 전략이 필요시 되며, 또한 자연휴양림 공익적 성격을 고려하여 각 집단에 대하여 모두 소구할 수 있는 서설 및 서비스의 개발이 요구 된다.

군집분석 방법들을 비교하기 위한 상사그림 (The Similarity Plot for Comparing Clustering Methods)

  • 장대흥
    • 응용통계연구
    • /
    • v.26 no.2
    • /
    • pp.361-373
    • /
    • 2013
  • 군집분석을 위한 알고리즘은 매우 많다. 이러한 군집분석 방법들이 개체들을 어떻게 여러 개의 군집으로 나누는 지를 서로 비교하기 위해서는 나누어지는 군집들이 얼마나 동일한가를 알 수 있는 동의 측도가 필요하다. 우리가 고려하여야 할 군집분석 방법들이 많아질수록 덩달아 동의 측도들 값도 많아지게 된다. 그래서 복수 개의 군집분석 방법들과 대응되는 동의 측도값들을 한 눈에 확인할 수 있는 도구가 필요하다. 본 논문을 통하여 군집분석 방법들과 대응되는 동의 측도값들을 한 눈에 확인할 수 있는 그래픽도구들을 제안하고자 한다.

군집분석 기법을 이용한 공공도서관 그룹화에 대한 연구 (A Study of Library Grouping using Cluster Analysis Methods)

  • 곽철완
    • 한국비블리아학회지
    • /
    • v.31 no.3
    • /
    • pp.79-99
    • /
    • 2020
  • 이 연구의 목적은 공공도서관 그룹화를 위해 적합한 군집분석 모델을 파악하고 그 특징을 분석하는데 있다. 국가도서관통계시스템의 공공도서관 통계 데이터를 사용하였으며, 군집분석 기법의 3가지 모델을 적용하였다. 공공도서관 규모를 기준으로 군집분석을 실시한 결과 크게 2가지 군집으로 구분되었으며, 군집의 크기는 크게 한쪽으로 치우쳤다. 그룹화 모델로 도서관 규모를 기준으로 삼으면, 계층적 군집분석의 와드측정법과 k-평균군집분석 모델이 적합하였다. 공공도서관 그룹화 연구 결과에 대한 시사점은 다음과 같다. 첫째, 통계 데이터 외에 도서관 서비스 관련 다양한 데이터 수집이 진행되어야 한다. 둘째, 분석 대상이 되는 데이터 세트에 적합한 분석 모델이 적용되어야 한다. 셋째, 도서관 서비스 향상을 위해 군집분석 기법의 다양한 분야 적용 가능성에 대한 적극적인 연구가 필요가 있다.

상호정보량 기법을 이용한 군집분석의 적용성 연구 (Application of Cluster Analysis using Mutual Information)

  • 정영훈;김완수;정창삼;허준행
    • 한국수자원학회:학술대회논문집
    • /
    • /
    • pp.414-414
    • /
    • 2011
  • 우리나라 뿐만 아니라 전 세계적으로 기후변화로 인한 집중호우, 폭설 등이 빈번하게 일어나고 있으며 수공구조물 설계에 필요한 확률강우량도 증가하고 있다. 확률강우량을 산정하는 빈도해석의 경우 지점빈도해석의 문제점을 보완한 지역빈도해석에 대한 연구가 꾸준히 진행되고 있다. 지역빈도해석을 적용하기 위해서는 수문학적 동질성을 가지는 지역 구분이 무엇보다 중요하다. 군집 분석은 개체들이 지니고 있는 다양한 속성의 유사성을 동질적인 집단으로 군집화하는 방법을 말한다. 군집분석의 기본원리는 분석하고자 하는 여러 특성등을 유사성(similaruty) 거리(distance)로 환산하고 거리가 상대적으로 가까운 개체들을 동질적으로 군집화하는 것이다. 군집분석을 적용하기 위해서는 기상학적 인자와 지형학적 인자를 이용하여 군집분석을 실시한다. 군집분석을 실시할 때 가장 중요한 것은 입력변수의 선택으로 입력 변수의 적절한 선택이 결과값에 큰 영향을 준다. 상호정보량(Mutual Information, MI) 기법은 두 무작위 변수간의 관련성을 측정하는 방법이며 (Cover and Tomas, 2006), 두 변수간의 독립성 구조에 관한 가정이 없고 데이터 변형이나 잡음(noise)에 대한 영향이 적어 다른 기법보다 신뢰도가 높다고 알려져 있다(Peng et al., 2005). 본 연구에서는 상호정보량 기법을 이용하여 군집된 지점들의 종속성과 독립성의 관계를 정량적으로 산정하여 비교하고자 한다.

  • PDF

데이터 마이닝에서의 군집분석 알고리즘 비교 연구

  • 이영섭;안미영
    • 한국데이터정보과학회:학술대회논문집
    • /
    • /
    • pp.19-25
    • /
    • 2003
  • 데이터베이스에 내재된 패턴이나 관계를 묘사한 것만으로도 의사결정에 필요한 정보를 제공할 수 있는데 이 데이터들의 변수들을 비슷한 특징을 가지는 소그룹으로 나누어 패턴을 찾는 것을 군집분석이라 한다. 이러한 군집 분석에는 분리군집방법과 계층적군집방법이 있는데, 재할당이 가능한 분리군집방법의 여러 알고리즘에 대해 비교해보자. 분리군집알고리즘에는 중심을 평균으로 하는 k-평균 알고리즘과, 중심을 메도이드로하는 PAM, CLARA, CLARANS 알고리즘이 있다. 이러한 알고리즘에 대한 이론과, 장단점을 설명하고, 분산과 중심들간의 평균 거리로 비교해 본다.

  • PDF