• 제목/요약/키워드: Cluster Centroids

검색결과 21건 처리시간 0.028초

자동화 K-평균 군집방법 및 R 구현 (Automated K-Means Clustering and R Implementation)

  • 김성수
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.723-733
    • /
    • 2009
  • K-평균 군집분석이 가지는 두 가지 근본적인 어려움은 사전에 미리 군집 수를 정해야 하는 문제와 초기 군집중심에 따라 결과가 달라질 수 있는 문제이다. 본 연구에서는 이러한 문제를 해결하기 위한 자동화 K-평균 군집분석 절차를 제안하고, R을 이용하여 구현한 결과를 제공한다. 자동화 K-평균 군집분석에서 제안된 절차는 처음 단계로서 계층적 군집분석을 행한 후 이를 이용하여 군집 수와 초기 군집수를 자동으로 정하고, 다음 단계로 이 결과를 이용하여 K-평균 군집분석을 수행하는 방법을 택하였다. 처음 단계에서 이용된 계층적 군집분석 방법으로는 Ward의 군집분석을 한 후에 Mojena의 규칙을 이용하여 군집 수를 정하는 방법을 택하거나, 모형근거 군집분석방법을 수행한 후에 BIC 값을 이용하여 군집 수를 정하는 방법을 이용하였다. 제안된 자동화 K-평균 군집절차에는 대량자료의 분석에도 용이하게 이용될 수 있도록 반복된 표본추출 방법을 이용하여 군집 수 및 군집 중심을 구하는 절차를 포함하였다. 구현된 R 프로그램은 www.knou.ac.kr/ sskim/autokmeans.r에서 제공하고 있다.

EEC-FM: Energy Efficient Clustering based on Firefly and Midpoint Algorithms in Wireless Sensor Network

  • Daniel, Ravuri;Rao, Kuda Nageswara
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권8호
    • /
    • pp.3683-3703
    • /
    • 2018
  • Wireless sensor networks (WSNs) consist of set of sensor nodes. These sensor nodes are deployed in unattended area which are able to sense, process and transmit data to the base station (BS). One of the primary issues of WSN is energy efficiency. In many existing clustering approaches, initial centroids of cluster heads (CHs) are chosen randomly and they form unbalanced clusters, results more energy consumption. In this paper, an energy efficient clustering protocol to prevent unbalanced clusters based on firefly and midpoint algorithms called EEC-FM has been proposed, where midpoint algorithm is used for initial centroid of CHs selection and firefly is used for cluster formation. Using residual energy and Euclidean distance as the parameters for appropriate cluster formation of the proposed approach produces balanced clusters to eventually balance the load of CHs and improve the network lifetime. Simulation result shows that the proposed method outperforms LEACH-B, BPK-means, Park's approach, Mk-means, and EECPK-means with respect to balancing of clusters, energy efficiency and network lifetime parameters. Simulation result also demonstrate that the proposed approach, EEC-FM protocol is 45% better than LEACH-B, 17.8% better than BPK-means protocol, 12.5% better than Park's approach, 9.1% better than Mk-means, and 5.8% better than EECPK-means protocol with respect to the parameter half energy consumption (HEC).

인위적 데이터를 이용한 군집분석 프로그램간의 비교에 대한 연구

  • 김성호;백승익
    • 지능정보연구
    • /
    • 제7권2호
    • /
    • pp.35-49
    • /
    • 2001
  • 인터넷 비즈니스나 전자상거래와 연관되어 고객관계관리(Customer Relationship management :CRM)에 대한 관심이 널리 확산됨으로 해서 군집분석에 대한 관심이 한층 높아졌고, 다양한 군집분석 프로그램이 시장에 소개되어 지고 있다. 그런, 군집분석 프로그램들은 다른 데이터 분석 기법과는 달리 그들의 성능을 측정하기가 매우 힘들다. 본 논문에서는 이미 알려져 있는 군집구조를 지닌 인위적 데이터를 사용하여 다양한 군집분석 프로그램을 평가할 수 있는 하나의 방법론을 제시하고, 그 방법론의 유용성을 보여 주기 위해 현재 많이 사용하고 있는 네 가지의 군집분석 프로그램을 본 논문에서 제시한 방법론을 사용하여 평가하는데 그 주요 목적을 두고 있다. 본 연구에서 두 가지의 반복적 군집분석 프로그램(Convergent Cluster Analysis:CCA, SPSS의 Clementine), 전통적인 단순군집 프로그램(One-Shot Clustering Program: Howard-Harris 프로그램), 그리고 IBM의 데이터 마이닝 기법 중 하나인 데모그래픽 군집분석 프로그램의 성능을 비교한 결과, 군집분석을 위하여 다른 군집분석 방법 보다 좀 더 지능적으로 초기치를 생성한 CCA방법이 가장 우월한 성능을 보여 주었다.

  • PDF

평균내부거리를 적용한 퍼지 클러스터링 알고리즘에 의한 영상분할 (Image Segmentation Based on the Fuzzy Clustering Algorithm using Average Intracluster Distance)

  • 유현재;안강식;조석제
    • 한국정보처리학회논문지
    • /
    • 제7권9호
    • /
    • pp.3029-3036
    • /
    • 2000
  • 영상분할은 컴퓨터비전 시스템에서 영상정보추출의 중요한 과정 중의 하나이다. 이중에서 퍼지 클러스터링 방법은 영상분할에 광범위하게 사용되고 있다. 대부분의 퍼지 클러스터링 방법으로는 FCM 알고리즘이 사용된다. 그러나 FCM 알고리즘은 클러스터의 중심과 데이터간의 거리에 의존하기 때문에 클러스터 크기가 다를 경우에는 데이터가 오분류될 수 있다. 본 논문에서는 클러스트 크기에 상관없이 데이터를 분류할 수 있는 평균내부거리를 이용한 퍼지 클러스터링 알고리즘을 제안하였다. 평균내부거리는 각 데이터로부터 해당 클러스터 중심까지의 거리를 평균한 값으로 클러스터의 크기와 밀도에 비례한다. 실험 결과를 통하여 제안된 방법이 분류 엔트로피와 적합도 함수에 의해서 좋은 결과를 보여주고 있음을 증명하였다.

  • PDF

능동적 학습을 위한 군집기반 초기훈련집합 선정 (Selection of An Initial Training Set for Active Learning Using Cluster-Based Sampling)

  • 강재호;류광렬;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권7호
    • /
    • pp.859-868
    • /
    • 2004
  • 본 논문에서는 능동적 학습이 보다 적은 수의 훈련예제로도 높은 학습성능을 달성할 수 있도록 군집화기법을 이용하여 초기훈련집합을 선정하는 방안을 제안한다. 본 제안 방안은 유사한 예제들보다는 다양한 예제들로 그리고 특수한 예제들보다는 보편적인 예제들로 구성한 집합이 학습에 유리할 것이라는 가정을 바탕으로, 먼저 k-means 군집화 기법으로 예제들을 군집화한 후, 각 군집을 가장 잘 표현하는 대표예제로 개별 군집의 중심점과 가장 가까운 예제를 선정하여 초기훈련집합을 구성한다. 또한 개별 군집의 중심점을 가상의 예제로 가정하여, 이와 연관된 대표예제의 카테고리를 부여함으로써 추가의 훈련예제로 활용하는 방안을 함께 제안한다. 여러 문서 분류 문제를 대상으로 실험한 결과, 본 제안 방안으로 선정한 초기훈련집합에서 출발한 능동적 학습이 임의로 선정한 초기훈련집합에서 출발한 경우에 비해 보다 적은 수의 훈련예제로도 동등한 성능을 달성할 수 있음을 확인하였다.

클러스터 중심 결정 방법을 개선한 K-Means Algorithm의 구현 (An Implementation of K-Means Algorithm improving cluster centroids decision methodologies)

  • 조시성;김호영;오형진;이신원;안동언;정성종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.373-376
    • /
    • 2002
  • K-Means 알고리즘은 재배치 기법의 일종으로 K 개의 초기 클러스터중심(centroid)를 중심으로 K 개의 클러스터가 될 때까지 클러스터링을 반복하는 것이다. K-Means 알고리즘은 특성상 초기 클러스터 중심과 새롭게 생성된 클러스터 중심에 따라 클러스터링 결과가 달라진다. 본 논문에서는 K-Means Algorithm 의 초기 클러스터중심 선택 방법과 새로운 클러스터 중심 결정 방법을 개선한 변형 K-Means Algorithm을 제안한다. SMART 시스템에서 제안한 16가지 가중치 계산 방식에 의하여 두 알고리즘의 성능을 평가한 결과 제안한 변형 알고리즘이 재현률과 F-Measure 에서 20%이상 향상된 결과를 얻을 수 있었으며 특정 주제 아래 문서가 할당되는 클러스터링 성능이 우수하였다.

  • PDF

평균회귀 심박변이도의 K-평균 군집화 학습을 통한 심실조기수축 부정맥 신호의 특성분석 (Characterization of Premature Ventricular Contraction by K-Means Clustering Learning Algorithm with Mean-Reverting Heart Rate Variability Analysis)

  • 김정환;김동준;이정환;김경섭
    • 전기학회논문지
    • /
    • 제66권7호
    • /
    • pp.1072-1077
    • /
    • 2017
  • Mean-reverting analysis refers to a way of estimating the underlining tendency after new data has evoked the variation in the equilibrium state. In this paper, we propose a new method to interpret the specular portraits of Premature Ventricular Contraction(PVC) arrhythmia by applying K-means unsupervised learning algorithm on electrocardiogram(ECG) data. Aiming at this purpose, we applied a mean-reverting model to analyse Heart Rate Variability(HRV) in terms of the modified poincare plot by considering PVC rhythm as the component of disrupting the homeostasis state. Based on our experimental tests on MIT-BIH ECG database, we can find the fact that the specular patterns portraited by K-means clustering on mean-reverting HRV data can be more clearly visible and the Euclidean metric can be used to identify the discrepancy between the normal sinus rhythm and PVC beats by the relative distance among cluster-centroids.

A Clustering-Based Fault Detection Method for Steam Boiler Tube in Thermal Power Plant

  • Yu, Jungwon;Jang, Jaeyel;Yoo, Jaeyeong;Park, June Ho;Kim, Sungshin
    • Journal of Electrical Engineering and Technology
    • /
    • 제11권4호
    • /
    • pp.848-859
    • /
    • 2016
  • System failures in thermal power plants (TPPs) can lead to serious losses because the equipment is operated under very high pressure and temperature. Therefore, it is indispensable for alarm systems to inform field workers in advance of any abnormal operating conditions in the equipment. In this paper, we propose a clustering-based fault detection method for steam boiler tubes in TPPs. For data clustering, k-means algorithm is employed and the number of clusters are systematically determined by slope statistic. In the clustering-based method, it is assumed that normal data samples are close to the centers of clusters and those of abnormal are far from the centers. After partitioning training samples collected from normal target systems, fault scores (FSs) are assigned to unseen samples according to the distances between the samples and their closest cluster centroids. Alarm signals are generated if the FSs exceed predefined threshold values. The validity of exponentially weighted moving average to reduce false alarms is also investigated. To verify the performance, the proposed method is applied to failure cases due to boiler tube leakage. The experiment results show that the proposed method can detect the abnormal conditions of the target system successfully.

구조적 공백과 협업필터링을 이용한 추천시스템 (Recommender Systems using Structural Hole and Collaborative Filtering)

  • 김민건;김경재
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.107-120
    • /
    • 2014
  • 본 연구에서는 사회연결망분석기법 중 하나인 구조적 공백 분석 결과를 이용하여 추천과정에 사용자의 정성적이고 감성적인 정보를 반영할 수 있는 협업필터링 기반의 추천시스템을 제안한다. 협업필터링은 추천기술 중 가장 많이 활용되고 있지만 전통적으로 확장성과 희박성 등의 문제점뿐 만 아니라 사용자-상품 매트릭스의 선호도만을 이용하여 추천을 함으로써 사용자의 정성적이고 감성적인 정보를 추천과정에 반영하지 못한다는 한계점이 있다. 본 연구에서 제안하는 추천시스템은 사회연결망분석에서 중심성 분석과 함께 연결망 내의 주요개체를 탐지할 수 있는 구조적 공백 분석을 이용하여 연결망 내의 대표 사용자들을 추출한 후 이들을 중심으로 군집을 형성한 후 각 군집색인 협업필터링을 수행하는 과정을 통해 전통적인 협업필터링에서 반영하지 못했던 정성적, 감성적 정보를 반영한다. 한편, 군집색인 협업필터링을 수행함으로써 추천의 효율성을 높일 수 있는 장점도 있다. 본 연구에서는 실제 사용자들의 상품에 대한 선호도 평가점수와 사용자들의 사회연결망 정보를 수집하여 실험을 수행하고 전통적인 협업필터링과 다양한 형태의 협업필터링과의 추천성과 비교를 통하여 제안하는 시스템의 유용성을 확인한다. 비교모형으로는 전통적인 협업필터링, 임의 군집색인 기반 협업필터링, k평균 군집색인 기반 협업필터링을 이용한 추천시스템이며, 실험 결과, 제안한 모형이 다른 비교모형에 비해 추천성과의 정확도가 가장 우수하였다. 추천성과의 차이에 대한 통계적 유의성 검정 결과, 제안 모형은 전통적인 협업필터링 기반의 추천시스템과는 통계적으로 유의한 성과 차이가 없었으나, 다른 두 모형에 대해서는 통계적으로 유의한 성과의 차이가 있는 것으로 나타났다.

K-means 알고리즘을 이용한 계층적 클러스터링에서의 클러스터 계층 깊이 선택 (Selection of Cluster Hierarchy Depth in Hierarchical Clustering using K-Means Algorithm)

  • 이원휘;이신원;정성종;안동언
    • 대한전자공학회논문지SD
    • /
    • 제45권2호
    • /
    • pp.150-156
    • /
    • 2008
  • 정보통신의 기술이 발달하면서 정보의 양이 많아지고 사용자의 질의에 대한 검색 결과 리스트도 많이 추출되므로 빠르고 고품질의 문서 클러스터링 알고리즘이 중요한 역할을 하고 있다. 많은 논문들이 계층적 클러스터링 방법을 이용하여 좋은 성능을 보이지만 시간이 많이 소요된다. 반면 K-means 알고리즘은 시간 복잡도를 줄일 수 있는 방법이다. 본 논문에서는 계층적 클러스터링 시스템인 콘도르(Condor) 시스템에서 K-Means 알고리즘을 이용하여 효율적으로 정보 검색을 하고 검색결과를 계층적으로 볼 수 있도록 구현하였다. 이 시스템은 K-Means Algorithm을 이용하였으며 클러스터 계층 깊이와 초기값을 조절하여 더 나은 성능을 보임을 알 수 있다.