• 제목/요약/키워드: K-means++ algorithm

검색결과 1,363건 처리시간 0.036초

클러스터링 성능평가: 신경망 및 통계적 방법 (A Study on Performance Evaluation of Clustering Algorithms using Neural and Statistical Method)

  • 윤석환;신용백
    • 기술사
    • /
    • 제29권2호
    • /
    • pp.71-79
    • /
    • 1996
  • This paper evaluates the clustering performance of a neural network and a statistical method. Algorithms which are used in this paper are the GLVQ(Generalized Loaming vector Quantization) for a neural method and the k -means algorithm for a statistical clustering method. For comparison of two methods, we calculate the Rand's c statistics. As a result, the mean of c value obtained with the GLVQ is higher than that obtained with the k -means algorithm, while standard deviation of c value is lower. Experimental data sets were the Fisher's IRIS data and patterns extracted from handwritten numerals.

  • PDF

클러스터 중심 결정 방법에 따른 문서 클러스터링 성능 분석 (Analysis of Document Clustering Varing Cluster Centroid Decisions)

  • 오형진;변동률;이신원;박순철;정성종;안동언
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(3)
    • /
    • pp.99-102
    • /
    • 2002
  • K-means clustering algorithm is a very popular clustering technique, which is used in the field of information retrieval. In this paper, We deal with the problem of K-means Algorithm from the view of creating the centroids and suggest a method reflecting document feature and considering the context of each document to determine the new centroids during the process of forming new centroids. For experiment, We used the automatic document summarizer to summarize the Reuter21578 newslire test dataset and achieved 20% improved results to the recall metrics.

  • PDF

가변적 클러스터 개수에 대한 문서군집화 평가방법 (The Evaluation Measure of Text Clustering for the Variable Number of Clusters)

  • 조태호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.233-237
    • /
    • 2006
  • This study proposes an innovative measure for evaluating the performance of text clustering. In using K-means algorithm and Kohonen Networks for text clustering, the number clusters is fixed initially by configuring it as their parameter, while in using single pass algorithm for text clustering, the number of clusters is not predictable. Using labeled documents, the result of text clustering using K-means algorithm or Kohonen Network is able to be evaluated by setting the number of clusters as the number of the given target categories, mapping each cluster to a target category, and using the evaluation measures of text. But in using single pass algorithm, if the number of clusters is different from the number of target categories, such measures are useless for evaluating the result of text clustering. This study proposes an evaluation measure of text clustering based on intra-cluster similarity and inter-cluster similarity, what is called CI (Clustering Index) in this article.

  • PDF

클러스터링 알고리즘기반의 상황인식 사용자 분석 (Context-awareness User Analysis based on Clustering Algorithm)

  • 이강환
    • 한국정보통신학회논문지
    • /
    • 제24권7호
    • /
    • pp.942-948
    • /
    • 2020
  • 본 논문에서는 상황인식 속성정보를 이용하여 클러스터링내에서 보다 효율적인 사용자 구분이 가능한 군집적 알고리즘을 제안한다. 일반적으로 클러스터링 데이터를 처리함에 있어 군집 정보내에서 상호관계를 분류하기 위해 제공되는 데이터는 신규 또는 새롭게 입력되는 정보가 비교정보에서 오염된 정보로 처리될 경우, 기존 분류된 군집으로부터 벗어나게 되어 군집성을 저하시키는 요인으로 작용하게 된다. 본 논문에서는 이러한 문제를 해결하기 위해 K-means알고리즘을 이용함에 있어 사용자 인식 정보 추출이 가능한 사용자 군집 분석 방식을 제안하고자 한다. 제안하는 알고리즘은 시스템 내 누적된 정보를 이용하여 자율적인 사용자 군집 특징을 분석하고, 이를 통하여 사용자의 속성간에 따른 클러스터를 구성해 사용자를 구분하게 된다. 제안한 알고리즘은 적용한 모의실험 결과를 통해 다중 사용자를 군집단위로 분류하고 유지하는 측면에서 사용자 관리 시스템이 보다 향상된 적응성을 보여주었다.

클러스터링 알고리즘기반의 COVID-19 상황인식 분석 (Analysis of COVID-19 Context-awareness based on Clustering Algorithm)

  • 이강환
    • 한국정보통신학회논문지
    • /
    • 제26권5호
    • /
    • pp.755-762
    • /
    • 2022
  • 본 논문에서는 학습 예측이 가능한 군집적 알고리즘으로 COVID-19에서 상황인식정보인 질병의 속성정보와 클러스터링를 이용한 군집적 알고리즘을 제안한다. 클러스터링 내에서 처리되는 군집 데이터는 신규 또는 새롭게 입력되는 정보가 상호관계를 예측하기 위해 분류 제공되는데, 이때 새롭게 입력되는 정보가 비교정보에서 오염된 정보로 처리되면 기존 분류된 군집으로부터 벗어나게 되어 군집성을 저하시키는 요인으로 작용하게 된다. 본 논문에서는 COVID-19에서의 질병속성 정보내 K-means알고리즘을 이용함에 있어 이러한 문제를 해결하기 위해 질병 상호관계 정보 추출이 가능한 사용자 군집 분석 방식을 제안하고자 한다. 제안하는 알고리즘은 자율적인 사용자 군집 특징의 상호관계를 분석학습하고 이를 통하여 사용자 질병속성간에 따른 클러스터를 구성해 사용자의 누적 정보로부터 클러스터의 중심점을 제공하게 된다. 논문에서 제안된 COVID-19의 다중질병 속성정보군집단위로 분류하고 학습하는 알고리즘은 적용한 모의실험 결과를 통해 사용자 관리 시스템의 예측정확도가 학습과정에서 향상됨을 보여주었다.

Repeated Clustering to Improve the Discrimination of Typical Daily Load Profile

  • Kim, Young-Il;Ko, Jong-Min;Song, Jae-Ju;Choi, Hoon
    • Journal of Electrical Engineering and Technology
    • /
    • 제7권3호
    • /
    • pp.281-287
    • /
    • 2012
  • The customer load profile clustering method is used to make the TDLP (Typical Daily Load Profile) to estimate the quarter hourly load profile of non-AMR (Automatic Meter Reading) customers. This study examines how the repeated clustering method improves the ability to discriminate among the TDLPs of each cluster. The k-means algorithm is a well-known clustering technology in data mining. Repeated clustering groups the cluster into sub-clusters with the k-means algorithm and chooses the sub-cluster that has the maximum average error and repeats clustering until the final cluster count is satisfied.

융합 인공벌군집 데이터 클러스터링 방법 (Combined Artificial Bee Colony for Data Clustering)

  • 강범수;김성수
    • 산업경영시스템학회지
    • /
    • 제40권4호
    • /
    • pp.203-210
    • /
    • 2017
  • Data clustering is one of the most difficult and challenging problems and can be formally considered as a particular kind of NP-hard grouping problems. The K-means algorithm is one of the most popular and widely used clustering method because it is easy to implement and very efficient. However, it has high possibility to trap in local optimum and high variation of solutions with different initials for the large data set. Therefore, we need study efficient computational intelligence method to find the global optimal solution in data clustering problem within limited computational time. The objective of this paper is to propose a combined artificial bee colony (CABC) with K-means for initialization and finalization to find optimal solution that is effective on data clustering optimization problem. The artificial bee colony (ABC) is an algorithm motivated by the intelligent behavior exhibited by honeybees when searching for food. The performance of ABC is better than or similar to other population-based algorithms with the added advantage of employing fewer control parameters. Our proposed CABC method is able to provide near optimal solution within reasonable time to balance the converged and diversified searches. In this paper, the experiment and analysis of clustering problems demonstrate that CABC is a competitive approach comparing to previous partitioning approaches in satisfactory results with respect to solution quality. We validate the performance of CABC using Iris, Wine, Glass, Vowel, and Cloud UCI machine learning repository datasets comparing to previous studies by experiment and analysis. Our proposed KABCK (K-means+ABC+K-means) is better than ABCK (ABC+K-means), KABC (K-means+ABC), ABC, and K-means in our simulations.

A Simple Tandem Method for Clustering of Multimodal Dataset

  • Cho C.;Lee J.W.;Lee J.W.
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회/대한산업공학회 2003년도 춘계공동학술대회
    • /
    • pp.729-733
    • /
    • 2003
  • The presence of local features within clusters incurred by multi-modal nature of data prohibits many conventional clustering techniques from working properly. Especially, the clustering of datasets with non-Gaussian distributions within a cluster can be problematic when the technique with implicit assumption of Gaussian distribution is used. Current study proposes a simple tandem clustering method composed of k-means type algorithm and hierarchical method to solve such problems. The multi-modal dataset is first divided into many small pre-clusters by k-means or fuzzy k-means algorithm. The pre-clusters found from the first step are to be clustered again using agglomerative hierarchical clustering method with Kullback- Leibler divergence as the measure of dissimilarity. This method is not only effective at extracting the multi-modal clusters but also fast and easy in terms of computation complexity and relatively robust at the presence of outliers. The performance of the proposed method was evaluated on three generated datasets and six sets of publicly known real world data.

  • PDF

클러스터링 알고리듬을 이용한 영상 대비 향상 기법 (Image Contrast Enhancement Technique Using Clustering Algorithm)

  • 김남진;김용수
    • 한국지능시스템학회논문지
    • /
    • 제14권3호
    • /
    • pp.310-315
    • /
    • 2004
  • 야간에 비디오카메라로 촬영시 열악한 주위 환경과 영상 전송에 기인하여 다양한 잡음에 의하여 왜곡되고 흐린 저대비 (low contrast)영상을 가질 수 있다. 본 논문에서는 획득한 저대비 영상을 대비 향상시켜주는 기법을 제안한다. MPEG-2는 인간의 시각 특성상 색차(chrominance)신호보다 밝기(luminance)신호에 더 민감하기 때문에 밝기신호와 색차신호를 분리하여 압축한다. 본 논문에서는 밝기신호만을 추출하여, K-means 알고리듬을 사용하여 교차점을 자동으로 선정하는 방법을 사용한다. 이 최적의 교차점을 선정하는 과정은 획득한 영상을 물체와 배경으로 분리하는 두 개의 클래스 문제로 보고 K-means 알고리듬을 적용하였다. 구한 교차점을 사용하여 영상을 양분하고 양분된 영상의 각각에 히스토그램 평활화 방법을 적용하였다. 본 논문에서는 퍼지성 지수(index of fuzziness)를 사용하여 향상의 정도를 측정하였다. 제안된 기법을 저대비 영상에 적용하였으며 그 결과를 히스토그램 평활화 기법의 결과와 비교하였다.

Improved Classification Algorithm using Extended Fuzzy Clustering and Maximum Likelihood Method

  • Jeon Young-Joon;Kim Jin-Il
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.447-450
    • /
    • 2004
  • This paper proposes remotely sensed image classification method by fuzzy c-means clustering algorithm using average intra-cluster distance. The average intra-cluster distance acquires an average of the vector set belong to each cluster and proportionates to its size and density. We perform classification according to pixel's membership grade by cluster center of fuzzy c-means clustering using the mean-values of training data about each class. Fuzzy c-means algorithm considered membership degree for inter-cluster of each class. And then, we validate degree of overlap between clusters. A pixel which has a high degree of overlap applies to the maximum likelihood classification method. Finally, we decide category by comparing with fuzzy membership degree and likelihood rate. The proposed method is applied to IKONOS remote sensing satellite image for the verifying test.

  • PDF