• 제목/요약/키워드: Cluster Centroids

검색결과 21건 처리시간 0.019초

클러스터 중심 결정 방법을 개선한 K-Means 알고리즘의 구현 (An Implementation of K-Means Algorithm Improving Cluster Centroids Decision Methodologies)

  • 이신원;오형진;안동언;정성종
    • 정보처리학회논문지B
    • /
    • 제11B권7호
    • /
    • pp.867-874
    • /
    • 2004
  • K-Means 알고리즘은 재배치 기법의 일종으로 K개의 초기 센트로이드를 중심으로 K개의 클러스터가 될 때까지 클러스터링을 반복하는 것이다. 알고리즘의 특성상 K-Means 알고리즘은 초기 클러스터 센트로이드(중심) 및 클러스터 중심을 결정하는 방법에 따라 다른 클러스터링 결과를 얻을 수 있다. 본 논문에서는 K-Means 알고리즘을 이용한 초기 클러스터 중심 및 클러스터 중심을 결정하는 방법을 개선한 변형 K-Means 알고리즘을 제안한다. 제안한 알고리즘의 평가를 위하여 SMART 시스템의 16가지 가중치 계산 방식을 이용하여 성능을 평가한 결과 변형 K-Means알고리즘이 K-Means 알고리즘보다 재현률과 F-Measure에서 $20{\%}$이상 향상된 결과를 얻을 수 있었으며 특정 주제 아래 관련 문서가 할당되는 클러스터링 성능이 우수함을 알 수 있었다.

클러스터 중심 결정 방법에 따른 문서 클러스터링 성능 분석 (Analysis of Document Clustering Varing Cluster Centroid Decisions)

  • 오형진;변동률;이신원;박순철;정성종;안동언
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(3)
    • /
    • pp.99-102
    • /
    • 2002
  • K-means clustering algorithm is a very popular clustering technique, which is used in the field of information retrieval. In this paper, We deal with the problem of K-means Algorithm from the view of creating the centroids and suggest a method reflecting document feature and considering the context of each document to determine the new centroids during the process of forming new centroids. For experiment, We used the automatic document summarizer to summarize the Reuter21578 newslire test dataset and achieved 20% improved results to the recall metrics.

  • PDF

사전정보를 활용한 앙상블 클러스터링 알고리즘 (An Ensemble Clustering Algorithm based on a Prior Knowledge)

  • 고송;김대원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권2호
    • /
    • pp.109-121
    • /
    • 2009
  • 사전정보는 클러스터링 성능을 유도할 수 있는 요인이지만, 활용 방법에 따라 차이는 발생한다. 특히, 사전정보를 초기 중심으로 활용할 때, 사전정보 간 유사도에 대해 고려하는 것이 필요하다. 레이블이 같더라도 낮은 유사도를 갖는 사전정보로 인해 초기 중심 설정 시 문제가 발생할 수 있기 때문에, 이들을 구분하여 활용하는 방법이 필요하다. 따라서 본 논문은 낮은 유사도를 갖는 사전정보를 구분하여 문제를 해결하는 방법을 제시한다. 또한 유사도에 의해 구분된 사전정보는 다양하게 활용함으로써 생성되는 다양한 클러스터링 결과를 연관규칙에 기반하여 앙상블 함으로써 통합된 하나의 분석 결과를 도출하여 클러스터링 분석 성능을 더욱 개선시킬 수 있다.

중심체 목적함수를 이용한 다차원 개체 CLUSTERING 기법에 관한 연구 (A Study on Multi-Dimensional Entity Clustering Using the Objective Function of Centroids)

  • 이철;강석호
    • 한국경영과학회지
    • /
    • 제15권2호
    • /
    • pp.1-15
    • /
    • 1990
  • A mathematical definition of the cluster is suggested. A nonlinear 0-1 integer programming formulation for the multi-dimensional entity clustering problem is developed. A heuristic method named MDEC (Multi-Dimensional Entity Clustering) using centroids and the binary partition is developed and the numerical examples are shown. This method has an advantage of providing bottle-neck entity informations.

  • PDF

K-Means 알고리즘을 이용한 계층적 클러스터링에서 클러스터 계층 깊이와 초기값 선정 (Selection of Cluster Hierarchy Depth and Initial Centroids in Hierarchical Clustering using K-Means Algorithm)

  • 이신원;안동언;정성종
    • 정보관리학회지
    • /
    • 제21권4호
    • /
    • pp.173-185
    • /
    • 2004
  • 정보통신의 기술이 발달하면서 정보의 양이 많아지고 사용자의 질의에 대한 검색 결과 리스트도 많이 추출되므로 빠르고 고품질의 문서 클러스터링 알고리즘이 중요한 역할을 하고 있다. 많은 논문들이 계층적 클러스터링 방법을 이용하여 좋은 성능을 보이지만 시간이 많이 소요된다. 반면 K-means 알고리즘은 시간 복잡도를 줄일 수 있는 방법이다. 본 논문에서는 계층적 클러스터링 시스템인 콘도르(Condor) 시스템에서 간단하고 고품질이며 효율적으로 정보 검색 할 수 있도록 구현하였다. 이 시스템은 K-Means Algorithm을 이용하였으며 클러스터 계층 깊이와 초기값을 조절하여 $88\%$의 정확율을 보였다.

Approximate k values using Repulsive Force without Domain Knowledge in k-means

  • Kim, Jung-Jae;Ryu, Minwoo;Cha, Si-Ho
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권3호
    • /
    • pp.976-990
    • /
    • 2020
  • The k-means algorithm is widely used in academia and industry due to easy and simple implementation, enabling fast learning for complex datasets. However, k-means struggles to classify datasets without prior knowledge of specific domains. We proposed the repulsive k-means (RK-means) algorithm in a previous study to improve the k-means algorithm, using the repulsive force concept, which allows deleting unnecessary cluster centroids. Accordingly, the RK-means enables to classifying of a dataset without domain knowledge. However, three main problems remain. The RK-means algorithm includes a cluster repulsive force offset, for clusters confined in other clusters, which can cause cluster locking; we were unable to prove RK-means provided optimal convergence in the previous study; and RK-means shown better performance only normalize term and weight. Therefore, this paper proposes the advanced RK-means (ARK-means) algorithm to resolve the RK-means problems. We establish an initialization strategy for deploying cluster centroids and define a metric for the ARK-means algorithm. Finally, we redefine the mass and normalize terms to close to the general dataset. We show ARK-means feasibility experimentally using blob and iris datasets. Experiment results verify the proposed ARK-means algorithm provides better performance than k-means, k'-means, and RK-means.

범주형 데이터의 분류를 위한 퍼지 군집화 기법 (A Fuzzy Clustering Algorithm for Clustering Categorical Data)

  • 김대원;이광형
    • 한국지능시스템학회논문지
    • /
    • 제13권6호
    • /
    • pp.661-666
    • /
    • 2003
  • 본 논문에서는 범주형 데이터의 분류를 위한 새로운 기법을 제시한다. 기존의 대표적인 퍼지 군집화 방법인 k-modes 알고리즘과 fuzzy k-modes 알고리즘은 군집의 중심을 단일 값으로 표현하고, 군집에 속하는 데이터의 빈도 수에 기반한 중신 갱신 기법을 사용하였다. 이와 같은 기존의 방법들은 분류의 경계가 모호한 데이트를 군집화할 경우, 알고리즘의 각 단계에서 발생하는 분류의 에러를 보정하지 못해 최종적으로 지역해에 빠지는 단점이 있다. 이를 극복하기 위해 본 논문에서는 군집 중심을 퍼지 집합을 이용하여 정의한다. 퍼지 군집 중심은 주어진 데이터와 군집간의 거리 관계를 퍼지 값을 이용해 표현하며, 각 군집의 중심은 데이터의 소속 정도 값을 이용해 갱신된다. 이와 같은 퍼지 중심 표현기법을 도입하여 범주형 데이터의 분류 시에 보다 세밀한 결정을 내림으로써, 인접한 군집들의 경계에서 발생하는 불확실성을 최소화한다. 기존의 대표적인 방법들과의 비교실험을 수행함으로써 제안한 방법의 성능을 검증하였다.

이중 K-평균 군집화 (Double K-Means Clustering)

  • 허명회
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.343-352
    • /
    • 2000
  • K-평균 군집화(K-means clustering)는 비계층적 군집화 방법이 하나로서 큰 자료에서 개체 군집화에 효율적인 것으로 알려져 있다. 그러나 종종 비교적 균일한 대군집의 일부를 소군집에 떼어주는 오류를 범하기도 한다. 이 연구에서는 그러한 현상을 정확히 인지하고 이에 대한 대책으로서 ‘이중 K-평균 군집화(double K-means clustering)’방법을 제시한다. 또한 실증적 사례에 새 방법론을 적용해보고 토의한다.

  • PDF

군집화에 의한 XLPE/EPDM 계면결함 부분방전 패턴 분석 (Analysis of Partial Discharge Pattern in XLPE/EDPM Interface Defect using the Cluster)

  • 조경순;이강원;신종열;홍진웅
    • 한국전기전자재료학회:학술대회논문집
    • /
    • 한국전기전자재료학회 2007년도 추계학술대회 논문집
    • /
    • pp.203-204
    • /
    • 2007
  • This paper investigated the influence on partial discharge distribution of various defects at the model power cable joints interface using K-means clustering. As the result of analyzing discharge number distribution of ${\Phi}-n$ cluster, clusters shifted to $0^{\circ}\;and\;180^{\circ}$ with increasing applying voltage. It was confirmed that discharge quantity and euclidean distance between centroids were increased with applying voltage from the analyzing centroid distribution of ${\Phi}-q$ cluster. The degree of dispersion was increased with calculating standard deviation of ${\Phi}-q$ cluster centroid. The tendency both number of discharge and mean value of ${\Phi}-q$ cluster centroid were some different with defect types.

  • PDF

Cluster Analysis of Incomplete Microarray Data with Fuzzy Clustering

  • Kim, Dae-Won
    • 한국지능시스템학회논문지
    • /
    • 제17권3호
    • /
    • pp.397-402
    • /
    • 2007
  • In this paper, we present a method for clustering incomplete Microarray data using alternating optimization in which a prior imputation method is not required. To reduce the influence of imputation in preprocessing, we take an alternative optimization approach to find better estimates during iterative clustering process. This method improves the estimates of missing values by exploiting the cluster Information such as cluster centroids and all available non-missing values in each iteration. The clustering results of the proposed method are more significantly relevant to the biological gene annotations than those of other methods, indicating its effectiveness and potential for clustering incomplete gene expression data.