• Title/Summary/Keyword: Improved K-means algorithm

Search Result 143, Processing Time 0.024 seconds

흰개미 군집 알고리즘을 이용한 유사 블로그 추천 시스템에 관한 연구 (A Study of Similar Blog Recommendation System Using Termite Colony Algorithm)

  • 정기성;조이석;이말례
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.83-88
    • /
    • 2013
  • 본 연구의 목적은 유사 블로그 추천 시스템을 통해서 특정 주제의 유사도에 따라 주제를 찾아 주는 것이다. 유사 추천 시스템을 실현하기 위해서는 대규모 데이터 집합에서 유사항목을 가진 그룹을 찾을 수 있도록 군집해야 한다. 군집화(clustering) 기법은 군집하고자 하는 목적에 따라 적합한 기법과 군집수가 결정되어야 한다. 군집기법으로는 가장 많이 사용되는 K-means 알고리즘을 사용 하였고 추천 알고리즘은 흰개미 군집 알고리즘을 사용하였다. 흰개미 습성 모델을 이용한 군집화 기법은 K-means 알고리즘이 갖고 있는 적절한 군집 갯수 문제점을 해결하고, 군집화 시간을 단축하며, 군집을 위한 군집 평균 이동횟수를 개선한다.

클러스터 중심 결정 방법을 개선한 K-Means 알고리즘의 구현 (An Implementation of K-Means Algorithm Improving Cluster Centroids Decision Methodologies)

  • 이신원;오형진;안동언;정성종
    • 정보처리학회논문지B
    • /
    • 제11B권7호
    • /
    • pp.867-874
    • /
    • 2004
  • K-Means 알고리즘은 재배치 기법의 일종으로 K개의 초기 센트로이드를 중심으로 K개의 클러스터가 될 때까지 클러스터링을 반복하는 것이다. 알고리즘의 특성상 K-Means 알고리즘은 초기 클러스터 센트로이드(중심) 및 클러스터 중심을 결정하는 방법에 따라 다른 클러스터링 결과를 얻을 수 있다. 본 논문에서는 K-Means 알고리즘을 이용한 초기 클러스터 중심 및 클러스터 중심을 결정하는 방법을 개선한 변형 K-Means 알고리즘을 제안한다. 제안한 알고리즘의 평가를 위하여 SMART 시스템의 16가지 가중치 계산 방식을 이용하여 성능을 평가한 결과 변형 K-Means알고리즘이 K-Means 알고리즘보다 재현률과 F-Measure에서 $20{\%}$이상 향상된 결과를 얻을 수 있었으며 특정 주제 아래 관련 문서가 할당되는 클러스터링 성능이 우수함을 알 수 있었다.

An Improved K-means Document Clustering using Concept Vectors

  • Shin, Yang-Kyu
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권4호
    • /
    • pp.853-861
    • /
    • 2003
  • An improved K-means document clustering method has been presented, where a concept vector is manipulated for each cluster on the basis of cosine similarity of text documents. The concept vectors are unit vectors that have been normalized on the n-dimensional sphere. Because the standard K-means method is sensitive to initial starting condition, our improvement focused on starting condition for estimating the modes of a distribution. The improved K-means clustering algorithm has been applied to a set of text documents, called Classic3, to test and prove efficiency and correctness of clustering result, and showed 7% improvements in its worst case.

  • PDF

An Improved Automated Spectral Clustering Algorithm

  • Xiaodan Lv
    • Journal of Information Processing Systems
    • /
    • 제20권2호
    • /
    • pp.185-199
    • /
    • 2024
  • In this paper, an improved automated spectral clustering (IASC) algorithm is proposed to address the limitations of the traditional spectral clustering (TSC) algorithm, particularly its inability to automatically determine the number of clusters. Firstly, a cluster number evaluation factor based on the optimal clustering principle is proposed. By iterating through different k values, the value corresponding to the largest evaluation factor was selected as the first-rank number of clusters. Secondly, the IASC algorithm adopts a density-sensitive distance to measure the similarity between the sample points. This rendered a high similarity to the data distributed in the same high-density area. Thirdly, to improve clustering accuracy, the IASC algorithm uses the cosine angle classification method instead of K-means to classify the eigenvectors. Six algorithms-K-means, fuzzy C-means, TSC, EIGENGAP, DBSCAN, and density peak-were compared with the proposed algorithm on six datasets. The results show that the IASC algorithm not only automatically determines the number of clusters but also obtains better clustering accuracy on both synthetic and UCI datasets.

개선된 k-means 알고리즘을 적용한 사용자 특성 선호도 추천 시스템 (User's Individuality Preference Recommendation System using Improved k-means Algorithm)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권8호
    • /
    • pp.141-148
    • /
    • 2010
  • 모바일 단말기에서 사용자의 상황을 고려하고 사용자의 취향이나 특성을 반영하여 정보를 찾아주거나 추천하는 서비스 시스템은 개념적인 정보만을 제한적으로 추천한다. 또한 사용자의 특성에 따른 정보 선호도를 제공하지 않으므로 정확한 정보 추천의 어려운 단점이 있다. 따라서 본 논문에서는 사용자 특성에 따른 선호도를 고려하여 정확한 상황 정보를 추천 할 수 있는 개선된 k-means 알고리즘을 적용하여 사용자 특성에 따른 선호도 추천 시스템을 제안하였다. 본 연구에서는 사용자 특성에 따른 선호도를 상관 계수를 이용하여 구하고 사용자의 특성 선호도를 개선된 k-means 알고리즘을 이용하여 추천하였다. 제한적인 개념의 정보만을 제공하던 시스템에서 사용자의 특성에 따른 정보 선호도를 제공하여 정확한 정보를 추천하므로 제한된 정보 추천의 단점을 해결하였다. 성능 실험은 기존의 서비스 시스템들과 비교하여 정확도와 재현율로 대변되는 효과성을 측정하였으며, 성능 실험 결과 정확도는 85%, 재현율은 68%로 나타났다.

Initial Mode Decision Method for Clustering in Categorical Data

  • Yang, Soon-Cheol;Kang, Hyung-Chang;Kim, Chul-Soo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제18권2호
    • /
    • pp.481-488
    • /
    • 2007
  • The k-means algorithm is well known for its efficiency in clustering large data sets. However, working only on numeric values prohibits it from being used to cluster real world data containing categorical values. The k-modes algorithm is to extend the k-means paradigm to categorical domains. The algorithm requires a pre-setting or random selection of initial points (modes) of the clusters. This paper improved the problem of k-modes algorithm, using the Max-Min method that is a kind of methods to decide initial values in k-means algorithm. we introduce new similarity measures to deal with using the categorical data for clustering. We show that the mushroom data sets and soybean data sets tested with the proposed algorithm has shown a good performance for the two aspects(accuracy, run time).

  • PDF

An Improved Hybrid Canopy-Fuzzy C-Means Clustering Algorithm Based on MapReduce Model

  • Dai, Wei;Yu, Changjun;Jiang, Zilong
    • Journal of Computing Science and Engineering
    • /
    • 제10권1호
    • /
    • pp.1-8
    • /
    • 2016
  • The fuzzy c-means (FCM) is a frequently utilized algorithm at present. Yet, the clustering quality and convergence rate of FCM are determined by the initial cluster centers, and so an improved FCM algorithm based on canopy cluster concept to quickly analyze the dataset has been proposed. Taking advantage of the canopy algorithm for its rapid acquisition of cluster centers, this algorithm regards the cluster results of canopy as the input. In this way, the convergence rate of the FCM algorithm is accelerated. Meanwhile, the MapReduce scheme of the proposed FCM algorithm is designed in a cloud environment. Experimental results demonstrate the hybrid canopy-FCM clustering algorithm processed by MapReduce be endowed with better clustering quality and higher operation speed.

영상 잡음 제거를 위해 개선된 비지역적 평균 알고리즘 (Improved Nonlocal Means Algorithm for Image Denoising)

  • 박상욱;강문기
    • 대한전자공학회논문지SP
    • /
    • 제48권1호
    • /
    • pp.46-53
    • /
    • 2011
  • 비지역적 평균 기반 영상 잡음 제거 알고리즘은 이론적 배경이 간단한데 반해 영상 잡음 제거 성능은 우수하여 최근 가장 널리 사용되는 잡음제거 알고리즘 중에 하나이다. 그러나 기존의 비지역작 평균 기반 알고리즘도 여전히 평탄 영역에서의 잡음 제거 효과가 미흡하며 잡음 제거 과정에서 경계 및 패턴 영역의 흐려짐과 같은 문제점이 있어 다양한 방식으로 개선된 알고리즘이 개발되고 있다. 본 논문에서는 비지역적 평균값을 구할 때 사용되는 가중치를 가중치 정렬을 통해 재 정의된 임계치로서 갱신하고 그로부터 잡음 제거 효과를 향상시키는 개선된 비지역적 평균 알고리즘을 제안한다. 가중치 정렬을 통해 갱신된 가중치들을 통해 경계 및 패턴 영역에서 보다 고르고 선명하게 가중치를 구할 수 있어 결과적으로 잡음 제거로 인한 흐려짐 없이 잡음 제거가 가능하다. 다양한 잡음 정도를 갖는 실험 영상에 제안된 방법을 테스트하여 기존에 제안된 비지역적 평균 기반 알고리즘들에 비해 시각적, 수치적 성능에서 우수한 결과를 얻을 수 있었다.

K-Means 알고리즘을 이용한 계층적 클러스터링에서 클러스터 계층 깊이와 초기값 선정 (Selection of Cluster Hierarchy Depth and Initial Centroids in Hierarchical Clustering using K-Means Algorithm)

  • 이신원;안동언;정성종
    • 정보관리학회지
    • /
    • 제21권4호
    • /
    • pp.173-185
    • /
    • 2004
  • 정보통신의 기술이 발달하면서 정보의 양이 많아지고 사용자의 질의에 대한 검색 결과 리스트도 많이 추출되므로 빠르고 고품질의 문서 클러스터링 알고리즘이 중요한 역할을 하고 있다. 많은 논문들이 계층적 클러스터링 방법을 이용하여 좋은 성능을 보이지만 시간이 많이 소요된다. 반면 K-means 알고리즘은 시간 복잡도를 줄일 수 있는 방법이다. 본 논문에서는 계층적 클러스터링 시스템인 콘도르(Condor) 시스템에서 간단하고 고품질이며 효율적으로 정보 검색 할 수 있도록 구현하였다. 이 시스템은 K-Means Algorithm을 이용하였으며 클러스터 계층 깊이와 초기값을 조절하여 $88\%$의 정확율을 보였다.

공간 탐색 최적화 알고리즘을 이용한 K-Means 클러스터링 기반 다항식 방사형 기저 함수 신경회로망: 설계 및 비교 해석 (K-Means-Based Polynomial-Radial Basis Function Neural Network Using Space Search Algorithm: Design and Comparative Studies)

  • 김욱동;오성권
    • 제어로봇시스템학회논문지
    • /
    • 제17권8호
    • /
    • pp.731-738
    • /
    • 2011
  • In this paper, we introduce an advanced architecture of K-Means clustering-based polynomial Radial Basis Function Neural Networks (p-RBFNNs) designed with the aid of SSOA (Space Search Optimization Algorithm) and develop a comprehensive design methodology supporting their construction. In order to design the optimized p-RBFNNs, a center value of each receptive field is determined by running the K-Means clustering algorithm and then the center value and the width of the corresponding receptive field are optimized through SSOA. The connections (weights) of the proposed p-RBFNNs are of functional character and are realized by considering three types of polynomials. In addition, a WLSE (Weighted Least Square Estimation) is used to estimate the coefficients of polynomials (serving as functional connections of the network) of each node from output node. Therefore, a local learning capability and an interpretability of the proposed model are improved. The proposed model is illustrated with the use of nonlinear function, NOx called Machine Learning dataset. A comparative analysis reveals that the proposed model exhibits higher accuracy and superb predictive capability in comparison to some previous models available in the literature.