• 제목/요약/키워드: k-means algorithms

검색결과 400건 처리시간 0.023초

K-means 알고리즘 기반 클러스터링 인덱스 비교 연구 (A Performance Comparison of Cluster Validity Indices based on K-means Algorithm)

  • 심요성;정지원;최인찬
    • Asia pacific journal of information systems
    • /
    • 제16권1호
    • /
    • pp.127-144
    • /
    • 2006
  • The K-means algorithm is widely used at the initial stage of data analysis in data mining process, partly because of its low time complexity and the simplicity of practical implementation. Cluster validity indices are used along with the algorithm in order to determine the number of clusters as well as the clustering results of datasets. In this paper, we present a performance comparison of sixteen indices, which are selected from forty indices in literature, while considering their applicability to nonhierarchical clustering algorithms. Data sets used in the experiment are generated based on multivariate normal distribution. In particular, four error types including standardization, outlier generation, error perturbation, and noise dimension addition are considered in the comparison. Through the experiment the effects of varying number of points, attributes, and clusters on the performance are analyzed. The result of the simulation experiment shows that Calinski and Harabasz index performs the best through the all datasets and that Davis and Bouldin index becomes a strong competitor as the number of points increases in dataset.

Semantic-Based K-Means Clustering for Microblogs Exploiting Folksonomy

  • Heu, Jee-Uk
    • Journal of Information Processing Systems
    • /
    • 제14권6호
    • /
    • pp.1438-1444
    • /
    • 2018
  • Recently, with the development of Internet technologies and propagation of smart devices, use of microblogs such as Facebook, Twitter, and Instagram has been rapidly increasing. Many users check for new information on microblogs because the content on their timelines is continually updating. Therefore, clustering algorithms are necessary to arrange the content of microblogs by grouping them for a user who wants to get the newest information. However, microblogs have word limits, and it has there is not enough information to analyze for content clustering. In this paper, we propose a semantic-based K-means clustering algorithm that not only measures the similarity between the data represented as a vector space model, but also measures the semantic similarity between the data by exploiting the TagCluster for clustering. Through the experimental results on the RepLab2013 Twitter dataset, we show the effectiveness of the semantic-based K-means clustering algorithm.

COUNTING OF FLOWERS BASED ON K-MEANS CLUSTERING AND WATERSHED SEGMENTATION

  • PAN ZHAO;BYEONG-CHUN SHIN
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제27권2호
    • /
    • pp.146-159
    • /
    • 2023
  • This paper proposes a hybrid algorithm combining K-means clustering and watershed algorithms for flower segmentation and counting. We use the K-means clustering algorithm to obtain the main colors in a complex background according to the cluster centers and then take a color space transformation to extract pixel values for the hue, saturation, and value of flower color. Next, we apply the threshold segmentation technique to segment flowers precisely and obtain the binary image of flowers. Based on this, we take the Euclidean distance transformation to obtain the distance map and apply it to find the local maxima of the connected components. Afterward, the proposed algorithm adaptively determines a minimum distance between each peak and apply it to label connected components using the watershed segmentation with eight-connectivity. On a dataset of 30 images, the test results reveal that the proposed method is more efficient and precise for the counting of overlapped flowers ignoring the degree of overlap, number of overlap, and relatively irregular shape.

적응적인 초기치 설정을 이용한 Fast K-means 및 Frizzy-c-means 알고리즘 (A Fast K-means and Fuzzy-c-means Algorithms using Adaptively Initialization)

  • 강지혜;김성수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.516-524
    • /
    • 2004
  • 본 논문에서는 K-means 또는 Fuzzy-c-means 알고리즘에서 클러스터의 중심점을 찾는 과정 중 임의로 선택되는 초기값 선정의 문제를 해결하고, 기존의 단점을 보완하는 새로운 방안으로서 데이터의 분포의 통계적 특성에 따른 초기값 선정 방법을 제안하였다. 기존의 초기값 선정 방법은 초기값에 따라 클러스터링이 매우 민감한 변화를 가져와, 최종적으로 종종 원치 않는 방향으로 가는 문제점을 갖고 있다. 이러한 초기값 선정의 문제가 인지되어 왔지만, 그 문제의 해결방안이 실제적으로 모색된 경우는 없었다. 본 논문에서는 데이타의 통계적 특성을 이용한 초기값 선정 방법을 적용하여, 클러스터링이 형성되는 시간의 단축 및 원치 않는 결과가 생성되는 경우를 약화시켜 시스템의 향상을 가져왔고, 이러한 제안된 알고리즘의 우수성을 기존의 알고리즘과 비교를 통하여 나타내었다.

지식 분류의 자동화를 위한 클러스터링 모형 연구 (Development of a Clustering Model for Automatic Knowledge Classification)

  • 정영미;이재윤
    • 정보관리학회지
    • /
    • 제18권2호
    • /
    • pp.203-230
    • /
    • 2001
  • 본 연구에서는 문헌을 기반으로 한 지식의 자동분류를 위해 최적의 클러스터링 모형을 제시하고자 하였다. 클러스터링 실험을 위해서 신문기사 실험집단과 학술논문 초록 실험집단을 구축하였고, 분류 성능 평가 척도인 WACS를 개발하였다. 분류자질로 사용한 용어의 집합은 다양한 자질 축소 기준을 적용하여 생성하였으며, 다양한 용어 가중치를 사용하였다. 유사계수 공식으로는 코사인 계수와 자카드 계수를 적용하였으며, 클러스터링 알고리즘으로는 비계층적 기법인 완전연결 기법과 계층적 기법인 K-means기법을 각각 사용하였다. 실험 결과 신문기사 원문 집단에서의 성능이 좋았으며, 완전연결 기법의 성능이 K-means 기법보다 높게 나타났다. 역문헌빈도의 적용은 완전연결 클러스터링에서는 긍정적인 효과가 나타났으나, K-means 클러스터링에서는 그렇지 못했다. 분류자질은 전체의 7.66%만 사용하였을 경우에도 성능 저하가 크지 않았으며, K-means 클러스터링에서는 오히려 성능 향상 효과가 있었다.

  • PDF

비지역적 평균 기반 시공간 잡음 제거 알고리즘 (Spatio-temporal Denoising Algorithm base on Nonlocal Means)

  • 박상욱;강문기
    • 대한전자공학회논문지SP
    • /
    • 제48권2호
    • /
    • pp.24-31
    • /
    • 2011
  • 동영상 잡음 제거에 있어서 비지역적 평균 기반 시공간 잡음 제거 알고리즘을 제안한다. 기존에 제시된 비지역적 평균 기반 알고리즘은 잡음 제거에 우수한 성능을 보이지만 연산량이 많고 여러 장의 장면 기억장치가 필요하기 때문에 하드웨어 시스템 구현에 많은 어려움이 있다. 그러므로 제안된 알고리즘에서는 무한 충격 응답 기반 시간 영역 잡음 제거 알고리즘을 도입하여 움직임이 적은 영역에서는 자연스러운 잡음 제거가 가능하며 움직임이 많은 영역에서는 연산량 측면에서 효율성을 고려하여 개선된 비지역적 평균 기반 잡음 제거 알고리즘을 적용하여 움직임에 의한 흐려짐을 최소화 하면서 잡음 제거를 수행하였다. 다양한 잡음 정도를 갖는 시험 영상에 대한 실험을 통해 수치적, 시각적 측면에서 각각 비교하여 제안된 알고리즘의 성능이 기존의 알고리즘과 대등하거나 촬영 영상에 따라서는 우수한 성능을 보임을 확인할 수 있었다.

영상 잡음 제거를 위해 개선된 비지역적 평균 알고리즘 (Improved Nonlocal Means Algorithm for Image Denoising)

  • 박상욱;강문기
    • 대한전자공학회논문지SP
    • /
    • 제48권1호
    • /
    • pp.46-53
    • /
    • 2011
  • 비지역적 평균 기반 영상 잡음 제거 알고리즘은 이론적 배경이 간단한데 반해 영상 잡음 제거 성능은 우수하여 최근 가장 널리 사용되는 잡음제거 알고리즘 중에 하나이다. 그러나 기존의 비지역작 평균 기반 알고리즘도 여전히 평탄 영역에서의 잡음 제거 효과가 미흡하며 잡음 제거 과정에서 경계 및 패턴 영역의 흐려짐과 같은 문제점이 있어 다양한 방식으로 개선된 알고리즘이 개발되고 있다. 본 논문에서는 비지역적 평균값을 구할 때 사용되는 가중치를 가중치 정렬을 통해 재 정의된 임계치로서 갱신하고 그로부터 잡음 제거 효과를 향상시키는 개선된 비지역적 평균 알고리즘을 제안한다. 가중치 정렬을 통해 갱신된 가중치들을 통해 경계 및 패턴 영역에서 보다 고르고 선명하게 가중치를 구할 수 있어 결과적으로 잡음 제거로 인한 흐려짐 없이 잡음 제거가 가능하다. 다양한 잡음 정도를 갖는 실험 영상에 제안된 방법을 테스트하여 기존에 제안된 비지역적 평균 기반 알고리즘들에 비해 시각적, 수치적 성능에서 우수한 결과를 얻을 수 있었다.

계층적 경쟁기반 병렬 유전자 알고리즘을 이용한 퍼지집합 퍼지모델의 최적화 (Optimization of Fuzzy Set Fuzzy Model by Means of Hierarchical Fair Competition-based Parallel Genetic Algorithms)

  • 최정내;오성권;황형수
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2006년도 제37회 하계학술대회 논문집 D
    • /
    • pp.2097-2098
    • /
    • 2006
  • In this study, we introduce the hybrid optimization of fuzzy inference systems that is based on Hierarchical Fair Competition-based Parallel Genetic Algorithms (HFCGA). HFCGA is a kind of multi-populations of Parallel Genetic Algorithms(PGA), and it is used for structure optimization and parameter identification of fuzzy set model. It concerns the fuzzy model-related parameters as the number of input variables, a collection of specific subset of input variables, the number of membership functions, and the apexes of the membership function. In the hybrid optimization process, two general optimization mechanisms are explored. The structural optimization is realized via HFCGA method whereas in case of the parametric optimization we proceed with a standard least square method as well as HFCGA method as well. A comparative analysis demonstrates that the proposed algorithm is superior to the conventional methods.

  • PDF

GEOSTATISTICAL INTEGRATION OF HIGH-RESOLUTION REMOTE SENSING DATA IN SPATIAL ESTIMATION OF GRAIN SIZE

  • Park, No-Wook;Chi, Kwang-Hoon;Jang, Dong-Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2006년도 Proceedings of ISRS 2006 PORSEC Volume I
    • /
    • pp.406-408
    • /
    • 2006
  • Various geological thematic maps such as grain size or ground water level maps have been generated by interpolating sparsely sampled ground survey data. When there are sampled data at a limited number of locations, to use secondary information which is correlated to primary variable can help us to estimate the attribute values of the primary variable at unsampled locations. This paper applies two multivariate geostatistical algorithms to integrate remote sensing imagery with sparsely sampled ground survey data for spatial estimation of grain size: simple kriging with local means and kriging with an external drift. High-resolution IKONOS imagery which is well correlated with the grain size is used as secondary information. The algorithms are evaluated from a case study with grain size observations measured at 53 locations in the Baramarae beach of Anmyeondo, Korea. Cross validation based on a one-leave-out approach is used to compare the estimation performance of the two multivariate geostatistical algorithms with that of traditional ordinary kriging.

  • PDF

외부 군집 연관 기준 정보를 이용한 군집수 최적화 (A Study on Optimizing the Number of Clusters using External Cluster Relationship Criterion)

  • 이현진;지태창
    • 디지털콘텐츠학회 논문지
    • /
    • 제12권3호
    • /
    • pp.339-345
    • /
    • 2011
  • 군집화는 주어진 데이터를 분할하여 데이터 속에 숨겨져 있는 의미를 자동으로 발견하는 방법이다. k-means는 간단하고 빠른 군집화 알고리즘 중의 하나이다. 군집의 수 k는 군집화를 수행하는데 매우 중요한 요소이며, k의 값에 의해 군집화 결과가 달라진다. 본 논문에서는 반복적인 k-means 수행과 군집의 품질을 평가하는 외부 군집 연관 기준 정보를 결합하여 최적의 군집수를 결정하는 방법을 제안한다. 실험 결과 기존의 방법들에 비하여 제안하는 방법이 군집수의 정확성 측면에서 우수한 성능을 보였다.