• 제목/요약/키워드: Improved K-means algorithm

검색결과 143건 처리시간 0.032초

데이터 클러스터링을 위한 혼합 시뮬레이티드 어닐링 (Hybrid Simulated Annealing for Data Clustering)

  • 김성수;백준영;강범수
    • 산업경영시스템학회지
    • /
    • 제40권2호
    • /
    • pp.92-98
    • /
    • 2017
  • Data clustering determines a group of patterns using similarity measure in a dataset and is one of the most important and difficult technique in data mining. Clustering can be formally considered as a particular kind of NP-hard grouping problem. K-means algorithm which is popular and efficient, is sensitive for initialization and has the possibility to be stuck in local optimum because of hill climbing clustering method. This method is also not computationally feasible in practice, especially for large datasets and large number of clusters. Therefore, we need a robust and efficient clustering algorithm to find the global optimum (not local optimum) especially when much data is collected from many IoT (Internet of Things) devices in these days. The objective of this paper is to propose new Hybrid Simulated Annealing (HSA) which is combined simulated annealing with K-means for non-hierarchical clustering of big data. Simulated annealing (SA) is useful for diversified search in large search space and K-means is useful for converged search in predetermined search space. Our proposed method can balance the intensification and diversification to find the global optimal solution in big data clustering. The performance of HSA is validated using Iris, Wine, Glass, and Vowel UCI machine learning repository datasets comparing to previous studies by experiment and analysis. Our proposed KSAK (K-means+SA+K-means) and SAK (SA+K-means) are better than KSA(K-means+SA), SA, and K-means in our simulations. Our method has significantly improved accuracy and efficiency to find the global optimal data clustering solution for complex, real time, and costly data mining process.

An Improved Cat Swarm Optimization Algorithm Based on Opposition-Based Learning and Cauchy Operator for Clustering

  • Kumar, Yugal;Sahoo, Gadadhar
    • Journal of Information Processing Systems
    • /
    • 제13권4호
    • /
    • pp.1000-1013
    • /
    • 2017
  • Clustering is a NP-hard problem that is used to find the relationship between patterns in a given set of patterns. It is an unsupervised technique that is applied to obtain the optimal cluster centers, especially in partitioned based clustering algorithms. On the other hand, cat swarm optimization (CSO) is a new meta-heuristic algorithm that has been applied to solve various optimization problems and it provides better results in comparison to other similar types of algorithms. However, this algorithm suffers from diversity and local optima problems. To overcome these problems, we are proposing an improved version of the CSO algorithm by using opposition-based learning and the Cauchy mutation operator. We applied the opposition-based learning method to enhance the diversity of the CSO algorithm and we used the Cauchy mutation operator to prevent the CSO algorithm from trapping in local optima. The performance of our proposed algorithm was tested with several artificial and real datasets and compared with existing methods like K-means, particle swarm optimization, and CSO. The experimental results show the applicability of our proposed method.

빅데이터에서 개선된 TI-FCM 클러스터링 알고리즘 (Improved TI-FCM Clustering Algorithm in Big Data)

  • 이광규
    • 전기전자학회논문지
    • /
    • 제23권2호
    • /
    • pp.419-424
    • /
    • 2019
  • FCM 알고리즘은 반복 최적화 기법을 통해 최적해를 찾는다. 특히, 클러스터링 초기 중심과 잡음의 위치, 몰려있는 밀도의 위치, 개수에 따라 실행시간 차이가 난다. 하지만 이 방법은 중심점을 점차 갱신해 나가는 방법으로 초기 클러스터 중심이 한 쪽으로 치우치게 되고 클러스터링 결과의 편차가 심해 클러스터링 대푯값의 신뢰도가 떨어진다. 따라서 본 논문에서는 삼각부등식을 이용하여 클러스터 간 거리를 최대한 멀어지게 하여 클러스터 중심 밀도를 결정하는 TI-FCM(Triangular Inequality-Fuzzy C-Means:삼각부등식-FCM)클러스터링 알고리즘을 제안한다. 제안된 방법은 대용량의 빅데이터에서도 FCM에 비해 실제 클러스터에 수렴하는 효과적인 방법이고 실험을 통해 기존 FCM보다 실행시간이 감소됨을 보였다.

군집분석을 이용한 침수관련 유역특성 분류 (Classification of basin characteristics related to inundation using clustering)

  • 이한승;조재웅;강호선;황정근;문혜진
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.96-96
    • /
    • 2020
  • In order to establish the risk criteria of inundation due to typhoons or heavy rainfall, research is underway to predict the limit rainfall using basin characteristics, limit rainfall and artificial intelligence algorithms. In order to improve the model performance in estimating the limit rainfall, the learning data are used after the pre-processing. When 50.0% of the entire data was removed as an outlier in the pre-processing process, it was confirmed that the accuracy is over 90%. However, the use rate of learning data is very low, so there is a limitation that various characteristics cannot be considered. Accordingly, in order to predict the limit rainfall reflecting various watershed characteristics by increasing the use rate of learning data, the watersheds with similar characteristics were clustered. The algorithms used for clustering are K-Means, Agglomerative, DBSCAN and Spectral Clustering. The k-Means, DBSCAN and Agglomerative clustering algorithms are clustered at the impervious area ratio, and the Spectral clustering algorithm is clustered in various forms depending on the parameters. If the results of the clustering algorithm are applied to the limit rainfall prediction algorithm, various watershed characteristics will be considered, and at the same time, the performance of predicting the limit rainfall will be improved.

  • PDF

클러스터링 알고리즘기반의 COVID-19 상황인식 분석 (Analysis of COVID-19 Context-awareness based on Clustering Algorithm)

  • 이강환
    • 한국정보통신학회논문지
    • /
    • 제26권5호
    • /
    • pp.755-762
    • /
    • 2022
  • 본 논문에서는 학습 예측이 가능한 군집적 알고리즘으로 COVID-19에서 상황인식정보인 질병의 속성정보와 클러스터링를 이용한 군집적 알고리즘을 제안한다. 클러스터링 내에서 처리되는 군집 데이터는 신규 또는 새롭게 입력되는 정보가 상호관계를 예측하기 위해 분류 제공되는데, 이때 새롭게 입력되는 정보가 비교정보에서 오염된 정보로 처리되면 기존 분류된 군집으로부터 벗어나게 되어 군집성을 저하시키는 요인으로 작용하게 된다. 본 논문에서는 COVID-19에서의 질병속성 정보내 K-means알고리즘을 이용함에 있어 이러한 문제를 해결하기 위해 질병 상호관계 정보 추출이 가능한 사용자 군집 분석 방식을 제안하고자 한다. 제안하는 알고리즘은 자율적인 사용자 군집 특징의 상호관계를 분석학습하고 이를 통하여 사용자 질병속성간에 따른 클러스터를 구성해 사용자의 누적 정보로부터 클러스터의 중심점을 제공하게 된다. 논문에서 제안된 COVID-19의 다중질병 속성정보군집단위로 분류하고 학습하는 알고리즘은 적용한 모의실험 결과를 통해 사용자 관리 시스템의 예측정확도가 학습과정에서 향상됨을 보여주었다.

LBG 알고리즘 기반 데이터마이닝을 이용한 네트워크 침입 탐지율 향상 (Improvement of Network Intrusion Detection Rate by Using LBG Algorithm Based Data Mining)

  • 박성철;김준태
    • 지능정보연구
    • /
    • 제15권4호
    • /
    • pp.23-36
    • /
    • 2009
  • 네트워크 침입 탐지는 데이터마이닝 기법을 활용하면서 지속적으로 발전하여 왔다. 데이터마이닝에 의한 침입 탐지 기법에는 클래스 레이블을 이용한 감독 학습과 클래스 레이블이 없는 비감독 학습 방법이 있다. 본 논문에서는 클래스 레이블이 없는 비감독 학습 방법인 LBG 클러스터링 알고리즘을 이용하여 네트워크 침입 탐지 정확도를 높이는 방법을 연구하였다. 임의의 초기 중심값들로 시작하여 유클리디언 거리 기반에 의해 클러스터링을 수행하는 K-means 방법은 잡음(noisy) 데이터와 이상치(outlier)에 대하여 취약하다는 단점이 있다. 비균일이진 분할에 의한 클러스터링 알고리즘은 초기값 없이 이진분할에 의해 클러스터링을 수행하며 수행 속도가 빠르다. 본 논문에서는 이 두 알고리즘의 장단점을 통합한 EM(Expectation Maximization) 기반의 LBG 알고리즘을 네트워크 침입 탐지에 적용하였으며, KDD 컵 데이터셋을 대상으로 한 실험을 통하여 LBG 알고리즘을 이용함으로써 침입 탐지의 정확도를 높일 수 있음을 보였다.

  • PDF

엔트로피 기반의 가중치와 분포크기를 이용한 향상된 FCM 알고리즘 (Improved FCM Algorithm using Entropy-based Weight and Intercluster)

  • 곽현욱;오준택;손영호;김욱현
    • 대한전자공학회논문지SP
    • /
    • 제43권4호
    • /
    • pp.1-8
    • /
    • 2006
  • 본 논문은 엔트로피 기반의 가중치와 클러스터 분포크기를 이용한 향상된 FCM(Fuzzy C-Mean)알고리즘을 제안한다. FCM 알고리즘은 영상분할에서 일반적으로 많이 사용되는 퍼지 클러스터링 방법이다. 그러나 공간정보를 포함하지 않기 때문에 잡음 등에 민감하고, 클러스터를 이루는 특정들의 분포에 따라 화소들을 정확하게 분류할 수 없다. 이러한 단점을 해결하기 위해서 FCM 알고리즘의 소속정도를 연산할 때 클러스터 분포크기와 이웃 화소의 공간정보를 이용한 엔트로피 기반의 가중치를 적용한다. 실험결과에서 제안한 방법이 기존의 방법들보다 잡음에 강건하며 분할결과를 보였다.

DTW를 이용한 SVM 기반 이진트리 구조 설계 (Binary Tree Architecture Design for Support Vector Machine Using Dynamic Time Warping)

  • 강윤정;이재일;배진호;이승우;이종현
    • 전자공학회논문지
    • /
    • 제51권6호
    • /
    • pp.201-208
    • /
    • 2014
  • 본 논문은 DTW 결과를 이용하여 분류기 구조를 설계하는 알고리즘을 제안한다. 제안된 알고리즘은 다수 클래스의 데이터를 분류하기 위한 SVM 기반 이진트리 구조를 설계하는데 있어 DTW 결과를 이용한다. 각 클래스에 대한 데이터를 DTW의 입력으로 하여 얻어진 결과행렬의 열의 합을 이용하여 계산된 임계치를 기준으로 SVM 기반 이진트리 구조(SVM-BTA)를 설계한다. 제안된 알고리즘의 성능 비교를 위해 데이터베이스와 k-means 알고리즘을 이용한 이진트리 구조의 분류 결과를 비교한다. 분류에 사용된 데이터는 수중과도소음 데이터베이스의 18개 클래스 333개의 데이터이다. 제안된 분류기는 데이터베이스의 체계를 이용한 분류기에 비해 분류성능이 향상되었고, k-means 알고리즘을 이용한 분류기에 비해 비 생물소음의 검출 확률이 향상되었다. 제안된 SVM-BTA는 생물 소음(BO) 68.77%, 기계 소음인 체인(CHAN) 92.86%, 그 외의 기계 소음 및 음향학적 소음, 기타소음의 6종은 100%로 분류한다.

An Efficient Model Parameter Compensation Method foe Robust Speech Recognition

  • 정용주
    • 대한음성학회지:말소리
    • /
    • 제45호
    • /
    • pp.107-115
    • /
    • 2003
  • An efficient method that compensates the HMM parameters for the noisy speech recognition is proposed. Instead of assuming some analytical approximations as in the PMC, the proposed method directly re-estimates the HMM parameters by the segmental k-means algorithm. The proposed method has shown improved results compared with the conventional PMC method at reduced computational cost.

  • PDF

A Study on Efficient Memory Management Using Machine Learning Algorithm

  • Park, Beom-Joo;Kang, Min-Soo;Lee, Minho;Jung, Yong Gyu
    • International journal of advanced smart convergence
    • /
    • 제6권1호
    • /
    • pp.39-43
    • /
    • 2017
  • As the industry grows, the amount of data grows exponentially, and data analysis using these serves as a predictable solution. As data size increases and processing speed increases, it has begun to be applied to new fields by combining artificial intelligence technology as well as simple big data analysis. In this paper, we propose a method to quickly apply a machine learning based algorithm through efficient resource allocation. The proposed algorithm allocates memory for each attribute. Learning Distinct of Attribute and allocating the right memory. In order to compare the performance of the proposed algorithm, we compared it with the existing K-means algorithm. As a result of measuring the execution time, the speed was improved.