• Title/Summary/Keyword: K-Mean++ 클러스터링

Search Result 83, Processing Time 0.029 seconds

A Dispersion Mean Algorithm based on Similarity Measure for Evaluation of Port Competitiveness (항만 경쟁력 평가를 위한 유사도 기반의 이산형 평균 알고리즘)

  • Chw, Bong-Sung;Lee, Cheol-Yeong
    • Journal of Navigation and Port Research
    • /
    • v.28 no.3
    • /
    • pp.185-191
    • /
    • 2004
  • The mean and Clustering are important methods of data mining, which is now widely applied to various multi-attributes problem However, feature weighting and feature selection are important in those methods bemuse features may differ in importance and such differences need to be considered in data mining with various multiful-attributes problem. In addition, in the event of arithmetic mean, which is inadequate to figure out the most fitted result for structure of evaluation with attributes that there are weighted and ranked. Moreover, it is hard to catch hold of a specific character for assume the form of user's group. In this paper. we propose a dispersion mean algorithm for evaluation of similarity measure based on the geometrical figure. In addition, it is applied to mean classified by user's group. One of the key issues to be considered in evaluation of the similarity measure is how to achieve objectiveness that it is not change over an item ranking in evaluation process.

A Study on Customer rating using RFM and K-Means (RFM 기법과 K-Means 알고리즘을 이용한 고객 분류)

  • Ji, Hyunjung;Shin, Gyeongil;Shin, Dongil;Shin, Dongkyoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.803-806
    • /
    • 2017
  • 고객의 행동을 분석하기 위한 RFM(Recency, Frequency, Monetary)은 마케팅 분양에서 널리 쓰이고 있는 시작분석기법이다. 최근 축적되는 데이터가 많아지면서 이를 활용하기 위해 기계학습에 대한 관심이 증가하였다. 따라서 RFM 기법과 다양한 알고리즘을 결합하여 데이터를 분석하고자 하는 시도가 이루어지고 있다. 본 논문에서는 RFM 기법과 대표적인 클러스터링 알고리즘인 k-means를 통하여 고객을 등급화 하는 방법에 대해 실험하였다. 기존의 실험에서는 k값을 8 혹은 9로 지정하는 사례가 많았다. 그러나 본 실험에서는 내부평가방법을 통해 데이터 셋에 대한 최적의 k값을 구해보았고, 실험 결과 사용한 4개의 데이터 셋에서 3이라는 동일한 결과가 나왔다.

GPS Data Partitioning Method for POI Extraction in Distributed Environment (분산 네트워크 환경에서 POI추출을 위한 GPS 데이터 분할 방법)

  • Oh, Joo-Seong;Heo, Yu-Kyung;Park, Jin-Gwan;Back, Jong-Sang;Jung, Min-A
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.172-175
    • /
    • 2015
  • 많은 사람들이 위치 기반 서비스를 사용하면서 위치 기반 서비스에서 사용되는 GPS 데이터는 기하급수적으로 증가하고 있다. 사용자들에게 필요한 정보를 제공하기위해서는 이러한 대량의 GPS 데이터를 처리하여 POI를 추출하고 분석하는 과정이 필요하다. 본 논문에서는 POI를 추출하고 관리 분석하기 위해 MapReduce 환경을 구축하고 DBSCAN 클러스터링 방법을 이용한다. 또한 분산 환경에서 DBSCAN 알고리즘을 수행하기 위해 K-Means를 이용한 데이터 분할 방법을 제안한다.

A New Fast EM Algorithm (새로운 고속 EM 알고리즘)

  • 김성수;강지혜
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.31 no.10
    • /
    • pp.575-587
    • /
    • 2004
  • In this paper. a new Fast Expectation-Maximization algorithm(FEM) is proposed. Firstly the K-means algorithm is modified to reduce the number of iterations for finding the initial values that are used as the initial values in EM process. Conventionally the Initial values in K-means clustering are chosen randomly. which sometimes forces the process of clustering converge to some undesired center points. Uniform partitioning method is added to the conventional K-means to extract the proper initial points for each clusters. Secondly the effect of posterior probability is emphasized such that the application of Maximum Likelihood Posterior(MLP) yields fast convergence. The proposed FEM strengthens the characteristics of conventional EM by reinforcing the speed of convergence. The superiority of FEM is demonstrated in experimental results by presenting the improvement results of EM and accelerating the speed of convergence in parameter estimation procedures.

A Study on Glass Tile Generation for Stained Glass Rendering (스테인드 글라스 렌더링을 위한 유리 타일 생성에 관한 연구)

  • Nah, Hyeon-Cheol;Gi, Yong-Jea;Yoon, Kyung-Hyun
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.1246-1251
    • /
    • 2006
  • 본 연구에서는 영역 분할 알고리즘과 3차 스플라인 보간법을 이용하여 스테인드 글라스 렌더링을 위한 개선된 유리 타일 생성 알고리즘을 제안하였다. 먼저 유리 타일의 초기 형태를 추출하기 위하여 입력 영상에 Mean shift 분할 알고리즘을 적용하였다. Mean shift 분할 알고리즘은 영상의 각 픽셀(pixel)에서의 지역 밀도 최대 점(local density maximum)을 찾아 클러스터링(clustering)하는 알고리즘으로 영상을 효과적으로 분할할 수 있다. 그리고 분할된 영역에서 영역을 사용자 입력으로 병합하고, 영역에서 부적절한 형태를 없애기 위해 본 연구에서는 형태론적 연산(morphological operation)을 이용하였다. 추출된 영역으로부터 유리 타일의 형태로 만들기 위하여 추출된 각각의 영역에 3차 스플라인 보간법(cubic spline interpolation)을 적용하여 경계가 완화된 영역과 납틀(leading)의 형태를 얻는다. 그 다음 영역을 스플라인 곡선(spline curve)을 이용하여 재분할하고, 각 영역에 변환(transformation)된 색상을 적용하여 최종적인 유리 타일을 만들어낸다. 본 연구에서는 3차 스플라인 보간법을 이용하여 실제 스테인드 글라스에서 생길 수 있는 부드러운 경계를 갖는 유리 타일의 형태를 만들어 이를 스테인드 글라스 렌더링에 이용하였다. 이 방법은 기존의 영역 분할 알고리즘에 형태론적 연산만을 적용하여 유리 타일의 형태를 생성하는 것보다 효과적으로 유리 타일의 형태를 생성할 수 있다. 또한, 생성된 영역에 재분할 과정을 거쳐서 작은 유리 타일이 모여서 이루는 조형적인 형태를 이룰 수 있도록 하였다.

  • PDF

A Study of Germanium Substrate Vacancy Clustering Formation using Monte Carlo Method (Monte Carlo방법을 이용한 Germanium 기판의 결공형 클러스터링 형성에 대한 연구)

  • Lee, Jun-Ha
    • Journal of the Semiconductor & Display Technology
    • /
    • v.10 no.2
    • /
    • pp.45-48
    • /
    • 2011
  • In this paper, vacancy clustering formation and diffusion of germanium substrate was studied. The analysis method was adopted Monte Carlo method. At temperatures higher than melting point, fewer clusters formed, but there was less variation in the number of clusters than at lower temperatures, as the time increased. Equilibrium diffusivities in the clustering region were $10^2$ lower than those of free vacancies in the initial stage of kinetic lattice Monte Carlo simulations. They were expressed according to three temperature regimes: at temperatures above 1,100 K, at temperatures of 1,100-900 K, and at temperatures below 900 K. The effective mean migration energy, 1.1 eV, closely coincided with that of the 1.0-1.2 eV in experiments.

Partial Discharge Distribution Analysis on Interlace Defects of Cable Joint using K-means Clustering (K-means 클러스터링을 이용한 케이블 접속재 계면결함의 부분방전 분포 해석)

  • Cho, Kyung-Soon;Hong, Jin-Woong
    • Journal of the Korean Institute of Electrical and Electronic Material Engineers
    • /
    • v.20 no.11
    • /
    • pp.959-964
    • /
    • 2007
  • To investigate the influence of partial discharge(PD) distribution characteristics due to various defects on the power cable joints interface, we used the K-means clustering method. As the result of PD number(n) distribution analyzing on $\Phi-n$ graph, the phase angle($\Phi$) of cluster centroid shifted to $0^{\circ}\;and\;180^{\circ}$ increasing with applying voltage. It was confirmed that the PD quantify(q) and euclidean distance of centroid were increased with applying voltage from the centroid distribution analyzing of $\Phi-q$ plane. The dispersion degree was increased with calculated standard deviation of the $\Phi-q$ cluster centroid. The PD number and mean value on $\Phi-q$ graph were some different by electric field concentration with defect types.

Estimation of Defect Clustering Parameter Using Markov Chain Monte Carlo (Markov Chain Monte Carlo를 이용한 반도체 결함 클러스터링 파라미터의 추정)

  • Ha, Chung-Hun;Chang, Jun-Hyun;Kim, Joon-Hyun
    • Journal of Korean Society of Industrial and Systems Engineering
    • /
    • v.32 no.3
    • /
    • pp.99-109
    • /
    • 2009
  • Negative binomial yield model for semiconductor manufacturing consists of two parameters which are the average number of defects per die and the clustering parameter. Estimating the clustering parameter is quite complex because the parameter has not clear closed form. In this paper, a Bayesian approach using Markov Chain Monte Carlo is proposed to estimate the clustering parameter. To find an appropriate estimation method for the clustering parameter, two typical estimators, the method of moments estimator and the maximum likelihood estimator, and the proposed Bayesian estimator are compared with respect to the mean absolute deviation between the real yield and the estimated yield. Experimental results show that both the proposed Bayesian estimator and the maximum likelihood estimator have excellent performance and the choice of method depends on the purpose of use.

Initial Prototype Selection in Fuzzy C-Means Using Kernel Density Estimation (커널 밀도 추정을 이용한 Fuzzy C-means의 초기 원형 설정)

  • Cho, Hyun-Hak;Heo, Gyeong-Yong;Kim, Kwang-Beak
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2011.01a
    • /
    • pp.85-88
    • /
    • 2011
  • Fuzzy C-Means (FCM) 알고리듬은 가장 널리 사용되는 군집화 알고리듬 중 하나로 다양한 응용 분야에서 사용되고 있다. 하지만 FCM은 여러 가지 문제점을 가지고 있으며 초기 원형 설정이 그 중 하나이다. FCM은 국부 최적해에 수렴하므로 초기 원형 설정에 따라 클러스터링 결과가 달라진다. 이 논문에서는 이러한 FCM의 초기 원형 설정 문제를 개선하기 위하여 커널밀도 추정 (kernel density estimation) 기법을 활용하는 방법을 제안한다. 제안한 방법에서는 먼저 커널 밀도 추정을 수행한 후 밀도가 높은 지역에 클러스터의 초기 원형을 설정하고 원형이 설정된 영역의 밀도를 감소시키는 과정을 반복함으로써 효율적으로 초기 원형을 설정할 수 있다. 제안된 방법이 일반적으로 사용되는 무작위 초기화 방법에 비해 효율적이라는 사실은 실험결과를 통해 확인할 수 있다.

  • PDF

A Study of Similarity Measure Algorithms for Recomendation System about the PET Food (반려동물 사료 추천시스템을 위한 유사성 측정 알고리즘에 대한 연구)

  • Kim, Sam-Taek
    • Journal of the Korea Convergence Society
    • /
    • v.10 no.11
    • /
    • pp.159-164
    • /
    • 2019
  • Recent developments in ICT technology have increased interest in the care and health of pets such as dogs and cats. In this paper, cluster analysis was performed based on the component data of pet food to be used in various fields of the pet industry. For cluster analysis, the similarity was analyzed by analyzing the correlation between components of 300 dogs and cats in the market. In this paper, clustering techniques such as Hierarchical, K-Means, Partitioning around medoids (PAM), Density-based, Mean-Shift are clustered and analyzed. We also propose a personalized recommendation system for pets. The results of this paper can be used for personalized services such as feed recommendation system for pets.