• Title/Summary/Keyword: 군집 적합도

Search Result 336, Processing Time 0.032 seconds

How to determine the number of clusters (군집수 결정 문제)

  • Yun, Bok-Sik
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2004.05a
    • /
    • pp.689-693
    • /
    • 2004
  • 주어진 데이터를 일정한 기준에 따라 여러 개 군집으로 분할할 때 대부분 경우는 군집수에 대한 사전 정보가 없이 군집화를 실시하게 된다. 적절한 군집수의 결정은 군집화 결과의 타당성에 전제가 되는 매우 중요한 문제이나 내재된 복잡성 때문에 실제 적용에 간편한 방법을 찾기 힘들고 더구나 다양한 형태의 데이터에 보편적으로 적합한 방법을 찾기는 더욱 어렵다. 본 연구에서는 기존의 제시된 군집수 결정방법 들의 아이디어 들을 소개하고 주어진 데이터의 종류에 관계없이 일반적으로 적용할 수 있는 새로운 군집수 결정기법을 제시한다. 대부분의 경우 군집수 결정은 군집화와 동시에 이루어지게 되므로 이것을 한꺼번에 처리하는 범용의 방법도 소개한다. 적용 예제들을 통한 타당성 검증도 이루어진다.

  • PDF

Clustering Optimization Cluster Count Determination for Tourist Destination Recommendation (관광지 추천을 위한 클러스터링 최적화 군집수 결정)

  • Hae-Jin Yeo;In-Whee Joe
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.371-373
    • /
    • 2023
  • factor 들이 많은 데이터의 군집화는 어려움을 요한다. K-means 클러스터링을 사용하여 군집화를 할 때, 각 데이터들이 가진 factor 의 개수가 상이한 경우 비슷한 성향을 가진 데이터임에도 불구하고 클러스터링이 적합하게 되지 않는 현상이 발생한다. 이러한 문제점을 해결하기 위해 최적의 군집화 개수를 결정하는 실루엣 기반 방법을 제안하고 제안기법의 성능을 평가한다.

Analysis and New Indices of Cluster Validity Indices in Summation Type (합형식의 군집 유효화 지수의 분석과 새로운 지수 개발)

  • Kim Minho;Ramakrishna R.S.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.598-600
    • /
    • 2005
  • 군집 유효화 평가란 기본적으로 클래스 (Class)에 대한 정보가 주어지지 않은 상태에서 다양한 입력 변수에 의해 발생되는 군집화의 결과들을 평가하여 그들 중에서 주어진 데이터 집합의 자연적인 분할 상태에 가장 적합한 결과를 찾는 기법을 말한다. 군집 유효화 평가에서 그 척도로 사용되는 것이 군집 유효화 지수이다. 본 논문에서는 우선 현존하는 다양한 군집 유효화 지수들 중에서 합 형식을 가지는 지수들을 다룬다. 구체적으로 이 지수들의 설계 원리와 각 지수들의 부합성 (Compliance) 분석한다. 다음으로 분석을 통해 밝혀진 그들의 단점을 보완할 수 있는 새로운 군집 유효화 지수들을 제안한다. 마지막으로 기존의 군집 유효화 지수들을 포함한 새로이 제안한 지수들의 성능을 실험 학습을 통해 평가한다.

  • PDF

Analyzing landslide data using Cauchy cluster process (코시 군집 과정을 이용한 산사태 자료 분석)

  • Lee, Kise;Kim, Jeonghwan;Park, No-wook;Lee, Woojoo
    • The Korean Journal of Applied Statistics
    • /
    • v.29 no.2
    • /
    • pp.345-354
    • /
    • 2016
  • Inhomogeneous Poisson process models are widely applied to landslide data to understand how environmental variables systematically influence the risk of landslides. However, those models cannot successfully explain the clustering phenomenon of landslide locations. In order to overcome this limitation, we propose to use a Cauchy cluster process model and show how it improves the goodness of fit to the landslide data in terms of K-function. In addition, a numerical study is performed to select the optimal estimation method for the Cauchy cluster process.

Item Filtering System Using Associative Relation Clustering Split Method (연관관계 군집 분할 방법을 이용한 아이템 필터링 시스템)

  • Cho, Dong-Ju;Park, Yang-Jae;Jung, Kyung-Yong
    • The Journal of the Korea Contents Association
    • /
    • v.7 no.6
    • /
    • pp.1-8
    • /
    • 2007
  • In electronic commerce, it is important for users to recommend the proper item among large item sets with saving time and effort. Therefore, if the recommendation system can be recommended the suitable item, we will gain a good satisfaction to the user. In this paper, we proposed the associative relation clustering split method in the collaborative filtering in order to perform the accuracy and the scalability. We produce the lift between associative items using the ratings data. and then split the node group that consists of the item to improve an efficiency of the associative relation cluster. This method differs the association about the items of groups. If the association of groups is filled, the reminding items combine. To estimate the performance, the suggested method is compared with the K-means and EM in the MovieLens data set.

A change of the public's emotion depending on Temperature & Humidity index (온습도에 따른 대중의 감성(감정+감각) 활동 변화)

  • Yang, Junggi;Kim, Geunyoung;Lee, Youngho;Kang, Un-Gu
    • Journal of Digital Convergence
    • /
    • v.12 no.10
    • /
    • pp.243-252
    • /
    • 2014
  • Many researches about the effect on politics, economics and Sociocultural phenomenon using the social media are in progress. Authors utilized NAVER Trend most famous web browsing service in korea, NAVER Blog social media, NAVER Cafe service and Open Data(API) and also used temperature, humidity index data of Korea Meteorological Administration. This study analyzed a change of the public's emotion in korea using Cluster analysis of vocabulary of taste among its of feelings and senses. K-means clustering was followed by decision of the number of groups which was used Chi-square goodness of fit test and ward analysis. Eight groups was made and it represented sensitive vocabulary. By Discriminant analysis, eight groups decided by Cluster analysis has 98.9% accuracy. The change of the public's emotion has capability to predict people's activity so they can share sensibility and a bond of sympathy developed between them.

Clustering of Gene Expression Data by using SOM and Hierarchical Clustering (자기 조직화 지도와 계층적 군집화를 이용한 유전자 발현 데이터 군집화 기법)

  • 박창범;이동환;이성환
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.784-786
    • /
    • 2003
  • 본 논문에서는 유전자 발현 데이터를 분석하는데 있어서 자기 조직화 지도와 계층적 군집화 기법을 상호 보완적으로 사용하여 사용자가 보다 직관적으로 군집화 결과를 해석할 수 있는 방법을 제안한다. 제안된 방법을 사용하면 빠른 처리 속도로 대용량 데이터 처리에 적합한 자기 조직화 지도의 장점을 살릴 수 있으며 계층적 군집화의 장점인 가시화 기능을 이용하여 자기 조직화 지도의 단점인 군집 경계에 대한 불명확성을 해소하여 군집화 결과를 사용자가 쉽게 이해하고 직관적으로 해석할 수 있도록 도와준다. 본 논문에서 제안된 방법의 효용성을 검증하기 위해 세 종류의 데이터를 사용하여 실험을 수행한 결과 제안된 방법이 기존 방법에 비해 더 나은 성능을 보이는 것을 확인할 수 있었다.

  • PDF

A Study of Similar Blog Recommendation System Using Termite Colony Algorithm (흰개미 군집 알고리즘을 이용한 유사 블로그 추천 시스템에 관한 연구)

  • Jeong, Gi Sung;Jo, I-Seok;Lee, Malrey
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.13 no.1
    • /
    • pp.83-88
    • /
    • 2013
  • This paper proposes a recommending system of the similar blogs gathered with similarities between blogs according to the similarity, dividing words, for each frequency, that individual blogs have. It improved the algorithm of k-means, using the model of the habits of white ants for better performance of clustering, and showed better performance of clustering as a result of evaluating and comparing with the existing algorithm of k-means as the improved algorithm. The recommending system of similar blog was designed and embodied, using the improved algorithm. TCA can reduce clustering time and the number of moving time for clustering compare with K-means algorithm.

Multi-hierarchical Density-based Clustering Method (다계층 밀도기반 군집화 기법)

  • Shin, Dong Mun;Jung, Suk Ho;Yi, Gyeong Min;Lee, Dong Gyu;Sohn, GyoYong;Ryu, Keun Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.797-798
    • /
    • 2009
  • 군집화는 대용량의 데이터로부터 유용한 정보를 추출하는 데에 적합한 데이터마이닝 기법들 중 하나이다. 군집화 기법은 주어진 데이터그룹 내에서 사전정보 없이 의미있는 지식을 발견할 수 있으므로 큰 어려움이 없이 실제 응용분야에 적용할 수 있다. 또한, 대용량 데이터를 다룰 때에 개별적인 데이터에 대한 접근 횟수를 줄이고, 알고리즘이 다루어야 할 데이터 구조의 크기를 줄일 수 있다. 본 논문에서는 밀도-기반 군집화 기법을 기반으로 하는 새로운 군집화 기법을 제안한다. 우리가 제안하는 군집화 기법은 반복적인 군집화 과정을 통하여 군집 내 주변 잡음을 제거하고 더 세밀하게 집단을 세분화하는 것이 가능하다. 또한, 군집을 표현하는 데에 계층구조로 나타내어 각 군집의 상관관계를 파악하는 데에 유리하다. 본 논문에서 제안하는 군집화 기법을 통하여 다양한 밀도를 가진 군집들을 효과적으로 분류할 수 있을 거라고 기대된다.

Variable Selection in Clustering by Recursive Fit of Normal Distribution-based Salient Mixture Model (정규분포기반 두각 혼합모형의 순환적 적합을 이용한 군집분석에서의 변수선택)

  • Kim, Seung-Gu
    • The Korean Journal of Applied Statistics
    • /
    • v.26 no.5
    • /
    • pp.821-834
    • /
    • 2013
  • Law et al. (2004) proposed a normal distribution based salient mixture model for variable selection in clustering. However, this model has substantial problems such as the unidentifiability of components an the inaccurate selection of informative variables in the case of a small cluster size. We propose an alternative method to overcome problems and demonstrate a good performance through experiments on simulated data and real data.