• Title/Summary/Keyword: 군집성

Search Result 2,854, Processing Time 0.035 seconds

Cluster Validity Assessment Techniques for High-Dimensional Applications (고차원 응용에서의 군집 유효성 평가 기법)

  • Kim Minho;Yoo Hyunjin;Ramakrishna R.S.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.715-717
    • /
    • 2005
  • 군집 유효성은 다양한 입력 변수에 따라 변하는 군집화 알고리즘의 결과들을 평가하는 것이다. 본 논문에서는 고차원의 데이터 집합에 대한 군집 유효성의 문제점에 대한 새로운 해결책을 제시한다. 고차원 군집화 결과들을 평가할 때 발생하는 기존의 군집 유효성 지수들의 적용성의 문제점을 살펴보고, 고차원으로 인해 발생하는 문제를 효과적으로 다룰 수 있는 다양한 새로운 군집 유효성 지수들을 제안한다. 제안된 군집 유효성 지수들은 본 논문에 제공된 실험에서 최적의 군집 유효성 결과를 제공한다.

  • PDF

Validation-based Clustering Algorithm (유효성 기반 군집화 알고리즘)

  • ;R.S. Ramakrishna
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.19-21
    • /
    • 2003
  • 본 논문에서는 군집화의 가장 중요한 2가지 문제에 대한 새로운 해결책을 제시한다. 첫 번째 문제는 두 객체가 하나의 군집내에 포함될 수 있는지를 결정하는 유사 결정으로써, 이를 해결하기 위해 군집 유효화 지수에 기반한 유사 결정 기법을 제안한다. 이 기법은 정성적인 인지 과정을 정량적인 비교 결정 과정으로 바꾼다 이 기법은 본 논문에서 제안한 랜덤 군집화와 전체 군집화의 두 부분으로 구성된 유효성 기반 군집화 알고리즘의 핵심을 이루며. 기존의 않은 군집화 알고리즘에서 요구되는 복잡한 파라미터를 결정할 필요가 없어지도록 한다. 두 번째 문제는 최적 군집 수 (optimal number of clusters)를 찾는 것으로써, 이것 또한 앞에서 제안한 기법에 의해서 전체 군집화에서 찾을 수 있다. 마지막으로 제안한 기법과 군집화 알고리즘의 효용성 및 효율성을 보여주는 실험 결과가 제시된다.

  • PDF

A Partitioned Evolutionary Algorithm Based on Heuristic Evolution for an Efficient Supervised Fuzzy Clustering (효율적인 지도 퍼지 군집화를 위한 휴리스틱 분할 진화알고리즘)

  • Kim, Sung-Eun;Ryu, Joung-Woo;Kim, Myung-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.667-669
    • /
    • 2005
  • 최근 새로운 데이터마이닝 방법인 지도 군집화가 소개되고 있다. 지도 군집화의 목적은 동일한 클래스가 한 군집에 포함되도록 하는 것이다. 지도 군집화는 데이터에 대한 배경 지식을 획득하거나 분류 방법의 성능을 향상시키기 위한 방법으로 사용된다. 그러나 군집화 방법에서 파생된 지도 군집화 역시 군집화 개수 설정 방법에 따라 효율성이 좌우된다. 따라서 클래스 분포에 따라 최적의 지도 군집화 개수를 찾기 위해 진화알고리즘을 적용할 수 있으나, 진화알고리즘은 대용량 데이터를 처리할 경우 수행 시간이 증가되어 효율성이 감소되는 문제가 있다. 본 논문은 지도 군집화보다 강인한인 지도 퍼지 군집화를 효율적으로 생성하기 위해 진화성이 우수한 휴리스틱 분할 진화알고리즘을 제안한다. 휴리스틱 분할 진화알고리즘은 개체를 생성할 때 문제영역의 지식을 반영한 휴리스틱 연산으로 탐색 시간을 단축시키고, 개체 평가 단계에서 전체 데이터 대신 샘플링된 부분 데이터들을 이용하여 진화하는 분할 진화 방법으로 수행 시간을 단축시킴으로써 진화알고리즘의 효율성을 높인다. 또한 효율적으로 개체를 평가하기 위해 지도 퍼지 군집화 알고리즘인 지도 분할 군집화 알고리즘(SPC: supervised partitional clustering)을 제안한다. 제안한 방법은 이차원 실험 데이터에 대해서 정확성과 효율성을 분석하여 그 타당성을 확인한다.

  • PDF

Application of Cluster Analysis using Mutual Information (상호정보량 기법을 이용한 군집분석의 적용성 연구)

  • Jung, Young-Hun;Kim, Wan-Su;Jeong, Chang-Sam;Heo, Jun-Haeng
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2011.05a
    • /
    • pp.414-414
    • /
    • 2011
  • 우리나라 뿐만 아니라 전 세계적으로 기후변화로 인한 집중호우, 폭설 등이 빈번하게 일어나고 있으며 수공구조물 설계에 필요한 확률강우량도 증가하고 있다. 확률강우량을 산정하는 빈도해석의 경우 지점빈도해석의 문제점을 보완한 지역빈도해석에 대한 연구가 꾸준히 진행되고 있다. 지역빈도해석을 적용하기 위해서는 수문학적 동질성을 가지는 지역 구분이 무엇보다 중요하다. 군집 분석은 개체들이 지니고 있는 다양한 속성의 유사성을 동질적인 집단으로 군집화하는 방법을 말한다. 군집분석의 기본원리는 분석하고자 하는 여러 특성등을 유사성(similaruty) 거리(distance)로 환산하고 거리가 상대적으로 가까운 개체들을 동질적으로 군집화하는 것이다. 군집분석을 적용하기 위해서는 기상학적 인자와 지형학적 인자를 이용하여 군집분석을 실시한다. 군집분석을 실시할 때 가장 중요한 것은 입력변수의 선택으로 입력 변수의 적절한 선택이 결과값에 큰 영향을 준다. 상호정보량(Mutual Information, MI) 기법은 두 무작위 변수간의 관련성을 측정하는 방법이며 (Cover and Tomas, 2006), 두 변수간의 독립성 구조에 관한 가정이 없고 데이터 변형이나 잡음(noise)에 대한 영향이 적어 다른 기법보다 신뢰도가 높다고 알려져 있다(Peng et al., 2005). 본 연구에서는 상호정보량 기법을 이용하여 군집된 지점들의 종속성과 독립성의 관계를 정량적으로 산정하여 비교하고자 한다.

  • PDF

Modeling Group Mobility from Individual Mobility Model (개별 이동성 모델부터의 집단 이동성 모델 도출)

  • Kim, Dong-Yup;Choi, Dong-Yun;Song, Ha Yoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.376-379
    • /
    • 2014
  • 본 논문에서는 사람의 이동정보인 위치데이터를 바탕으로 위치분석(Location Analysis)을 통해 나타난 개개인의 이동성 모델을 바탕으로 각 개인의 이동성 모델에서 나타난 군집들의 관계를 분석해 개인이 속한 집단의 이동성 모델을 만든다. 집단 이동성 모델은 개인의 모델에서 나타난 군집을 이용하는데, 각 군집을 만드는데 필요한 위치 정보들과 군집의 중심, 군집간의 거리의 값을 계산하여 새로운 통합 군집을 만든다. 새로 만드는 군집은 각 특징에 따라 Micro Cluster, Macro Cluster의 2가지로 분류하였다. 실제 수년간 수집한 2명의 통합 개인 이동성 모델을 바탕으로 집단 이동성 모델을 생성한다. 집단 이동성 모델 생성에는 R Language를 사용하였고 결과 모델을 지도상에 표시할 수 있다.

A Comparison of Cluster Analyses and Clustering of Sensory Data on Hanwoo Bulls (군집분석 비교 및 한우 관능평가데이터 군집화)

  • Kim, Jae-Hee;Ko, Yoon-Sil
    • The Korean Journal of Applied Statistics
    • /
    • v.22 no.4
    • /
    • pp.745-758
    • /
    • 2009
  • Cluster analysis is the automated search for groups of related observations in a data set. To group the observations into clusters many techniques has been proposed, and a variety measures aimed at validating the results of a cluster analysis have been suggested. In this paper, we compare complete linkage, Ward's method, K-means and model-based clustering and compute validity measures such as connectivity, Dunn Index and silhouette with simulated data from multivariate distributions. We also select a clustering algorithm and determine the number of clusters of Korean consumers based on Korean consumers' palatability scores for Hanwoo bull in BBQ cooking method.

Determination of Optimal Cluster Size Using Bootstrap and Genetic Algorithm (붓스트랩 기법과 유전자 알고리즘을 이용한 최적 군집 수 결정)

  • 박민재;전성해;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.12a
    • /
    • pp.263-266
    • /
    • 2002
  • 데이터의 군집화를 수행할 때 최적 군집수 결정은 군집 결과의 성능에 많은 영향을 미친다. 특히 K-means 방법에서는 초기 군집수 K에 따라 군집결과의 성능 차이가 많이 나타난다. 하지만 대다수의 군집분석에서 초기 군집수의 결정은 경험을 바탕으로 하여 주관적으로 결정된다. 이때 개체수와 속성수가 증가하면 이러한 결정은 더욱 어려워지며 이때 결정된 군집수가 최적이 된다는 보장도 없다. 본 논문에서는 군집의 수를 자동으로 결정하고 그 결과의 유효성을 보장하기 위해 유전자 알고리즘에 기반한 최적 군집수 결정 방안을 제안한다. 데이터의 속성에 근거한 초기 해 집단이 생성되고, 해 집단 내에서 최적화된 군집수를 찾기 위해 교차 연산이 이루어진다. 적합도 값은 전체 군집화의 비 유사성의 합의 역으로 결정되어 전체적인 군집화 성능이 향상되는 방향으로 수렴된다. 또한 지역 국소값을 해결하기 위해 돌연변이 연산이 사용된다. 그리고 유전자 알고리즘의 학습 시간의 비용을 줄이기 위해 붓스트랩 기법이 적용된다.

Modified Sequential Algorithm schema for Efficient Digital Image retrieval (Modified Sequential Algorithmic Schema를 이용한 디지털 사진의 효율적인 분류)

  • Lee, Sang-Lyn
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2007.06a
    • /
    • pp.237-240
    • /
    • 2007
  • 이 논문에서는 수정된 Sequential Algorithmic Schema를 이용해서 여러 장소를 이동하면서 찍은 디지털 이미지를 효율적으로 분류할 수 있는 방법을 제안한다. 제안하는 방법은 이웃 패턴들과 특징 정보의 연속성, 유사성을 가지며 들어오는 입력 패턴에 대해 기존의 모든 군집과 유사도를 비교하는 방법이 아니라 이전 군집의 정보와 유사도를 비교하여 군집에 포함시키거나 동적으로 군집을 생성하는 효율적인 군집화 방법이다. 제안한 방법은 실험을 통해서 기존의 군집화 기법에 성능 및 속도의 효율성을 증명하였다.

  • PDF

A Study on the Relationship between Lifestyle and the Use of Internet Banking (라이프스타일에 따른 인터넷뱅킹 이용에 관한 연구)

  • Jo, Nam-Jae;Lee, Gi-Yeong;Son, Ji-Ho
    • 한국디지털정책학회:학술대회논문집
    • /
    • 2005.11a
    • /
    • pp.391-410
    • /
    • 2005
  • 본 연구에서는 응답자들의 라이프스타일을 먼저 몇 개의 요인으로 분석 한 후, 도출된 요인들을 다시 군집분류를 하였다. 추출된 군집들에 따라 인터넷 뱅킹 신뢰성과 인지도 그리고 소득수준이 인터넷 뱅킹 이용도에 어떤 차이를 보이는지 분석하였고, 전체 군집에서 나온 결과와 어떤 차이를 보이는지 비교 분석 해보았다. 그 결과 라이프스타일에 따라 4개의 군집이 분류되었으며, 군집1을 '적극적 활동형', 군집 2를 '현실적 가족형', 군집 3을 '전통적 보수형', 군집 4를 '소극적 비활동형'으로 명명하였다. 군집들에 따라 신뢰성, 인지도, 소득수준이 인터넷 뱅킹 이용에 영향을 미치는지에 대한 연구 결과로는 전체군집에서는 소득에만 영향을 받았으나 군집을 세분화하여 세분화된 군집별로 알아본 결과 전체 군집과는 달리 '적극적 활동형'은 신뢰성, '전통적 보수형'과 '소극적 비활동형'은 소득수준, 그리고 현실적 가족형은 아무 영향을 받지 않는 것으로 보아 시장을 세분화 하였을 경우와 세분화 하지 않았을 경우의 연구 결과는 다르다는 결론을 얻어냈으며, 인터넷 뱅킹 활성화에 있어서도 라이프스타일에 따른 고객 세분화는 큰 의미가 있다.

  • PDF

Microarray data analysis using relative hierarchical clustering (상대적 계층적 군집 방법을 이용한 마이크로어레이 자료의 군집분석)

  • Woo, Sook Young;Lee, Jae Won;Jhun, Myoungshic
    • Journal of the Korean Data and Information Science Society
    • /
    • v.25 no.5
    • /
    • pp.999-1009
    • /
    • 2014
  • Hierarchical clustering analysis helps easily exploring massive microarray data and understanding biological phenomena with dendrogram. But, because hierarchical clustering algorithms only consider the absolute similarity, it is difficult to illustrate a relative dissimilarity, which consider not only the distance between a pair of clusters, but also how distant are they from the rest of the clusters. In this study, we introduced the relative hierarchical clustering method proposed by Mollineda and Vidal (2000) and compared hierarchical clustering method and relative hierarchical method using the simulated data and the real data in the various situations. The evaluation of the quality of two hierarchical methods was performed using percentage of incorrectly grouped points (PIGP), homogeneity and separation.