• 제목/요약/키워드: Hierarchical Agglomerative Clustering

검색결과 43건 처리시간 0.023초

복합명사 분리 색인 방법이 문서 클러스터링에 미치는 영향 분석 (An Analysis of the Hierarchical Agglomerative Clustering based on various Compound Noun Indexing Method)

  • 양명석;최성필
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.697-699
    • /
    • 2002
  • 본 논문에서는 복합명사에 대한 색인 방법을 다각적으로 적용하여 계층적 결함 문서 클러스터링 시스템의 결과를 분석하고자 한다. 우선 한글 색인 엔진과 HAC(Hierarchical Agglumerative Clustering) 엔진에 대해서 설명하고 한글 색인엔진에서 제공되는 세가지 복합명사 분석 모드에 대해서 설명한다. 또한 구현된 클러스터링 엔진의 특징과 속도 향상을 위한 기법 등을 설명한다. 실험에서는 다양한 요소를 가지고 클러스터링된 문서 집합에 대한 분석 결과를 보인다. 실험 결과에 대한 분석에서 복합명사에 대한 색인 방법이 문서 클러스터링의 결과에 직접적인 영향을 준다는 것을 보여준다.

  • PDF

다양한 차원 축소 기법을 적용한 문서 군집화 성능 비교 (Comparison of Document Clustering Performance Using Various Dimension Reduction Methods)

  • 조희련
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.437-438
    • /
    • 2018
  • 문서 군집화 성능을 높이기 위한 한 방법으로 차원 축소를 적용한 문서 벡터로 군집화를 실시하는 방법이 있다. 본 발표에서는 특이값 분해(SVD), 커널 주성분 분석(Kernel PCA), Doc2Vec 등의 차원 축소 기법을, K-평균 군집화(K-means clustering), 계층적 병합 군집화(hierarchical agglomerative clustering), 스펙트럼 군집화(spectral clustering)에 적용하고, 그 성능을 비교해 본다.

Unsupervised Image Classification using Region-growing Segmentation based on CN-chain

  • Lee, Sang-Hoon
    • 대한원격탐사학회지
    • /
    • 제20권3호
    • /
    • pp.215-225
    • /
    • 2004
  • A multistage hierarchical clustering technique, which is an unsupervised technique, was suggested in this paper for classifying large remotely-sensed imagery. The multistage algorithm consists of two stages. The 'local' segmentor of the first stage performs region-growing segmentation by employing the hierarchical clustering procedure of CN-chain with the restriction that pixels in a cluster must be spatially contiguous. The 'global' segmentor of the second stage, which has not spatial constraints for merging, clusters the segments resulting from the previous stage, using the conventional agglomerative approach. Using simulation data, the proposed method was compared with another hierarchical clustering technique based on 'mutual closest neighbor.' The experimental results show that the new approach proposed in this study considerably increases in computational efficiency for larger images with a low number of bands. The technique was then applied to classify the land-cover types using the remotely-sensed data acquired from the Korean peninsula.

Data Pattern Estimation with Movement of the Center of Gravity

  • Ahn Tae-Chon;Jang Kyung-Won;Shin Dong-Du;Kang Hak-Soo;Yoon Yang-Woong
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제6권3호
    • /
    • pp.210-216
    • /
    • 2006
  • In the rule based modeling, data partitioning plays crucial role be cause partitioned sub data set implies particular information of the given data set or system. In this paper, we present an empirical study result of the data pattern estimation to find underlying data patterns of the given data. Presented method performs crisp type clustering with given n number of data samples by means of the sequential agglomerative hierarchical nested model (SAHN). In each sequence, the average value of the sum of all inter-distance between centroid and data point. In the sequel, compute the derivation of the weighted average distance to observe a pattern distribution. For the final step, after overall clustering process is completed, weighted average distance value is applied to estimate range of the number of clusters in given dataset. The proposed estimation method and its result are considered with the use of FCM demo data set in MATLAB fuzzy logic toolbox and Box and Jenkins's gas furnace data.

계층 발생 프레임워크를 이용한 군집 계층 시각화 (Visualizing Cluster Hierarchy Using Hierarchy Generation Framework)

  • 신동화;이세희;서진욱
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권6호
    • /
    • pp.436-441
    • /
    • 2015
  • 군집화 알고리즘은 그 종류에 따라 만들어낼 수 있는 군집의 종류와 보여줄 수 있는 정보의 수준이 차이가 난다. 밀도기반 군집화 알고리즘은 데이터 분포 상의 임의의 모양을 가진 군집을 잘 잡아내지만 보여줄 수 있는 계층정보가 매우 적거나 없는 수준이고, 반면 계층적 군집화 알고리즘은 자세한 계층 정보를 보여주지만 구 모양의 군집 외에는 잘 잡아내지 못한다. 이 논문에서는 이러한 두 군집화 방식의 대표적 알고리즘인 OPTICS와 응집 계층 군집화 알고리즘의 장점만을 취하는 계층 발생 프레임워크를 제시하고 이와 더불어 효과적 데이터 분석을 위한 여러 시각화, 상호작용 기법을 지원하는 시각적 분석 애플리케이션을 제공한다.

A Simple Tandem Method for Clustering of Multimodal Dataset

  • Cho C.;Lee J.W.;Lee J.W.
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회/대한산업공학회 2003년도 춘계공동학술대회
    • /
    • pp.729-733
    • /
    • 2003
  • The presence of local features within clusters incurred by multi-modal nature of data prohibits many conventional clustering techniques from working properly. Especially, the clustering of datasets with non-Gaussian distributions within a cluster can be problematic when the technique with implicit assumption of Gaussian distribution is used. Current study proposes a simple tandem clustering method composed of k-means type algorithm and hierarchical method to solve such problems. The multi-modal dataset is first divided into many small pre-clusters by k-means or fuzzy k-means algorithm. The pre-clusters found from the first step are to be clustered again using agglomerative hierarchical clustering method with Kullback- Leibler divergence as the measure of dissimilarity. This method is not only effective at extracting the multi-modal clusters but also fast and easy in terms of computation complexity and relatively robust at the presence of outliers. The performance of the proposed method was evaluated on three generated datasets and six sets of publicly known real world data.

  • PDF

시공간 데이터를 위한 클러스터링 기법 성능 비교 (Performance Comparison of Clustering Techniques for Spatio-Temporal Data)

  • 강나영;강주영;용환승
    • 지능정보연구
    • /
    • 제10권2호
    • /
    • pp.15-37
    • /
    • 2004
  • 최근 데이터 양이 급증하면서 데이터 마이닝에 대한 연구가 활발하게 진행되고 있으며 특히 GPS 시스템, 감시시스템, 기상 관측 시스템과 같은 다양한 응용 시스템으로부터 수집된 데이터를 분석하고자 하는 시공간 데이터 마이닝 연구에 대한 관심이 더욱 높아지고 있다. 기존의 시공간 데이터 마이닝 연구들에서는 비시공간 데이터 기반의 일반적인 클러스터링 기법들을 그대로 적용하고 있으나 데이터의 속성이 다른 시공간 데이터 마이닝에서 기존의 알고리즘들이 어느 정도의 성능을 보장하는지, 데이터의 시공간 속성에 따라 적절한 마이닝 알고리즘을 선택하기 위한 기준이 무엇인지 등에 대한 연구는 미흡한 실정이다. 본 논문에서는 기존의 시공간 데이터 마이닝 연구에서 일반적으로 많이 사용되어 온 알고리즘인 SOM(Self-Organizing Map)을 기반으로 시공간 데이터 마이닝 모듈을 개발하고, 개발된 클러스터링 모듈의 성능을 K-means과 두 가지 응집 계층(Hierarchical Agglomerative) 알고리즘들과 균질도, 분리도, 반면영상 너비, 정확도의 네 가지 평가 기준을 기반으로 비교하였다. 또한 입력 데이터의 특성 가시화 및 클러스터링 결과의 정확한 분석을 위해 시공간 데이터 클러스터링을 위한 가시화 모듈을 개발하였다.

  • PDF

우리나라 기상자료에 대한 군집분석 (Clustering analysis of Korea's meteorological data)

  • 여인권
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권5호
    • /
    • pp.941-949
    • /
    • 2011
  • 이 논문에서는 1999년 1월 1일부터 2010년 6월 30일까지 전국 72개 관측소에서 측정된 우리나라 기상자료를 평균연결법에 의한 계층적 병합방법을 통해 군집분석을 실시하고 각 기상자료에서 유도된 군집의 특성을 파악해 본다. 이 분석에서 유도된 군집과 2010년 기후변화에 따른 식중독 발생연구에서 사용되었던 산맥을 경계로 구분한 군집을 비교해 본다.

Morphometric Characterisation of Root-Knot Nematode Populations from Three Regions in Ghana

  • Nyaku, Seloame Tatu;Lutuf, Hanif;Cornelius, Eric
    • The Plant Pathology Journal
    • /
    • 제34권6호
    • /
    • pp.544-554
    • /
    • 2018
  • Tomato (Solanum lycopersicum) production in Ghana is limited by the root-knot nematode (Meloidogyne incognita, and yield losses over 70% have been experienced in farmer fields. Major management strategies of the root-knot nematode (RKN), such as rotation and nematicide application, and crop rotation are either little efficient and harmful to environments, with high control cost, respectively. Therefore, this study aims to examine morphometric variations of RKN populations in Ghana, using principal component analysis (PCA), of which the information can be utilized for the development of tomato cultivars resistant to RKN. Ninety (90) second-stage juveniles (J2) and 16 adult males of M. incognita were morphometrically characterized. Six and five morphometric variables were measured for adult males and second-stage juveniles (J2) respectively. Morphological measurements showed differences among the adult males and second-stage juveniles (J2). A plot of PC1 and PC2 for M. incognita male populations showed clustering into three main groups. Populations from Asuosu and Afrancho (Group I) were more closely related compared to populations from Tuobodom and Vea (Group II). There was however a single nematode from Afrancho (AF4) that fell into Group III. Biplots for male populations indicate, body length, DEGO, greatest body width, and gubernaculum length serving as variables distinguishing Group 1 and Group 2 populations. These same groupings from the PCA were reflected in the dendogram generated using Agglomerative Hierarchical Clustering (AHC). This study provides the first report on morphometric characterisation of M. incognita male and juvenile populations in Ghana showing significant morphological variation.

RAG 기반 계층 분류 (2) (RAG-based Hierarchical Classification)

  • 이상훈
    • 대한원격탐사학회지
    • /
    • 제22권6호
    • /
    • pp.613-619
    • /
    • 2006
  • 본 연구는 원격 탐사의 영상 처리에서 영상 분할의 상위 수준으로 응집 계층 clustering의 dendrogram을 통한 무감독 영상 분류를 제안한다. 제안된 알고리즘은 분광 영역에서 정의된 RAG (Regional Agency Graph)와 min-heap 자료 구조를 이용하여 MCSNP (Mutual Closest Spectral Neighbor Pair)의 집합을 검색하면서 합병을 수행하는 계층 clustering 방법이다. 계산 시간과 저장 기억의 사용에 대한 효율을 증가시키기 위해 분광적 인접성을 정의하는 분광 공간(spectral space)내의 다중 창을 사용하였고 RNV (Region Neighbor Vector)을 이용하여 합병에 의하여 변하는 RAG 갱신하였고 적정한 단계 수가 주어진다면 제안된 알고리즘은 집단 합병의 계층적 관계를 쉽게 해석 할 수 있는 dendrogram을 생성한다. 본 연구는 simulation 자료를 사용하여 광범위하게 제안된 알고리즘에 대한 평가 실험을 수행 하였으며 실험 결과는 알고리즘의 효율성을 입증하였다. 또한 한반도에서 관측된 방대한 크기의 QuickBird 영상의 적용 결과는 제안된 알고리즘이 무감독 영상 분류를 위한 강력한 수단임을 보여준다.