• Title/Summary/Keyword: 계층적 군집법

Search Result 40, Processing Time 0.026 seconds

Exploration of Hierarchical Techniques for Clustering Korean Author Names (한글 저자명 군집화를 위한 계층적 기법 비교)

  • Kang, In-Su
    • Journal of Information Management
    • /
    • v.40 no.2
    • /
    • pp.95-115
    • /
    • 2009
  • Author resolution is to disambiguate same-name author occurrences into real individuals. For this, pair-wise author similarities are computed for author name entities, and then clustering is performed. So far, many studies have employed hierarchical clustering techniques for author disambiguation. However, various hierarchical clustering methods have not been sufficiently investigated. This study covers an empirical evaluation and analysis of hierarchical clustering applied to Korean author resolution, using multiple distance functions such as Dice coefficient, Cosine similarity, Euclidean distance, Jaccard coefficient, Pearson correlation coefficient.

Hierarchical Clustering Analysis of Water Main Leak Location Data (상수관로 누수위치 자료를 이용한 계층적 군집분석)

  • Park, Su-Wan;Im, Gwang-Chae;Choi, Chang-Lok;Kim, Kyu-Lee
    • Journal of Korea Water Resources Association
    • /
    • v.42 no.3
    • /
    • pp.177-190
    • /
    • 2009
  • Rehabilitation projects for old water mains typically require considerable capital investments. One of the economical ways of pursuing the rehabilitation projects is to focus on a specific area within the entire region under management. In this paper the hierarchical clustering methods that analyze spatial inter-relationship of location data are applied to about 8,000 water leak location data recorded in a case study area from 1992 to 1997. Among the hierarchical clustering methods Single, Complete, and Average Linkage Methods are used to identify clusters of the water leak locations and to divide the area according to the defined clusters. By comparing the clusters identified by the clustering methods, the best clustering method for the case study area is suggested. Prioritization of the area for maintenance is obtained based on the water leak incident intensity for the clustered area using the suggested best clustering method.

Gene Screening and Clustering of Yeast Microarray Gene Expression Data (효모 마이크로어레이 유전자 발현 데이터에 대한 유전자 선별 및 군집분석)

  • Lee, Kyung-A;Kim, Tae-Houn;Kim, Jae-Hee
    • The Korean Journal of Applied Statistics
    • /
    • v.24 no.6
    • /
    • pp.1077-1094
    • /
    • 2011
  • We accomplish clustering analyses for yeast cell cycle microarray expression data. To reflect the characteristics of a time-course data, we screen the genes using the test statistics with Fourier coefficients applying a FDR procedure. We compare the results done by model-based clustering, K-means, PAM, SOM, hierarchical Ward method and Fuzzy method with the yeast data. As the validity measure for clustering results, connectivity, Dunn index and silhouette values are computed and compared. A biological interpretation with GO analysis is also included.

Analysis of Land-cover Types Using Multistage Hierarchical flustering Image Classification (다단계 계층군집 영상분류법을 이용한 토지 피복 분석)

  • 이상훈
    • Korean Journal of Remote Sensing
    • /
    • v.19 no.2
    • /
    • pp.135-147
    • /
    • 2003
  • This study used the multistage hierarchical clustering image classification to analyze the satellite images for the land-cover types of an area in the Korean peninsula. The multistage algorithm consists of two stages. The first stage performs region-growing segmentation by employing a hierarchical clustering procedure with the restriction that pixels in a cluster must be spatially contiguous, and finally the whole image space is segmented into sub-regions where adjacent regions have different physical properties. Without spatial constraints for merging, the second stage clusters the segments resulting from the previous stage. The image classification of hierarchical clustering, which merges step-by step two small groups into one large one based on the hierarchical structure of digital imagery, generates a hierarchical tree of the relation between the classified regions. The experimental results show that the hierarchical tree has the detailed information on the hierarchical structure of land-use and more detailed spectral information is required for the correct analysis of land-cover types.

Charaterization of Cities in Seoul Metropolitan Area by Cluster Analysis (군집분석을 이용한 수도권 도시의 유형화에 관한 연구)

  • Song, Min-Kyung;Chang, Hoon
    • Journal of Korean Society for Geospatial Information Science
    • /
    • v.18 no.1
    • /
    • pp.83-88
    • /
    • 2010
  • This paper has analyzed Seoul metropolitan area on the basis of cluster characteristics and it is to understand the traits of each clusters. In order to modelize the area, 10 different indicators were selected among components of a city such as population, activities, land and facilities. Also through principal component analysis, similar characteristics or congenialities of the variables were derived as a common factor. The result was organized by factor score from hierarchical clustering method and as a final result, metropolitan area was clustered into five areas.

Comparison of clustering with yeast microarray gene expression data (효모 마이크로어레이 유전자발현 데이터에 대한 군집화 비교)

  • Lee, Kyung-A;Kim, Jae-Hee
    • Journal of the Korean Data and Information Science Society
    • /
    • v.22 no.4
    • /
    • pp.741-753
    • /
    • 2011
  • We accomplish clustering analyses for yeast cell cycle microarray expression data. We compare model-based clustering, K-means, PAM, SOM and hierarchical Ward method with yeast data. As the validity measure for clustering results, connectivity, Dunn Index and silhouette values are computed and compared.

A Comparison of Cluster Analyses and Clustering of Sensory Data on Hanwoo Bulls (군집분석 비교 및 한우 관능평가데이터 군집화)

  • Kim, Jae-Hee;Ko, Yoon-Sil
    • The Korean Journal of Applied Statistics
    • /
    • v.22 no.4
    • /
    • pp.745-758
    • /
    • 2009
  • Cluster analysis is the automated search for groups of related observations in a data set. To group the observations into clusters many techniques has been proposed, and a variety measures aimed at validating the results of a cluster analysis have been suggested. In this paper, we compare complete linkage, Ward's method, K-means and model-based clustering and compute validity measures such as connectivity, Dunn Index and silhouette with simulated data from multivariate distributions. We also select a clustering algorithm and determine the number of clusters of Korean consumers based on Korean consumers' palatability scores for Hanwoo bull in BBQ cooking method.

Clustering analysis of Korea's meteorological data (우리나라 기상자료에 대한 군집분석)

  • Yeo, In-Kwon
    • Journal of the Korean Data and Information Science Society
    • /
    • v.22 no.5
    • /
    • pp.941-949
    • /
    • 2011
  • In this paper, 72 weather stations in Korea are clustered by the hierarchical agglomerative procedure based on the average linkage method. We compare our clusters and stations divided by mountain chains which are applied to study on the impact analysis of foodborne disease outbreak due to climate change.

Comparative Study of Regional Frequency Analysis Methods of Rainfall in Han River Basin (한강 유역에서의 강우 지역빈도 해석 방법의 비교 연구)

  • Um, Myoung-Jin;Lim, Seung-Teak;Nam, Woo-Sung;Cho, Won-Cheol;Heo, Jun-Haeng
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2008.05a
    • /
    • pp.1072-1076
    • /
    • 2008
  • 본 연구에서는 한강유역 109개 지점의 강우관측소에서 관측된 지속기간별 연최대강우량을 기본으로 각 지속기간별 L-모멘트값을 산정하고, 한강유역에 적합한 빈도해석기법을 정의하기 위하여 지역구분을 실시하였다. 지역구분을 위한 군집분석을 수행하기 위하여 각 지점별 기상학적 인자와 지형학적 인자를 변수로 사용하였다. 군집분석 기법인 Ward, 평균연결법, Fuzzy-c means, Two-Step방법을 이용하여 지역구분을 실시하였다. GIS를 이용하여 각 방법들을 이용하여 군집된 결과를 도시한 결과 Fuzzy-c means방법으로 구분된 지역구분이 적합한 것으로 나타났다. 또한 구분된 지역의 동질성 여부를 판단하고 적정 분포형을 선정하였으며 지점빈도해석 및 지역빈도해석을 통하여 빈도별 확률 수문량을 산정하였다. 산정된 결과의 정확도 알아보기 위해 모의발생을 시킨 후, 각 기법별로 산정된 상대 평균 제곱근 오차(Relative Root Mean Square Error, RRMSE)를 비교 분석한 결과 대체적으로 지수홍수법과 계층적 방법이 낮은 RRMSE를 나타냈다. 따라서 한강유역에서는 지수홍수법과 계층적 방법을 적용한 지역빈도해석이 적합한 것으로 판단된다.

  • PDF

Development of an Automatic Program to Analyze Sunspot Groups for Solar Flare Forecasting (태양 플레어 폭발 예보를 위한 흑점군 자동분석 프로그램 개발)

  • Park, Jongyeob;Moon, Yong-Jae;Choi, SeongHwan;Park, Young-Deuk
    • The Bulletin of The Korean Astronomical Society
    • /
    • v.38 no.2
    • /
    • pp.98-98
    • /
    • 2013
  • 태양의 활동영역에서 관측할 수 있는 흑점은 주로 흑점군으로 관측되며, 태양폭발현상의 발생을 예보하기 위한 중요한 관측 대상 중 하나이다. 현재 태양 폭발을 예보하는 모델들은 McIntosh 흑점군 분류법을 사용하며 통계적 모델과 기계학습 모델로 나누어진다. 컴퓨터는 흑점군의 형태학적 특성을 연속적인 값으로 계산하지만 흑점군의 형태적 다양성으로 인해 McIntosh 분류법과 일치하지 않는 경우가 있다. 이러한 이유로 컴퓨터가 계산한 흑점군의 형태학적인 특성을 예보에 직접 적용하는 것이 필요하다. 우리는 흑점군을 검출하기 위해 최소신장트리(Minimum spanning tree : MST)를 이용한 계층적 군집화 기법을 수행하였다. 그래프(Graph)이론에서 최소신장트리는 정점(Vertex)과 간선(Edge)으로 구성된 간선의 가중치의 합이 최소인 트리이다. 우리는 모든 흑점을 정점, 그들의 연결을 간선으로 적용하여 최소신장트리를 작성하였다. 또한 최소신장트리를 활용한 계층적 군집화기법은 초기값에 따른 군집화 결과의 차이가 없기 때문에 흑점군 검출에 있어서 가장 적합한 알고리즘이다. 이를 통해 흑점군의 기본적인 형태학적인 특성(개수, 면적, 면적비 등)을 계산하고 최소신장트리를 통해 가장 면적이 큰 흑점을 중심으로 트리의 깊이(Depth)와 차수(Degree)를 계산하였다. 이 방법을 2003년 SOHO/MDI의 태양 가시광 영상에 적용하여 구한 흑점군의 내부 흑점수와 면적은 NOAA에서 산출한 값들과 각각 90%, 99%의 좋은 상관관계를 가졌다. 우리는 이 연구를 통해 흑점군의 형태학적인 특성과 더불어 예보에 직접적으로 활용할 수 있는 방법을 논의하고자 한다.

  • PDF