• Title, Summary, Keyword: 군집분석

Search Result 3,197, Processing Time 0.047 seconds

Presenting the possibility of using water pipe network data through R-based data mining analysis (R기반 데이터마이닝 분석을 통한 상수관망 자료 활용가능성 제시)

  • Hong, Sung Jin;Lee, Chan Wook;Yoo, Do Guen
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • /
    • pp.236-236
    • /
    • 2020
  • 데이터마이닝은 빅데이터를 활용하는데 주로 활용되는 기술이다. 빅데이터 활용의 중요성이 증대됨에 따라 빅데이터를 기반으로 데이터마이닝을 활용한 생산, 금융, 통신 등의 성공적인 활용사례가 있지만 상수도 시설물에 적용한 사례는 드물다. 본 연구에서는 R프로그램을 기반으로 확보하기 어려운 데이터를 얻고자 관련 기사를 수집하고 데이터마이닝의 주요 기능인 분류, 군집(K-means)분석을 수행하였다. 예를들어, 상수관로의 정밀한 누수 분석을 위해서는 관경, 매설년도 등의 세분화된 자료가 필요하나 이러한 자료들은 쉽게 확보할 수 없다는 한계를 갖고 있다. 이러한 관점에서 상수관망 단수, 누수 등의 키워드를 통해 얻을 수 있는 기사를 기반으로 주요 키워드에 대한 군집분석을 수행하여 세분화된 상수관망 자료를 획득 및 분석하였다. 단수, 누수 키워드 기사에 의해 관경정보 등 파손된 관로의 정보를 확보할 수 있는 것으로 나타났으며 향후 확보하기 어려운 데이터를 보완할 수 있는 방법 중 하나로 활용될 수 있을것으로 기대된다. 그러나, 데이터의 양과 보다 정교한 군집분석을 위한 키워드설정 등의 추가연구가 필요할 것으로 판단된다.

  • PDF

머신러닝을 위한 베이지안 방법론: 군집분석을 중심으로

  • Kim, Yong-Dae;Jeong, Gu-Hwan
    • Information and Communications Magazine
    • /
    • v.33 no.10
    • /
    • pp.60-64
    • /
    • 2016
  • 본고에서는 베이지안 기계학습 방법론에 대해서 간략히 살펴본다. 특히, 복잡한 자료들 사이의 관계를 규명하는 것이 목적이며 비지도학습(unsupervised learning)의 한 분야인 군집분석에서 베이지안 방법론들이 어떻게 사용되어지는지를 설명한다. 군집의 수를 사전에 아는 경우에 사용되는 모수적 베이지안 방법을 간단하게 설명하고, 군집의 수까지 추론 할 수 있는 비모수 베이지안방법에 대해서 자세하게 다룬다.

A Study on the Regionalization of Snowfall using Multivariate Analysis in Korea (다변량 분석을 이용한 국내 강설의 권역화 연구)

  • Lee, Jung-Sik;Shin, Chang-Dong;Kim, Byung-Chul
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • /
    • pp.1591-1595
    • /
    • 2010
  • 국내의 경우 매년 발생하는 홍수에 대해서는 많은 분석과 대비를 하고 있지만, 겨울철 강설에 대한 연구는 미비한 실정이다. 본 연구에서는 기상청 산하 57개 관측지점의 30년 이상의 강설 자료를 수집하고 다변량 분석을 실시하였다. 국내 지역의 강설 동질성을 검정하기 위하여 주성분분석과 군집분석을 실시하였으며 본 연구의 수행으로 얻어진 결과를 요약하면 다음과 같다. 첫째, 본 연구에서는 지금까지 선행된 타 연구에 비하여 보다 많은 강설지점에 대한 다양한 강설특성자료를 이용함으로써 권역화 분석에 대한 타당성과 정확성을 확보할 수 있었다. 둘째, 주성분 및 군집분석으로 관측지점간의 수문학적 동질성 검정을 합리적이고 효율적으로 분석할 수 있었으며, 군집분석의 결과로부터 지형학적 영향을 고려한 강설의 권역화는 국내의 강설지역을 5개의 권역으로 분류하였다. 셋째, 각 강설성분의 권역별 평균값으로부터 각 권역별 강설의 양적 특성을 분석하였으며, 여러 가지 강설 성분을 종합적으로 이용하여 분석된 본 연구의 결과는 향후 재난방지 계획을 위한 강설의 수문학적 분석에 많은 도움을 주리라 사료된다.

  • PDF

Comparison of the Cluster Validation Methods for High-dimensional (Gene Expression) Data (고차원 (유전자 발현) 자료에 대한 군집 타당성분석 기법의 성능 비교)

  • Jeong, Yun-Kyoung;Baek, Jang-Sun
    • The Korean Journal of Applied Statistics
    • /
    • v.20 no.1
    • /
    • pp.167-181
    • /
    • 2007
  • Many clustering algorithms and cluster validation techniques for high-dimensional gene expression data have been suggested. The evaluations of these cluster validation techniques have, however, seldom been implemented. In this paper we compared various cluster validity indices for low-dimensional simulation data and real gene expression data, and found that Dunn's index is the most effective and robust, Silhouette index is next and Davies-Bouldin index is the bottom among the internal measures. Jaccard index is much more effective than Goodman-Kruskal index and adjusted Rand index among the external measures.

Microarray data analysis using relative hierarchical clustering (상대적 계층적 군집 방법을 이용한 마이크로어레이 자료의 군집분석)

  • Woo, Sook Young;Lee, Jae Won;Jhun, Myoungshic
    • Journal of the Korean Data and Information Science Society
    • /
    • v.25 no.5
    • /
    • pp.999-1009
    • /
    • 2014
  • Hierarchical clustering analysis helps easily exploring massive microarray data and understanding biological phenomena with dendrogram. But, because hierarchical clustering algorithms only consider the absolute similarity, it is difficult to illustrate a relative dissimilarity, which consider not only the distance between a pair of clusters, but also how distant are they from the rest of the clusters. In this study, we introduced the relative hierarchical clustering method proposed by Mollineda and Vidal (2000) and compared hierarchical clustering method and relative hierarchical method using the simulated data and the real data in the various situations. The evaluation of the quality of two hierarchical methods was performed using percentage of incorrectly grouped points (PIGP), homogeneity and separation.

A Classification of Rainfall Regions in Pakistan (파키스탄의 강수지역 구분)

  • Hussain, Mian Sabir;Lee, Seung-Ho
    • Journal of the Korean Geographical Society
    • /
    • v.44 no.5
    • /
    • pp.605-623
    • /
    • 2009
  • This study is aimed to classify rainfall regions in Pakistan. Classification of rainfall regions is essential to understand rainfall patterns in Pakistan. Rainfall patterns have been investigated using a factor and cluster analysis technique by 10-days rainfall parameter. The data used here have been obtained from 32 specific weather stations of PMD (Pakistan Meteorological Department) for the period of January 1980 to December 2006. The results obtained from factor analysis provide three factors and these three factors accounts for 94.60% of the total variance. For a better understanding of rainfall regions, cluster analysis method has been applied. The clustering procedure is based on the Wards method algorithm. Overall, these rainfall regions have been divided into six groups. The boundary of the region is determined by the topology such as Baluchistan plateau, Indus plain, Hindu Kush and Himalaya ranges.

Plant Recovery of the Burnt Area around Samsinbong in Chirisan National Park (지리산국립공원 삼신봉주변 산불지역의 식생회복현황)

  • 김정호
    • Korean Journal of Environment and Ecology
    • /
    • v.14 no.1
    • /
    • pp.18-27
    • /
    • 2000
  • 지리산국립공원 동부지역인 경남하동군 화개면에 위치하는 삼신봉(해발 1,284m) 산림 중 산불이 발생하였던 지역의 식생회복현황을 파악하기 위해 산불이 발생하였던 지역에 20개 조사구 대조지역에 12개 조사구를 설정하고 연구를 수행하였다 산불이 발생하였던 지역에 설정한 20개 조사구를 대상으로 TWINSPAN과 DCA를 분석한 결과 신갈나무군집(I) 신갈나무-쇠물푸레군집(II) 으로 분리되었고 대조지역에 설정한 조사구는 신갈나무군집(II)이었다 군집 I과 군집II에서 교목층과 아교목층의 대부분 수목이 고사상태이었고 관목층에서는 산화후 천이 초기에 나타나는 조록싸리가 우점하고 있었다 상대우점치와 유사도지수를 분석한 결과 산불이 발생하였던 신갈나무군집(I) 신갈나무-쇠물푸레군집(II) 은 대조구인 신갈나무군집(III)과 유사도지수분석에서 유사성이 높았는데 산불발생 이후 피해를 입은 신갈나무가 맹아에 의해 회복속도가 빠른 것으로 추정되었다 Shannon의 종다양도는 산불지역(군집 I,II)에서 각각 0.3259, 0.4727이었고 대조구 (군집III)는 0.1084로 나타났다.

  • PDF

The Classification of Forest Types by Factor Analysis in Natural Forests of Dutasan (두타산 일대 천연림에서 요인분석에 의한 산림유형 분류)

  • Chung, Sang-Hoon;Kim, Ji-Hong
    • Journal of agriculture & life science
    • /
    • v.46 no.4
    • /
    • pp.21-30
    • /
    • 2012
  • The objective of this study was to comprehend inter-species association and factors affecting species composition by factor analysis and to classify forest types of natural forests in Dootasan. We examined the correlation (positive or negative) of the major species by correlation analysis, the selection of three factors affecting the species composition by factor analysis, cluster analysis on the basis of factor scores, and the evaluation of the results of forest type classification by ANOVA. The outputs of correlation analysis were closely associated with those of factor analysis. The first factor affecting species composition was found to be the decline phenomenon of Pinus densiflora during forest succession process. The second and third factors were growth environments in valley and slope, respectively. The cluster analysis was carried out based on three factors affecting the species composition. The results indicated that the study area was classified into four forest types as follows: Quercus mogolica-Acer mono-Fraxinus rhynchophylla community, Q. mongolica community, Q. mongolica-Tilia amunrensis community and Pinus densiflora community. The dominant species of each community in the four classified forest types were significantly different (p<0.05).

K-평균 군집분석을 활용한 다중대응분석의 재해석

  • 김경희;최용석
    • Proceedings of the Korean Statistical Society Conference
    • /
    • /
    • pp.175-178
    • /
    • 2001
  • 다원분할표에서 범주들의 대응관계를 그래프적으로 보여주는 다중대응분석(multiple correspondence analysis)은 주결여성(principal inertia)이 총결여성(total inertia)에서 차지하는 비율이 전반적으로 낮아 설명력(goodness-of-fit)이 낮은 2차원의 대응분석그림을 얻게 된다. 이를 극복하기 위해 Benzecri의 공식을 사용하면 낮은 주결여성을 높이고 새로운 2차원 대응분석그림을 얻을 수 있다. 그러나 이 새로운 대응분석그림도 범주들의 대응관계를 명확히 보여주지는 못한다(Greenacre and Blasius, 1994, chapter 10). 앤드류 플롯(Andrews plot)을 이용하여 범주들의 군집화(clustering)로 다중대응분석을 재해석 하고자 하나 범주의 수가 많은 경우 해석상 어려움이 따른다. 본 소고에서 이와 같은 경우 K-평균 군집분석을 활용하여 다중대응분석의 해석을 용이하게 하고자 한다.

  • PDF

Hierarchical Clustering Analysis of Water Main Leak Location Data (상수관로 누수위치 자료를 이용한 계층적 군집분석)

  • Park, Su-Wan;Im, Gwang-Chae;Choi, Chang-Lok;Kim, Kyu-Lee
    • Journal of Korea Water Resources Association
    • /
    • v.42 no.3
    • /
    • pp.177-190
    • /
    • 2009
  • Rehabilitation projects for old water mains typically require considerable capital investments. One of the economical ways of pursuing the rehabilitation projects is to focus on a specific area within the entire region under management. In this paper the hierarchical clustering methods that analyze spatial inter-relationship of location data are applied to about 8,000 water leak location data recorded in a case study area from 1992 to 1997. Among the hierarchical clustering methods Single, Complete, and Average Linkage Methods are used to identify clusters of the water leak locations and to divide the area according to the defined clusters. By comparing the clusters identified by the clustering methods, the best clustering method for the case study area is suggested. Prioritization of the area for maintenance is obtained based on the water leak incident intensity for the clustered area using the suggested best clustering method.