• Title/Summary/Keyword: k-평균 클러스터링

Search Result 110, Processing Time 0.028 seconds

Hierarchical Clustering of Symbolic Objects based on Asymmetric Proximity (비대칭적 유사도 기반의 심볼릭 객체의 계층적 클러스터링)

  • Oh, Seung-Joon;Park, Chan-Woong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.22 no.6
    • /
    • pp.729-734
    • /
    • 2012
  • Clustering analysis has been widely used in numerous applications like pattern recognition, data analysis, intrusion detection, image processing, bioinformatics and so on. Much of previous work has been based on the numeric data only. However, symbolic data analysis has emerged to deal with variables that can have intervals, histograms, and even functions as values. In this paper, we propose a non symmetric proximity based clustering approach for symbolic objects. A method for clustering symbolic patterns based on the average similarity value(ASV) is explored. The results of the proposed clustering method differ from those of the existing methods and the results are very encouraging.

Disease Detection Algorithm Based on Image Processing of Crops Leaf (잎사귀 영상처리기반 질병 감지 알고리즘)

  • Park, Jeong-Hyeon;Lee, Sung-Keun;Koh, Jin-Gwang
    • The Journal of Bigdata
    • /
    • v.1 no.1
    • /
    • pp.19-22
    • /
    • 2016
  • Many Studies have been actively conducted on the early diagnosis of the crop pest utilizing IT technology. The purpose of the paper is to discuss on the image processing method capable of detecting the crop leaf pest prematurely by analyzing the image of the leaf received from the camera sensor. This paper proposes an algorithm of diagnosing leaf infection by utilizing an improved K means clustering method. Leaf infection grouping test showed that the proposed algorithm illustrated a better performance in the qualitative evaluation.

  • PDF

Heuristic Algorithm for High-Speed Clustering of Neighbor Vehicular Position Coordinate (주변 차량 위치 좌표의 고속 클러스터링을 위한 휴리스틱 알고리즘)

  • Choi, Yoon-Ho;Yoo, Seung-Ho;Seo, Seung-Woo
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.39C no.4
    • /
    • pp.343-350
    • /
    • 2014
  • Divisive hierarchical clustering algorithms iterate the process of decomposition and clustering data recursively. In each recursive call, data in each cluster are arbitrarily selected and thus, the total clustering time can be increased, which causes a problem that it is difficult to apply the process of clustering neighbor vehicular position data in vehicular localization. In this paper, we propose a new heuristic algorithm for speeding up the clustering time by eliminating randomness of the selected data in the process of generating the initial divisive clusters.

Classification of Seoul Metro Stations Based on Boarding/ Alighting Patterns Using Machine Learning Clustering (기계학습 클러스터링을 이용한 승하차 패턴에 따른 서울시 지하철역 분류)

  • Min, Meekyung
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.18 no.4
    • /
    • pp.13-18
    • /
    • 2018
  • In this study, we classify Seoul metro stations according to boarding and alighting patterns using machine earning technique. The target data is the number of boarding and alighting passengers per hour every day at 233 subway stations from 2008 to 2017 provided by the public data portal. Gaussian mixture model (GMM) and K-means clustering are used as machine learning techniques in order to classify subway stations. The distribution of the boarding time and the alighting time of the passengers can be modeled by the Gaussian mixture model. K-means clustering algorithm is used for unsupervised learning based on the data obtained by GMM modeling. As a result of the research, Seoul metro stations are classified into four groups according to boarding and alighting patterns. The results of this study can be utilized as a basic knowledge for analyzing the characteristics of Seoul subway stations and analyzing it economically, socially and culturally. The method of this research can be applied to public data and big data in areas requiring clustering.

Analysis of spatial mixing characteristics of water quality at the confluence using artificial intelligence (인공지능을 활용한 합류부에서 수질의 공간혼합 특성 분석)

  • Lee, Seo Gyeong;Kim, Dongsu;Kim, Kyungdong;Kim, Young Do;Lyu, Siwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.482-482
    • /
    • 2022
  • 하천의 합류부에서는 수질이 다른 유체가 혼합하여 합류 전과 다른 특성을 보인다. 하천의 합류부에서 수질을 효율적으로 관리하기 위해서는 수질의 공간적인 혼합 특성을 규명하는 것이 중요하다. 합류부에서 수질의 공간적인 혼합 특성을 분석하기 위해 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기 조직화 지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하였다. 세 가지 기법을 비교하여 어떤 알고리즘이 합류부의 수질 변화 특성을 더 뚜렷하게 나타내는지 분석하였다. 수질 변화 비교 인자들은 pH, chlorophyll, DO, Turbidity 등이 있고, 수질 인자들은 YSI를 활용해 측정하였다. 자료의 측정 지역은 낙동강과 황강이 합류하는 지역이며, 보트에 YSI 장비를 부착하고 횡단하여 측정하였다. 측정한 데이터를 R 프로그램을 통해 세 가지 기법을 적용시켜 수질 변화 비교를 분석한다. 토폴로지 데이터 분석(topological data analysis, TDA)은 거대하고 복잡한 데이터로부터 유의미한 정보를 추출하는 데 사용하고, 자기조직화지도(Self-Organizing Map, SOM) 기법은 차원 축소와 군집화를 동시에 수행한다. k-평균 알고리즘(K-means clustering algorithm) 기법은 주어진 데이터를 k개의 클러스터로 묶는 머신러닝 비지도학습에 속하는 알고리즘이다. 세 가지 방법들의 주목적은 클러스터링이다. 클러스터 분석(Cluster analysis)이란 주어진 데이터들의 특성을 고려해 동일한 성격을 가진 여러 개의 그룹으로 대상을 분류하는 데이터 마이닝의 한 방법이다. 군집화 방법들인 TDA, SOM, K-means를 이용해 합류 지역의 수질 특성들을 클러스터링하여 수질 패턴들을 분석해 하천 수질 오염을 방지할 수 있을 것이다. 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기조직화지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하여 합류부에서의 수질 특성을 비교하며 어떤 기법이 합류의 특성을 더욱 뚜렷하게 나타내는지 규명했다. 합류의 특성을 군집화 방법을 이용해 알게 된다면, 합류부의 수질 변화 패턴을 다른 합류 지역에서도 적용할 수 있을 것으로 기대된다.

  • PDF

Classifying Color Codes Via k-Mean Clustering and L*a*b* Color Model (k-평균 클러스터링과 L*a*b* 칼라 모델에 의한 칼라코드 분류)

  • Yoo, Hyeon-Joong
    • The Journal of the Korea Contents Association
    • /
    • v.7 no.2
    • /
    • pp.109-116
    • /
    • 2007
  • To reduce the effect of color distortions on reading colors, it is more desirable to statistically process as many pixels in the individual color region as possible. This process may require segmentation, which usually requires edge detection. However, edges in color codes can be disconnected due to various distortions such as dark current, color cross, zipper effect, shade and reflection, to name a few. Edge linking is also a difficult process. In this paper, k-means clustering was performed on the images where edge detectors failed segmentation. Experiments were conducted on 311 images taken in different environments with different cameras. The primary and secondary colors were randomly selected for each color code region. While segmentation rate by edge detectors was 89.4%, the proposed method increased it to 99.4%. Color recognition was performed based on hue, a*, and b* components, with the accuracy of 100% for the successfully segmented cases.

Abrupt Shot Change Detection using an Unsupervised Clustering of Multiple Features (클러스터링을 이용한 급격한 장면 전환 검출 기법)

  • Lee, Hun-Cheol;Go, Yun-Ho;Yun, Byeong-Ju;Kim, Seong-Dae;Yu, Sang-Jo
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.38 no.6
    • /
    • pp.712-720
    • /
    • 2001
  • In this paper, we propose an efficient method to detect abrupt shot changes in a video sequence using an unsupervised clustering. Conventional clustering-based shot change detection algorithms use multiple features in order to overcome the shortcomings of a single feature. In such methods it is very important to determine the appropriate initial cluster centers well. In this paper we propose a modified k-means clustering algorithm which estimates the initial cluster center adaptively. Experimental results show that the proposed algorithm works well.

  • PDF

평균 연결법과 K-means 혼합 클러스터링 기법을 이용한 공시지가 유사가격권역의 설정

  • 이성규;홍성언;박수홍
    • Proceedings of the Korean Association of Geographic Inforamtion Studies Conference
    • /
    • 2004.10a
    • /
    • pp.111-118
    • /
    • 2004
  • 비교표준지를 이용하여 개별공시지가를 산정하는 우리나라 제도 하에서 가장 중요한 문제는 개별필지 주변의 표준지 중에서 어떤 표준지를 선택·이용하여 지가를 산정해야 하는가이다. 그러나 지침상에서는 비교표준지 선정시 매우 중요한 요인으로 작용하고 있는 유사가격권에 대하여 수치적인 기준이 아닌 모호한 개념상으로 규정하고 있어 비교표준지 선정에 있어 객관성과 정확성이 결여되고 있다. 본 연구에서는 현행 개념상으로만 규정하고 있는 유사가격권에 대하여 평균 연결법과 K-means 혼합 클러스터링 기법을 이용하여 유사가격권역을 정확하고 객관적으로 설정한다. 그리고 실제 사례지역을 선정하여 적용하여 봄으로써 방법론의 활용가능성과 타당성을 제시하고자 한다.

  • PDF

A Study on Web-User Clustering Algorithm for Web Personalization (웹 개인화를 위한 웹사용자 클러스터링 알고리즘에 관한 연구)

  • Lee, Hae-Kag
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.12 no.5
    • /
    • pp.2375-2382
    • /
    • 2011
  • The user clustering for web navigation pattern discovery is very useful to get preference and behavior pattern of users for web pages. In addition, the information by the user clustering is very essential for web personalization or customer grouping. In this paper, an algorithm for clustering the web navigation path of users is proposed and then some special navigation patterns can be recognized by the algorithm. The proposed algorithm has two clustering phases. In the first phase, all paths are classified into k-groups on the bases of the their similarities. The initial solution obtained in the first phase is not global optimum but it gives a good and feasible initial solution for the second phase. In the second phase, the first phase solution is improved by revising the k-means algorithm. In the revised K-means algorithm, grouping the paths is performed by the hyperplane instead of the distance between a path and a group center. Experimental results show that the proposed method is more efficient.

Clustering Method based on Structure Code and HMM for Huge Class On-line Handwritten Chinese Character Recognition (대용량 온라인 필기 한자 인식을 위한 구조 코드 및 HMM 기반의 클러스터링 방법)

  • Kim, Kwang-Seob;Ha, Jin-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.472-477
    • /
    • 2008
  • 본 논문에서는 은닉 마르코프 모델(HMM)을 기반한 대용량의 필기 한자 인식의 문제점인 시스템 리소스의 한계와 인식에 소요되는 많은 시간을 단축하기 위해 구조코드와 HMM에 최적화 된 클러스터링 알고리즘을 제안한다. 제안하는 클러스터링 알고리즘의 기본 개념은 훈련된 HMM를 대상으로 하고, HMM의 파라미터 수가 동일한 클래스에 대해서 클러스터를 구성하는 것이다. 또한 인식에 소요되는 시간을 줄이기 위해 2단계 클러스터모델 구조를 사용한다. 총 98,639 종류의 일본 한자를 대상으로 한 실험에서 평균 0.92 sec/char 인식 속도와 30순위 후보인식률 96.03%를 보임으로서 대용량 필기 한자 인식을 위한 좋은 방안이 될 것이라 기대한다.

  • PDF