• 제목/요약/키워드: K means clustering

검색결과 1,107건 처리시간 0.031초

차분 진화 알고리즘을 이용한 Fuzzy Prototype Classifier 최적화 (The Optimization of Fuzzy Prototype Classifier by using Differential Evolutionary Algorithm)

  • 안태천;노석범;김용수
    • 한국지능시스템학회논문지
    • /
    • 제24권2호
    • /
    • pp.161-165
    • /
    • 2014
  • 본 논문에서는 입력 공간의 부분 영역의 특성을 기술하기 위하여 각 부분 영역을 대표하는 prototype을 정의하고 정의된 Prototype 에 가중치를 적용하여 각 부분 영역이 각 클래스의 경계면에 미치는 영향을 차등화 하는 Fuzzy Prototype 분류기를 제안 한다. 제안된 패턴 분류기의 Prototype은 퍼지 클러스터링 알고리즘인 Fuzzy C-Means Clustering 알고리즘을 사용하여 결정한다. 또한, 각 부분 영역의 가중치를 결정하기 위하여 유전자 알고리즘에서 파생된 차분 진화 알고리즘을 적용하여 각각의 퍼지 규칙의 가중치를 최적화 한다. 또한 퍼지 규칙 기반 시스템 기반 패턴 분류기의 경우 각각의 퍼지 규칙의 후반부 구조인 다항식의 계수를 추정하기 위하여 Linear Discriminant Analysis를 사용한다. 마지막으로, 본 논문에서 제안한 패턴 분류기의 패턴 분류 특성 및 성능을 평가하기위하여 기계 학습 데이터를 사용한다.

Application of Clustering Methods for Interpretation of Petroleum Spectra from Negative-Mode ESI FT-ICR MS

  • Yeo, In-Joon;Lee, Jae-Won;Kim, Sung-Hwan
    • Bulletin of the Korean Chemical Society
    • /
    • 제31권11호
    • /
    • pp.3151-3155
    • /
    • 2010
  • This study was performed to develop analytical methods to better understand the properties and reactivity of petroleum, which is a highly complex organic mixture, using high-resolution mass spectrometry and statistical analysis. Ten crude oil samples were analyzed using negative-mode electrospray ionization Fourier transform ion cyclotron resonance mass spectrometry (ESI FT-ICR MS). Clustering methods, including principle component analysis (PCA), hierarchical clustering analysis (HCA), and k-means clustering, were used to comparatively interpret the spectra. All the methods were consistent and showed that oxygen and sulfur-containing heteroatom species played important roles in clustering samples or peaks. The oxygen-containing samples had higher acidity than the other samples, and the clustering results were linked to properties of the crude oils. This study demonstrated that clustering methods provide a simple and effective way to interpret complex petroleomic data.

A Clustering-Based Fault Detection Method for Steam Boiler Tube in Thermal Power Plant

  • Yu, Jungwon;Jang, Jaeyel;Yoo, Jaeyeong;Park, June Ho;Kim, Sungshin
    • Journal of Electrical Engineering and Technology
    • /
    • 제11권4호
    • /
    • pp.848-859
    • /
    • 2016
  • System failures in thermal power plants (TPPs) can lead to serious losses because the equipment is operated under very high pressure and temperature. Therefore, it is indispensable for alarm systems to inform field workers in advance of any abnormal operating conditions in the equipment. In this paper, we propose a clustering-based fault detection method for steam boiler tubes in TPPs. For data clustering, k-means algorithm is employed and the number of clusters are systematically determined by slope statistic. In the clustering-based method, it is assumed that normal data samples are close to the centers of clusters and those of abnormal are far from the centers. After partitioning training samples collected from normal target systems, fault scores (FSs) are assigned to unseen samples according to the distances between the samples and their closest cluster centroids. Alarm signals are generated if the FSs exceed predefined threshold values. The validity of exponentially weighted moving average to reduce false alarms is also investigated. To verify the performance, the proposed method is applied to failure cases due to boiler tube leakage. The experiment results show that the proposed method can detect the abnormal conditions of the target system successfully.

k-means clustering DB를 통한 Multi-cell headrest의 상해지수 간 상관관계 분석 (Correlation Analysis between Injury Index of Multi-cell Headrest through k-means Clustering DB)

  • 조성욱;전성식
    • Composites Research
    • /
    • 제37권1호
    • /
    • pp.46-52
    • /
    • 2024
  • 운송 수단의 발전은 인간의 교통 편의 증진과 더불어 이동이 불편한 장애인들의 이동 반경 확대를 가능하게 하였다. 그러나 휠체어 탑재 차량의 경우 차량 사고 시 발생할 수 있는 안전성은 일반 승객 좌석에 비해 여전히 낮다. 특히 무방비 상태에서 발생할 수 있는 후방 추돌 사고의 경우 장애인 탑승객의 목 부상에 치명적으로 작용할 수 있다. 따라서 휠체어 탑재 차량에 적용될 headrest에는 보다 세밀한 설계안이 반영되어야 한다. 본 연구에서는 휠체어 운송 차량의 저속 후방 추돌 시 headrest의 국부적 압축 특성 분포 구현을 위해 multi-cell headrest가 제안되었다. 이후 해석을 통한 데이터셋 구축과 k-means clustering을 적용한 군집화 결과를 이용해 탑승객의 목 상해지수와 충격 에너지 흡수량 간 상관관계 분석이 수행되었다. 군집화 결과 유사한 특성을 지닌 데이터 군집이 형성된 것을 확인하였으며, 각 군집의 특성을 통한 목 상해지수와 충격 에너지 흡수량 간의 상관관계 분석이 수행되었다. 분석 결과 Mid3와 Mid6에서의 cell 압축 특성이 soft할수록 충격 에너지 흡수량이 증가하는 것을 확인하였으며, Front2, Mid3, Mid6에서의 cell 압축 특성이 hard할수록 목 상해지수 감소에 효과적임을 확인하였다.

Hybrid Kohonen 네트워크에 의한 항공영상 클러스터링 (Areal Image Clustering using Hybrid Kohonen Network)

  • 이경희
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2015년도 제52차 하계학술대회논문집 23권2호
    • /
    • pp.250-251
    • /
    • 2015
  • 본 논문에서는 자기 조직화 기능을 갖는 Kohonen의 SOM(Self organization map) 신경회로망과 주어지는 데이터에 따라 초기의 클러스터 개수를 설정하여 처리하는 수정된 K-Means 알고리즘을 결합한 Hybrid Kohonen Network 를 제안한다. 또한, 실제의 항공영상에 적용하여 고전적인 K-Means 알고리즘 및 고전적인 SOM 알고리즘보다 우수함을 보인다.

  • PDF

Multi-Feature Clustering을 이용한 강인한 내용 기반 음악 장르 분류 시스템에 관한 연구 (A Study on the Robust Content-Based Musical Genre Classification System Using Multi-Feature Clustering)

  • 윤원중;이강규;박규식
    • 대한전자공학회논문지SP
    • /
    • 제42권3호
    • /
    • pp.115-120
    • /
    • 2005
  • 본 논문에서는 multi-feature clustering(MFC) 방법을 이용한 강인한 내용 기반 음악 장르 분류 알고리즘을 제안한다. 기존 연구와 비교하여 본 논문에서는 입력 질의 패턴(또는 구간)과 입력 질의 길이의 변화에 따라 나타나는 불안정한 시스템 성능을 개선하는데 노력하였고, k-means clustering 기법에 기반한 multi-feature clustering(MFC)이라는 새로운 알고리즘을 제안하였다. 제안된 시스템의 성능을 검증하기 위해 질의 음악 파일의 서로 다른 여러 구간에서 질의 길이를 다변화하여 음악 특징 계수를 추출하였고, MFC 방법을 사용한 시스템과 MFC 방법을 사용하지 않은 시스템에 대한 장르 분류 성공률을 비교하여 제안 알고리즘의 성능을 비교${\cdot}$분석하였다. 모의실험 결과 MFC 방법을 사용한 시스템의 장르 분류 성공률이 높게 나타났고, 시스템의 안정성 역시 높게 나타났다.

K-Means Clustering 알고리즘과 헤도닉 모형을 활용한 서울시 연립·다세대 군집분류 방법에 관한 연구 (A Study on the Clustering Method of Row and Multiplex Housing in Seoul Using K-Means Clustering Algorithm and Hedonic Model)

  • 권순재;김성현;탁온식;정현희
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.95-118
    • /
    • 2017
  • 최근 도심을 중심으로 연립 다세대의 거래가 활성화되고 직방, 다방등과 같은 플랫폼 서비스가 성장하고 있다. 연립 다세대는 수요 변화에 따른 시장 규모 확대와 함께 정보 비대칭으로 인해 사회적 문제가 발생 되는 등 부동산 정보의 사각지대이다. 또한, 서울특별시 또는 한국감정원에서 사용하는 5개 또는 25개의 권역 구분은 행정구역 내부를 중심으로 설정되었으며, 기존의 부동산 연구에서 사용되어 왔다. 이는 도시계획에 의한 권역구분이기 때문에 부동산 연구를 위한 권역 구분이 아니다. 이에 본 연구에서는 기존 연구를 토대로 향후 주택가 격추정에 있어 서울특별시의 공간구조를 재설정할 필요가 있다고 보았다. 이에 본 연구에서는 연립 다세대 실거래가 데이터를 기초로 하여 헤도닉 모형에 적용하였으며, 이를 K-Means Clustering 알고리즘을 사용해 서울특별시의 공간구조를 다시 군집하였다. 본 연구에서는 2014년 1월부터 2016년 12월까지 3년간 국토교통부의 서울시 연립 다세대 실거래가 데이터와 2016년 공시지가를 활용하였다. 실거래가 데이터에서 본 연구에서는 지하거래 제거, 면적당 가격 표준화 및 5이상 -5이하의 실거래 사례 제거와 같이 데이터 제거를 통한 데이터 전처리 작업을 수행하였다. 데이터전처리 후 고정된 초기값 설정으로 결정된 중심점이 매번 같은 결과로 나오게 K-means Clustering을 수행한 후 군집 별로 헤도닉 모형을 활용한 회귀분석을 하였으며, 코사인 유사도를 계산하여 유사성 분석을 진행하였다. 이에 본 연구의 결과는 모형 적합도가 평균 75% 이상으로, 헤도닉 모형에 사용된 변수는 유의미하였다. 즉, 기존 서울을 행정구역 25개 또는 5개의 권역으로 나뉘어 실거래가지수 등 부동산 가격 관련 통계지표를 작성하던 방식을 속성의 영향력이 유사한 영역을 묶어 16개의 구역으로 나누었다. 따라서 본 연구에서는 K-Means Clustering 알고리즘에 실거래가 데이터로 헤도닉 모형을 활용하여 연립 다세대 실거래가를 기반으로 한 군집분류방법을 도출하였다. 또한, 학문적 실무적 시사점을 제시하였고, 본 연구의 한계점과 향후 연구 방향에 대해 제시하였다.

계층적 클러스터링에서 분류 계층 깊이에 관한 연구 (A Study on Cluster Hierarchy Depth in Hierarchical Clustering)

  • 김해남;이신원;안동언;정성종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.673-676
    • /
    • 2004
  • Fast and high-quality document clustering algorithms play an important role in providing data exploration by organizing large amounts of information into a small number of meaningful clusters. In particular, hierarchical clustering provide a view of the data at different levels, making the large document collections are adapted to people's instinctive and interested requires. Many papers have shown that the hierarchical clustering method takes good-performance, but is limited because of its quadratic time complexity. In contrast, K-means has a time complexity that is linear in the number of documents, but is thought to produce inferior clusters. Think of the factor of simpleness, high-quality and high-efficiency, we combine the two approaches providing a new system named CONDOR system [10] with hierarchical structure based on document clustering using K-means algorithm to "get the best of both worlds". The performance of CONDOR system is compared with the VIVISIMO hierarchical clustering system [9], and performance is analyzed on feature words selection of specific topics and the optimum hierarchy depth.

  • PDF

A Study on a Statistical Matching Method Using Clustering for Data Enrichment

  • Kim Soon Y.;Lee Ki H.;Chung Sung S.
    • Communications for Statistical Applications and Methods
    • /
    • 제12권2호
    • /
    • pp.509-520
    • /
    • 2005
  • Data fusion is defined as the process of combining data and information from different sources for the effectiveness of the usage of useful information contents. In this paper, we propose a data fusion algorithm using k-means clustering method for data enrichment to improve data quality in knowledge discovery in database(KDD) process. An empirical study was conducted to compare the proposed data fusion technique with the existing techniques and shows that the newly proposed clustering data fusion technique has low MSE in continuous fusion variables.

속성유사도에 따른 사회연결망 서브그룹의 군집유효성 (Clustering Validity of Social Network Subgroup Using Attribute Similarity)

  • 윤한성
    • 디지털산업정보학회논문지
    • /
    • 제17권1호
    • /
    • pp.75-84
    • /
    • 2021
  • For analyzing big data, the social network is increasingly being utilized through relational data, which means the connection characteristics between entities such as people and objects. When the relational data does not exist directly, a social network can be configured by calculating relational data such as attribute similarity from attribute data of entities and using it as links. In this paper, the composition method of the social network using the attribute similarity between entities as a connection relationship, and the clustering method using subgroups for the configured social network are suggested, and the clustering effectiveness of the clustering results is evaluated. The analysis results can vary depending on the type and characteristics of the data to be analyzed, the type of attribute similarity selected, and the criterion value. In addition, the clustering effectiveness may not be consistent depending on the its evaluation method. Therefore, selections and experiments are necessary for better analysis results. Since the analysis results may be different depending on the type and characteristics of the analysis target, options for clustering, etc., there is a limitation. In addition, for performance evaluation of clustering, a study is needed to compare the method of this paper with the conventional method such as k-means.