• 제목/요약/키워드: K-means cluster

검색결과 615건 처리시간 0.026초

군집분석을 이용한 양파 감성사전 구축 (Construction of Onion Sentiment Dictionary using Cluster Analysis)

  • 오승원;김민수
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2917-2932
    • /
    • 2018
  • 우리나라 식생활에 밀접한 관련을 가지고 있는 채소인 양파의 수급불균형 해결을 위한 생산량 예측 모형 개발의 노력이 많은 연구를 통해 이뤄지고 있다. 하지만 양파의 수확기와 저장 가능성을 고려해 봤을 때 생산량 예측만으로는 수급불균형 해결이 어렵다. 따라서 본 논문에서는 양파의 생산량 정보와 가격의 다양한 요인이 포함되어 있으며 일상에서 쉽게 접할 수 있는 인터넷 기사를 이용하여 가격 예측을 위한 감성사전을 구축하고자 한다. 양파 기사는 2012년부터 2016년까지의 데이터를 사용하였고 도매시장 가격을 통한 문서구분을 통해 4가지 TF-IDF를 비교하여 적합한 TF-IDF를 사용하였다. 분석을 위하여 분할적 군집분석 중 k-means 군집, 밀도기반군집(DBSCAN; density based spatial cluster applications with noise), 가우시안혼합분포군집(GMM; Gaussian mixture model) 군집을 통하여 가격에 대한 긍정/부정 단어를 구분한 결과 GMM 군집이 의미 있는 긍정, 부정, 무정의 3개의 사전으로 구성되었다. 구축된 사전의 합리성을 비교하기 위하여 가격 상승 기사와 가격 하락 기사의 분류에 로지스틱 회귀분석을 적용한 결과 85.7%의 정확도로 구축된 사전의 합리성을 확인할 수 있었다.

K-평균 군집분석을 활용한 중학생의 군집화 및 특성 분석 (Analysis of Characteristics of Clusters of Middle School Students Using K-Means Cluster Analysis)

  • 이재봉
    • 한국과학교육학회지
    • /
    • 제42권6호
    • /
    • pp.611-619
    • /
    • 2022
  • 최근 교육에서 교육 데이터마이닝에 관한 관심이 높아지고 있는 시점에 과학교육에서 평가 결과를 활용하여 학생들에게 적합한 피드백을 제공하기 위해 빅데이터 분석의 적용 가능성을 탐색해 보고자 하였다. 연구에서는 국가수준 학업성취도 평가의 24문항에 응시한 2,576명의 평가 자료를 활용하여 비지도 기계학습의 한 가지 방법인 K-평균 군집분석을 이용하여 학생들을 군집화하였다. 학업성취도 평가 자료를 활용한 군집화 결과, 학생들을 6개의 군집으로 나누어 볼수 있었다. 상위권이나 하위권에 비해 중위권 학생들이 다양하게 다른 군집으로 구분됨을 알 수 있다. 군집분석의 결과를 보면, 군집화에서 가장 중요하게 영향을 주는 요인은 학업 성취였으며, 군집별로는 교육과정의 내용 영역별, 교과 역량별, 정의적 특성 면에서 서로 다른 특성을 보이고 있었다. 하위 군집에서는 정의적 영역 중에서 학습의욕이 중요하게 영향을 주고, 교과 역량 면에서는 과학적 탐구 및 문제 해결력과 과학적 의사소통 능력이 중요하게 영향을 주고 있었다. 내용 영역 면에서는 운동과 에너지와 물질 영역에 대한 성취가 군집의 특성을 구분하는 중요한 요인으로 작용하고 있었다. 따라서 평가 자료를 활용해 학생을 군집화한 후, 이러한 군집별 특성을 바탕으로 학생들에게 학습을 위한 맞춤형 피드백을 제공할 수 있을 것으로 판단된다. 본 연구에서는 이러한 연구 결과를 바탕으로 군집분석 연구 결과 활용의 가능성, 내용 영역별 균형 있는 학습, 교과 역량 증진, 과학적 태도의 향상 등 과학교육의 시사점을 제안하였다.

AMI로부터 측정된 전력사용데이터에 대한 군집 분석 (Clustering load patterns recorded from advanced metering infrastructure)

  • 안효정;임예지
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.969-977
    • /
    • 2021
  • 본 연구에서는 Hierarchical K-means 군집화 알고리즘을 이용해 서울의 A아파트 가구들의 전력 사용량 패턴을 군집화 하였다. 차원을 축소해주면서 패턴을 파악할 수 있는 Hierarchical K-means 군집화 알고리즘은 기존 K-means 군집화 알고리즘의 단점을 보완하여 최근 대용량 전력 사용량 데이터에 적용되고 있는 방법론이다. 본 연구에서는 여름 저녁 피크 시간대의 시간당 전력소비량 자료에 대해 군집화 알고리즘을 적용하였으며, 다양한 군집 개수와 level에 따라 얻어진 결과를 비교하였다. 결과를 통해 사용량에 따라 패턴이 군집화 됨을 확인하였으며, 군집화 유효성 지수들을 통해 이를 비교하였다.

개선된 데이터 마이닝 기술에 의한 웹 기반 지능형 추천시스템 구축 (Development of Web-based Intelligent Recommender Systems using Advanced Data Mining Techniques)

  • 김경재;안현철
    • Journal of Information Technology Applications and Management
    • /
    • 제12권3호
    • /
    • pp.41-56
    • /
    • 2005
  • Product recommender system is one of the most popular techniques for customer relationship management. In addition, collaborative filtering (CF) has been known to be one of the most successful recommendation techniques in product recommender systems. However, CF has some limitations such as sparsity and scalability problems. This study proposes hybrid cluster analysis and case-based reasoning (CBR) to address these problems. CBR may relieve the sparsity problem because it recommends products using customer profile and transaction data, but it may still give rise to scalability problem. Thus, this study uses cluster analysis to reduce search space prior to CBR for scalability Problem. For cluster analysis, this study employs hybrid genetic and K-Means algorithms to avoid possibility of convergence in local minima of typical cluster analyses. This study also develops a Web-based prototype system to test the superiority of the proposed model.

  • PDF

Fuzzy c-Logistic Regression Model in the Presence of Noise Cluster

  • Alanzado, Arnold C.;Miyamoto, Sadaaki
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.431-434
    • /
    • 2003
  • In this paper we introduce a modified objective function for fuzzy c-means clustering with logistic regression model in the presence of noise cluster. The logistic regression model is commonly used to describe the effect of one or several explanatory variables on a binary response variable. In real application there is very often no sharp boundary between clusters so that fuzzy clustering is often better suited for the data.

  • PDF

A GENERALIZATION OF THE INTRACLASS CORRELATION IN CLUSTER SAMPLING

  • KIM KYU-SEONG
    • Journal of the Korean Statistical Society
    • /
    • 제34권3호
    • /
    • pp.185-195
    • /
    • 2005
  • This article is concerned with the intraclass correlation in survey sampling. From a design-based viewpoint the intraclass correlation is generalized to a finite population with unequal sized clusters. Under simple random cluster sampling the intraclass correlation is given in an explicit form, which is a generalization of the usual one. The range of it is found and the design effect is expressed by means of it. An example is given to compare the intraclass correlation with the homogeneity measure numerically, which shows that two measures are not the same except some limited cases.

클러스터 측정과 유전자 알고리즘을 이용한 문서 클러스터링 (Document Clustering using Generic Algorithm and Cluster Measurement)

  • 최임천;박순철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.490-493
    • /
    • 2010
  • 본 논문에서는 클러스터 측정(Cluster Measurement)과 유전자 알고리즘을 이용한 문서 클러스링 알고리즘을 제안한다. 유전자 알고리즘의 요소를 클러스터링에 대입하고 클러스터 측정을 적합도 함수에 대입하여 문서 클러스터링을 구현하였다. 성능 평가를 위하여 한국일보-20000/한국일보-40075 문서범주화 실험문서집합의 데이터 셋을 이용하였다. 클러스터링 성능 평가 결과 AS Index가 DB Index, RS Index 보다 좋은 성능을 보여준다. 또한 제안한 알고리즘이 K-means 클러스터링 알고리즘에 비교해 안정적으로 좋은 성능을 보여준다.

고차원 대규모 데이터를 위한 효율적인 K-means 클러스터링 (Efficient K-means Clustering for High-dimensional Large Data)

  • 윤태식;심규석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.33-36
    • /
    • 2011
  • 클러스터링은 데이터 포인트들을 그룹으로 묶어 데이터를 분석하는데 유용하다. 특히 K-means는 가장 널리 쓰이는 클러스터링 알고리즘으로 k개의 군집(Cluster)을 찾는다. 본 논문에서는 기존의 K-means 알고리즘과 비교해 고차원 대규모데이터에 대해서 효율적으로 동작하는 K-means 알고리즘을 제안한다. 제안된 알고리즘은 기존의 알고리즘에서와 같이 거리 정보를 이용해 불필요한 계산을 줄여나가며 또한 움직임 없는 군집들을 계산에서 제외하여 수행시간을 단축한다. 제안된 알고리즘은 기존의 관련연구에서 제안된 알고리즘에 비해 공간을 적게 쓰면서 동시에 빠르다. 실제 고차원 데이터 실험을 통해서 제안된 알고리즘의 효율성을 보였다.

Initial Mode Decision Method for Clustering in Categorical Data

  • Yang, Soon-Cheol;Kang, Hyung-Chang;Kim, Chul-Soo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제18권2호
    • /
    • pp.481-488
    • /
    • 2007
  • The k-means algorithm is well known for its efficiency in clustering large data sets. However, working only on numeric values prohibits it from being used to cluster real world data containing categorical values. The k-modes algorithm is to extend the k-means paradigm to categorical domains. The algorithm requires a pre-setting or random selection of initial points (modes) of the clusters. This paper improved the problem of k-modes algorithm, using the Max-Min method that is a kind of methods to decide initial values in k-means algorithm. we introduce new similarity measures to deal with using the categorical data for clustering. We show that the mushroom data sets and soybean data sets tested with the proposed algorithm has shown a good performance for the two aspects(accuracy, run time).

  • PDF

A Study on K -Means Clustering

  • Bae, Wha-Soo;Roh, Se-Won
    • Communications for Statistical Applications and Methods
    • /
    • 제12권2호
    • /
    • pp.497-508
    • /
    • 2005
  • This paper aims at studying on K-means Clustering focusing on initialization which affect the clustering results in K-means cluster analysis. The four different methods(the MA method, the KA method, the Max-Min method and the Space Partition method) were compared and the clustering result shows that there were some differences among these methods, especially that the MA method sometimes leads to incorrect clustering due to the inappropriate initialization depending on the types of data and the Max-Min method is shown to be more effective than other methods especially when the data size is large.