• 제목/요약/키워드: k means cluster analysis

검색결과 370건 처리시간 0.026초

한국 된장의 품질에 영향을 미치는 요인 (Factors affecting to the Quality of Korean Soybean Paste, Doenjang)

  • 심혜정;윤정현;고경희
    • Journal of Applied Biological Chemistry
    • /
    • 제61권4호
    • /
    • pp.357-365
    • /
    • 2018
  • 된장의 최적 섭취 기간을 판단하기 위해 원료 대두로부터 3년 동안 발효 숙성 하면서 6개월 단위로 시료를 채취하여 분석하였다. 이화학적 분석, 항산화력과 관능 검사를 주성분분석과 k-평균 군집 분석하여 종합적인 품질 특성을 평가하였다. 된장의 품질 특성은 PCA에 의해 1년 간격으로 큰 변화가 확인되었고, 군집 분석에 의해 숙성 기간에 따라 각각 cluster 1, 2, 3의 군집으로 분류되었다. 건강기능성과 관련된 항산화력으로 총 페놀함량, SOD 유사활성, DPPH 라디칼 소거 능력은 cluster 3에서 높았다. Cluster 3에서는 맛과 관련된 관능 평가 항목과 유리아미노산, 유기산 등도 높게 나타났다. 기호도 평가도 cluster 3에서 높게 나타났고 기호도에 가장 큰 영향을 준 관능 항목 요인은 감칠맛과 갈색이었다. 따라서 된장은 숙성 12개월 이후부터 섭취 가능하지만 된장의 맛과 건강 기능적 측면을 동시에 고려한다면 숙성 30개월 이후가 된장의 최적 섭취 시기라고 할 수 있다.

군집분석을 이용한 양파 감성사전 구축 (Construction of Onion Sentiment Dictionary using Cluster Analysis)

  • 오승원;김민수
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2917-2932
    • /
    • 2018
  • 우리나라 식생활에 밀접한 관련을 가지고 있는 채소인 양파의 수급불균형 해결을 위한 생산량 예측 모형 개발의 노력이 많은 연구를 통해 이뤄지고 있다. 하지만 양파의 수확기와 저장 가능성을 고려해 봤을 때 생산량 예측만으로는 수급불균형 해결이 어렵다. 따라서 본 논문에서는 양파의 생산량 정보와 가격의 다양한 요인이 포함되어 있으며 일상에서 쉽게 접할 수 있는 인터넷 기사를 이용하여 가격 예측을 위한 감성사전을 구축하고자 한다. 양파 기사는 2012년부터 2016년까지의 데이터를 사용하였고 도매시장 가격을 통한 문서구분을 통해 4가지 TF-IDF를 비교하여 적합한 TF-IDF를 사용하였다. 분석을 위하여 분할적 군집분석 중 k-means 군집, 밀도기반군집(DBSCAN; density based spatial cluster applications with noise), 가우시안혼합분포군집(GMM; Gaussian mixture model) 군집을 통하여 가격에 대한 긍정/부정 단어를 구분한 결과 GMM 군집이 의미 있는 긍정, 부정, 무정의 3개의 사전으로 구성되었다. 구축된 사전의 합리성을 비교하기 위하여 가격 상승 기사와 가격 하락 기사의 분류에 로지스틱 회귀분석을 적용한 결과 85.7%의 정확도로 구축된 사전의 합리성을 확인할 수 있었다.

Evaluation of Shopping Items: Focused on Purchase of Foreign Tourists in South Korea

  • Jeong, Dong-Bin
    • 동아시아경상학회지
    • /
    • 제7권2호
    • /
    • pp.21-30
    • /
    • 2019
  • Purpose - In this work, we categorize the 21 shopping items which foreign tourists purchase in South Korea and monitor the level of dissimilarity (or similarity) between each item by utilizing distance matrix, and both hierarchical and k-means cluster analyses, respectively, based on several purpose of visit attributes in 2017. In addition, multidimensional scaling (MDS) method is applied for mining visual appearance of proximities among shopping items based on purpose of visit attributes. Research design and methodology - This study is carried out in 2017 by Ministry of Culture, Sports and Tourism and conduct a face-to-face survey of foreign tourists from 20 countries who purchase shopping items in South Korea. CLUSTER, PROXIMITIES and ALSCAL modules in IBM SPSS 23.0 are used to perform this work. Results - We ascertain that 21 shopping items can be classified into five similar groups which have homogeneous traits by going through two-step cluster analysis. We can position homogeneous places of cluster and shopping items joining each cluster. Conclusions - We can relatively assess patterns and characteristics of each shopping item, come by useful information in activating shopping tour based on the actual state of recognition of foreign tourists and practically apply to each tourism industry on underlying results.

Cluster analysis of city-level carbon mitigation in South Korea

  • Zhuo Li
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권7호
    • /
    • pp.189-198
    • /
    • 2023
  • 최근 지구온난화로 인한 폭염, 태풍, 폭설 등 기후변화를 급증하고 있다. 미국 뉴욕에서 개최된 제 25차 '기후변화 당사국총회(COP25)'에 따른 세계 각국은 '탄소중립' 달성하기 위한 협상을 진행했다. 도시는 경제발전뿐만 아니라 탄소중립 과정에서도 중요한 역할을 수행한다. 본 연구는 이산화탄소와 관계되는 경제요인 및 환경요인을 고려하여 엘보우 규칙 (Elbow method) 과 K-means 군집 알고리즘을 활용하여 한국 63개 도시의 탄소배출 현황을 분석하였다. 연구결과에 따른 한국 도시는 기술집약 도시, 경공업 도시, 미래 혁신도시, 중공업 도시, 서비스 집약도시 및 농촌, 가정생산집약도시로 구분될 수 있고 향후 시도별 탄소중립 목표를 실천하기 위해 구체적인 제안을 제시하였다.

평면사진 계측에 의한 여중생의 체형분석 (An Analysis of Human Body Shape of Junior High School Girls by Using Plan Potogrammetry)

  • 김경숙;이춘계
    • 한국의류학회지
    • /
    • 제14권3호
    • /
    • pp.208-215
    • /
    • 1990
  • The purpose of this study is to provide the fundamental data of a dummy design for more suitable ready made clothing by making a pattern of somatic types and analyzing their morphological characteristics in accordance with different pattern of somatic types. The side view silhouettes of 90 junior high school girls of age $13\~16$ in seoul urban area were measured by means of the plan photographing and the low data were examined by principal component analysis, while the principal component analysis was applied and three components were extracted and then interpreted to explain to variation of the form of the body. Using three components respectively the cluster analysis was carried out and the subject classified into 4 cluster The following outcomes are obtained. . The results of principal component analysis of this study would be turned out the three; 1) The first principal component shows the degree of erectness or stoop of the figure. 2) The second principal component was a stature length or a growth rate. 3) The third principal component was the obesity component. 2. The results of cluster analysis by using three principal component analysis would be turned out the four cluser; 1) Cluster 1 ($29\%$ of the total) is characterized with lower stature. 2) Cluster 2 ($21\%$ of the total) is characterized with backward somatotype, and the highest leg. 3) Cluster 3 ($23\%$ of the total) is thicked back of neck. 4) Cluster 4 ($27\%$ of the total) is characterized with forward somatotype, and highest stature, height.

  • PDF

정준상관 행렬도와 군집분석을 응용한 KLPGA 선수의 기술과 경기성적요인에 대한 연관성 분석 (A Study on the Relationship between Skill and Competition Score Factors of KLPGA Players Using Canonical Correlation Biplot and Cluster Analysis)

  • 최태훈;최용석
    • 응용통계연구
    • /
    • 제21권3호
    • /
    • pp.429-439
    • /
    • 2008
  • 정준상관 행렬도(canonical correlation biplot)는 정준상관분석에서 두 변수 집단에 의해서 측정된 다변량 자료에서 변수 집단 간의 관계와 개체들의 관계를 탐색하기 위한 2차원 그림이다. 이는 일반적으로 최용석 (2006, 1장)의 한 변수 집단에 의한 행렬자료에 대한 일반적인 행렬도를 두 변수 집단에 의한 행렬자료로 확장한 것으로 볼 수 있다. 최근에 Choi와 Kim (2008)은 개체들이 많은 대용량 자료에서 행렬도의 해석상 힘든 문제점을 지적하고 이를 극복하는 데 군집분석을 활용하는 방법을 제시하고 있다. 일반적인 행렬도에서 발생하는 대용량 자료에 대한문제는 정준상관 행렬도에서도 동일하게 발생하곤 한다. 본 연구에서는 2006년도 KLPGA 선수 중 상금 순위 상위 50명을 대상으로 정준상관 행렬도를 통해 기술요인변수군(평균 퍼팅수. 그린 적중율, 파 세이브율, 파 브레이크율)과 경기성적요인변수군(상금, 평균 타수)간의 관련성을 살펴보고 군집분석을 활용하여 각 선수들의 군집을 시도하려한다.

행렬도에서 군집분석의 활용 (Applications of Cluster Analysis in Biplots)

  • 최용석;김형영
    • Communications for Statistical Applications and Methods
    • /
    • 제15권1호
    • /
    • pp.65-76
    • /
    • 2008
  • 행렬도 (biplot)는 이원표 자료행렬 (two-way data matrix)의 행과 열을 그래프에 동시에 나타내어 이들의 관계를 살피려는 다변량 그래프적 분석기법이다 (Gower와 Hand, 1996; 최용석, 2006, 1장). 그래프적 분석기법은 그 특성상 대용량 자료를 해석하는 데는 어려움이 따른다. 따라서, 자료를 효과적으로 줄일 수 있는 군집분석을 활용하여 원자료와 변수간의 행렬도가 아닌 각 군집과 변수간의 행렬도 분석을 수행함으로써, 기존의 행렬도에서 해석의 어려웠던 대용량 자료에 대한 해석이 가능하게 되며, 자료에 대한 정보를 쉽게 파악할 수 있는 장점을 가진다.

인터넷쇼핑몰 이용 소비자의 쇼핑스타일 유형에 관한 연구 (The Study on Typology of Internet Shopping Style in Internet Shopping Mall Users)

  • 문숙재;이윤희;천혜정
    • 대한가정학회지
    • /
    • 제43권9호
    • /
    • pp.1-13
    • /
    • 2005
  • The purposes of this study were to classify internet shopping mall user by their shopping styles and to define the characteristics of the classified individual clusters. Questionnaires were completed by 338 men and women who have used internet shopping malls at lead once during the previous 6 months. The internet shopping styles were classified into 4 clusters after factor analysis and k-means cluster analysis. Cluster I, named 'high brand proneness', can be described as having low score on devotee tendency. Cluster II, named 'high value proneness', is characterized by a high score on seeking substance. Cluster III, called 'steadiness orientation', can be described as having a tow score on seeking trend and substance. Cluster IV, named 'individuality inclination', can be described as having low score on seeking trend. These four clusters differ in terms of socio-demographic and environmental characteristics such as gender, age, educational level, occupation, and internet using time. Theoretical and practical implications are discussed.

실루엣을 적용한 그룹탐색 최적화 데이터클러스터링 (Group Search Optimization Data Clustering Using Silhouette)

  • 김성수;백준영;강범수
    • 한국경영과학회지
    • /
    • 제42권3호
    • /
    • pp.25-34
    • /
    • 2017
  • K-means is a popular and efficient data clustering method that only uses intra-cluster distance to establish a valid index with a previously fixed number of clusters. K-means is useless without a suitable number of clusters for unsupervised data. This paper aimsto propose the Group Search Optimization (GSO) using Silhouette to find the optimal data clustering solution with a number of clusters for unsupervised data. Silhouette can be used as valid index to decide the number of clusters and optimal solution by simultaneously considering intra- and inter-cluster distances. The performance of GSO using Silhouette is validated through several experiment and analysis of data sets.

K-means Clustering for Environmental Indicator Survey Data

  • Park, Hee-Chang;Cho, Kwang-Hyun
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2005년도 춘계학술대회
    • /
    • pp.185-192
    • /
    • 2005
  • There are many data mining techniques such as association rule, decision tree, neural network analysis, clustering, genetic algorithm, bayesian network, memory-based reasoning, etc. We analyze 2003 Gyeongnam social indicator survey data using k-means clustering technique for environmental information. Clustering is the process of grouping the data into clusters so that objects within a cluster have high similarity in comparison to one another. In this paper, we used k-means clustering of several clustering techniques. The k-means clustering is classified as a partitional clustering method. We can apply k-means clustering outputs to environmental preservation and environmental improvement.

  • PDF