DOI QR코드

DOI QR Code

A dimensional reduction method in cluster analysis for multidimensional data: principal component analysis and factor analysis comparison

다차원 데이터의 군집분석을 위한 차원축소 방법: 주성분분석 및 요인분석 비교

  • 홍준호 (충북대학교 대학원 빅데이터학과) ;
  • 오민지 (충북대학교 대학원 빅데이터학과) ;
  • 조용빈 (농촌진흥청) ;
  • 이경희 ((주)힐링소프트) ;
  • 조완섭 (충북대학교 경영정보학과)
  • Received : 2020.11.30
  • Accepted : 2020.12.21
  • Published : 2020.12.31

Abstract

This paper proposes a pre-processing method and a dimensional reduction method in the analysis of shopping carts where there are many correlations between variables when dividing the types of consumers in the agri-food consumer panel data. Cluster analysis is a widely used method for dividing observational objects into several clusters in multivariate data. However, cluster analysis through dimensional reduction may be more effective when several variables are related. In this paper, the food consumption data surveyed of 1,987 households was clustered using the K-means method, and 17 variables were re-selected to divide it into the clusters. Principal component analysis and factor analysis were compared as the solution for multicollinearity problems and as the way to reduce dimensions for clustering. In this study, both principal component analysis and factor analysis reduced the dataset into two dimensions. Although the principal component analysis divided the dataset into three clusters, it did not seem that the difference among the characteristics of the cluster appeared well. However, the characteristics of the clusters in the consumption pattern were well distinguished under the factor analysis method.

본 논문은 농식품 소비자패널 데이터에서 소비자의 유형을 나눌 때에 변수간 연관성이 많은 장바구니 분석에서 전처리 방법과 차원축소의 방법을 제안한다. 군집분석은 다변량 자료에서 관측 개체를 몇 개의 군집으로 나눌 때 널리 사용되는 분석기법이다. 하지만 여러 개의 변수가 연관성을 가진 경우에는 차원축소를 통한 군집분석이 더 효과적일 수 있다. 본 논문은 1,987 가구를 대상으로 조사한 식품소비 데이터를 K-means 방법을 사용하여 군집화하였으며, 군집을 나누기 위해 17개의 변수를 선정하였고, 17개의 다중공선성 문제와 군집을 나누기 위한 차원축소의 방법 중 주성분 분석과 요인분석을 비교하였다. 본 연구에서는 주성분분석과 요인분석 모두 2개의 차원으로 축소하였으며 주성분분석에서는 3개의 군집으로 나뉘었지만 분석하고자 하였던 소비 패턴에 대한 군집의 특성이 잘 나타나지 않았으며 요인분석에서는 분석가가 보고자 하는 소비 패턴의 특징이 잘 나타났다.

Keywords

Acknowledgement

본 연구는 농촌진흥청 연구사업(농식품 소비, 유전체 특성 및 질병의 연관성 분석 (과제번호: PJ01538032020)) 지원에 의해 이루어졌습니다.

References

  1. 보건복지부(2012), "0세 이상 성인 대사증후군 유병율 28.8%로 나타나!" 보건복지부 보도자료 (2012년 3월 22일)
  2. 한의신문(2018), "해마다 비만해지는 한국인...2030년 남성 비만율 62%, 여성 37%로 증가", http://www.akomnews.com/bbs/board.php?bo_table=news&wr_id=15302
  3. 장민석, 김형중. (2018). 빅데이터를 활용한 은행권 고객 세분화 기법 연구. 한국디지털콘텐츠학회 논문지, 19(1), 85-91.
  4. 서현지(2017). 빅 데이터를 이용한 고객 행태분석에 대한 연구. 국내석사학위논문 가천대학교, 경기도.
  5. 김청택 (2016). 탐색적 요인분석의 오.남용 문제와 교정. 조사연구, 17(1), 1-29.
  6. Spearman, C. (1904). "General intelligence": Objectively determined and measured. The American journal of psychology, 15(2), 201-292. https://doi.org/10.2307/1412107
  7. Milligan, G. W. (1996). Clustering validation: results and implications for applied analyses. In Clustering and classification (pp. 341-375).
  8. 장보영, 부소영. (2019). 군집분석으로 도출한 식사패턴별 에너지 섭취량과 골격근육량의 연관성 분석 : 2008-2010년 국민건강영양조사 자료를 활용하여. Journal of Nutrition and Health, 52(6), 581-592. https://doi.org/10.4163/jnh.2019.52.6.581
  9. 데니스 은주, 강민지, 한성림 (2017). 건강한 한국성인의 음료섭취패턴과 대사증후군의 연관성연구. 대한지역사회영양학회지, 22(5), 441-455. https://doi.org/10.5720/kjcn.2017.22.5.441
  10. Berg CM, Lappas G, Strandhagen E, Wolk A, Toren K, Rosengren A, Aires N, Thelle DS, Lissner L. Food patterns and cardiovascular disease risk factors: the Swedish INTERGENE research program. Am J Clin Nutr. 2008 Aug; 88(2):289-97. https://doi.org/10.1093/ajcn/88.2.289
  11. 양혜리, 윤희용. (2018). 특수 데이터 집합에 대한 K-means clustering 알고리즘을 사용한 PCA 차원 감소. 한국정보기술학회 종합학술발표논문집, 315-318.
  12. 이용구, 양현일, 최정아, 허준. (2012). 화장품추천 사례에서 요인, 군집분석을 이용한 협업필터링 추천 모델과 연관성 규칙 기법의 성능비교 연구, 14(2), 689-705.
  13. 김담희, 안가경. (2018). 머신러닝을 이용한 고객세분화에 관한 연구. 융복합지식학회논문지, 6(2), 115-120. https://doi.org/10.22716/SCKT.2018.6.2.039
  14. 박미성, 안병일. (2014). 식품소비 라이프스타일이 가공식품 지출에 미치는 효과 분석: 군집분석과 매칭 기법을 이용하여. 농촌경제, 37(3), 25-58.
  15. Santos, R. D. O., Gorgulho, B. M., Castro, M. A. D., Fisberg, R. M., Marchioni, D. M., & Baltar, V. T. (2019). Principal component analysis and factor analysis: Differences and similarities in nutritional epidemiology application. Revista Brasileira de Epidemiologia, 22, e190041. https://doi.org/10.1590/1980-549720190041
  16. Zubova, J., Kurasova, O., & Liutvinavicius, M. (2018). Dimensionality reduction methods: the comparison of speed and accuracy. Information Technology And Control, 47(1), 151-160.