DOI QR코드

DOI QR Code

A Study on Selecting Principle Component Variables Using Adaptive Correlation

적응적 상관도를 이용한 주성분 변수 선정에 관한 연구

  • Received : 2020.07.22
  • Accepted : 2020.10.01
  • Published : 2021.03.31

Abstract

A feature extraction method capable of reflecting features well while mainaining the properties of data is required in order to process high-dimensional data. The principal component analysis method that converts high-level data into low-dimensional data and express high-dimensional data with fewer variables than the original data is a representative method for feature extraction of data. In this study, we propose a principal component analysis method based on adaptive correlation when selecting principal component variables in principal component analysis for data feature extraction when the data is high-dimensional. The proposed method analyzes the principal components of the data by adaptively reflecting the correlation based on the correlation between the input data. I want to exclude them from the candidate list. It is intended to analyze the principal component hierarchy by the eigen-vector coefficient value, to prevent the selection of the principal component with a low hierarchy, and to minimize the occurrence of data duplication inducing data bias through correlation analysis. Through this, we propose a method of selecting a well-presented principal component variable that represents the characteristics of actual data by reducing the influence of data bias when selecting the principal component variable.

고차원의 데이터를 처리하기 위해서는 데이터의 성질을 유지하면서 특징을 잘 반영할 수 있는 특징 추출 방법이 필요하다. 주성분분석 방법은 고차원 데이터에 포함된 정보를 저차원의 데이터로 변환하여 원래 데이터의 변수 수보다 적은 수의 변수로 고차원 데이터를 표현 할 수 있는 방법으로서 데이터의 특징 추출을 위한 대표적인 방법이다. 본 연구에서는 데이터가 고차원인 경우 데이터 특징 추출을 위한 주성분 분석에 있어서 주성분 변수 선정 시 적응적 상관도를 기반으로 한 주성분 분석 방법을 제안한다. 제안하는 방법은 입력 데이터간의 상관 관계를 기반으로 상관도를 적응적으로 반영하여 데이터의 주성분을 분석함으로써 다른 여러 변수에 중복적으로 상관도가 높은 변수와 주성분을 유도하는데 연관성이 적은 변수를 주성분 변수 후보 대상에서 제외시키고자 한다. 고유벡터 계수 값에 의한 주성분 위계를 분석하고 위계가 낮은 주성분이 변수로 선정이 되는 것을 막고 또한 상관 분석을 통하여 데이터의 중복 발생이 데이터 편향을 유도하는 것을 최소화하 하고자 한다. 이를 통하여 주성분 변수 선정 시 데이터 편향성의 영향을 줄임으로써 실제 데이터의 특징을 잘 나타내는 주성분 변수를 선정하는 방법을 제안하고자 한다.

Keywords

References

  1. I. T. Jollife, "Principle Component Analysis," Springer-Verlag, New York, 1986.
  2. B. J. Kim, J. Y. Sim, C. H. Hwang, and I. G. Kim, "On-line Nonlinear Principal Component Analsys for Nonlinear Feature Extraction," The Journal of Korean Institute of Information Scientists and Engineers, Vol.31, No.3, pp.361-368, 2004.
  3. J. H. Ha, S. W. Park, and G. M. Kim, "Development of Principal Component Analysis algorithms for detecting leak in water pipe networks," Proceeding of Korean Society of Civil Engineering, pp.52-53, 2018.
  4. B. J. Kim, "Feature Extraction on High Dimensional Data Using Incremental PCA," The Journal of The Korean Institute of Information and Communication Engineering, Vol.8, No.7, pp.1475-1479, 2004.
  5. B. J. Kim and Y. J. Shim, "On-line Nonlinear Proncipal Component Analysis for Nonlinear Feature Extraction," The Journal of The Korean Institute of Information Scientists and Engineers, Vol.31, No.3, pp.361-368, 2004.
  6. Principle Component Analysis [Internet], https://stat.snu.ac.kr/time
  7. S. Y. Kim, C. K. Kim, Y. H. Kang, C. Y. Yun, G. S. Jang, and H. G. Kim, "Verification of Typical Meterological Year Data Structure Applying Principal Component Analysis," Proceeding of The Korean Solar Energy Society, p.159, 2018.
  8. J. Y. Lim and P. S. Ji, "Developing of Fault Diagnosis Algorithm using Correlation Analysis and ELM," The Journal of The Korean Institute of Electrical Engineers, Vol.65, No.3, pp.204-209, 2016.
  9. H. J. Joo, N. H. Kim, R. Navin, H. P. Zhao, B. Sovit, and H. Kim, "A Study on Data Types and Visualization for Traffic Congestion and Accidents," Proceeding of The Institute of Electronics and Information Engineers, pp.1011-1013, 2019.
  10. W. S. Hwang, H. K. KIm, Y. S. Kim, and H. C. Kim, "Event-based Correlation Coefficient for Analyzing the Categorical Features in Industrial Control Systems," Proceeding of The Korean Institute of Information Scientists and Engineers, pp.812-814, 2019.
  11. Y. J. Kim, "Evaluation of Urban Lakes Water Quality Using Principle Component Analysis," The Journal of Korean Society of Environmental Administration, Vol.9, No.2, pp.197-203, 2003.
  12. H. J. Joo, N. H. Kim, R. Navin, H. P. Zhao, B. Sovit, and H. Kim, " A Study on Data Types ans Visualization for Traffic Congestion and Accidents," Proceeding of The Institute of Electronics and Information Engineers, pp.1011-1013, 2019.