DOI QR코드

DOI QR Code

결측값이 있는 정준상관 행렬도의 형상변동 연구

A Study on Shape Variability in Canonical Correlation Biplot with Missing Values

  • Hong, Hyun-Uk (Department of Statistics, Pusan National University) ;
  • Choi, Yong-Seok (Department of Statistics, Pusan National University) ;
  • Shin, Sang-Min (Department of Statistics, Pusan National University) ;
  • Ka, Chang-Wan (Department of Data Information Science, Dongeui University)
  • 투고 : 20100600
  • 심사 : 20100800
  • 발행 : 2010.10.31

초록

정준상관 행렬도는 두 변수군 사이에 연관성이 있는 데이터 행렬을 시각적으로 묘사하고 데이터가 가진 패턴을 찾는데 유용하고, 분석의 더욱 정형화된 방법으로써 결과를 보여주기에도 유용하다. 그럼에도 불구하고, 자료에 결측값이 존재하는 경우에 대부분의 행렬도는 바르게 적용되지 않는다. 이 문제를 해결하기 위해, 결측률에 따라 중앙값과 평균, EM알고리즘, MCMC대체법을 사용해서 결측 자료를 추정한다. 완전하지 않은 자료의 행렬도의 결측값을 추정하더라도, 대체법과 결측률에 따라 행렬도의 모양이 달라진다. 따라서 Shin 둥 (2008)에서 제안한 RMS(root mean square)와 원 행렬도와 추정된 행렬도간의 형상 변동을 측정하고 비교하기 위한 PS(Procrustes statistic)를 사용한다.

Canonical correlation biplot is a useful biplot for giving a graphical description of the data matrix which consists of the association between two sets of variables, for detecting patterns and displaying results found by more formal methods of analysis. Nevertheless, when some values are missing in data, most biplots are not directly applicable. To solve this problem, we estimate the missing data using the median, mean, EM algorithm and MCMC imputation methods according to missing rates. Even though we estimate the missing values of biplot of incomplete data, we have different shapes of biplots according to the imputation methods and missing rates. Therefore we use a RMS(root mean square) which was proposed by Shin et al. (2007) and PS(procrustes statistic) for measuring and comparing the shape variability between the original biplots and the estimated biplots.

키워드

참고문헌

  1. 최용석 (2006). <행렬도 분석>, 부산대학교 기초과학연구원, 부산대학교 출판부, 83-86.
  2. 최용석, 현기홍 (2006). <통계적 형상분석의 이해와 응용>, 자유아카데미, 서울.
  3. 최태훈, 최용석 (2008). 정준상관 행렬도와 군집분석을 응용한 KLPGA 선수의 기술과 경기성적요인에 대한 연관성 분석, <응용통계연구>, 21, 429-439. https://doi.org/10.5351/KJAS.2008.21.3.429
  4. 최태훈, 최용석, 신상민 (2009). 테니스 그랜드슬램대회의 선수특성요인과 경기요인에 대한 분석연구 - 정준상관 행렬도와 프로크러스티즈 분석의 응용-, <응용통계연구>, 22, 855-864. https://doi.org/10.5351/KJAS.2009.22.4.855
  5. Choi, Y. S. (1991). Resistant Principal Component Analysis, Biplot and Corresponding Analysis, 고려대학교, 박사학위 논문, 서울.
  6. Gabriel, K. R. (1971). The biplot graphics display of matrices with applications to principal component analysis, Biometrika, 58, 453-467. https://doi.org/10.1093/biomet/58.3.453
  7. Kim, J. G., Choi, Y. S. and Lee, N. Y. (2010a). Unbalanced ANOVA for testing shape variability in statistical shape analysis, The Korean Journal of Applied Statistics, 23, 317-323. https://doi.org/10.5351/KJAS.2010.23.2.317
  8. Kim, J. G., Choi, Y. S. and Shin, S. M. (2010b). Shape variability and classification using PS, MPS and RMS in statistical shape analysis, Far East Journal of Applied Mathematics, 42, 49-60.
  9. Little, R. J. A. and Rubin, D. B. (2002). Statistical Analysis with Missing Data, Willey, New York.
  10. Park, M. R. and Huh, M. H. (1996). Canonical correlation biplot, Journal of the Korea Statistical Society, 3, 11-19.
  11. Rubin, D. (1987). Multiple Imputation for Nonresponse in Survey, Wiley & Sons, New York.
  12. SAS Institute Inc. (1990). SAS/STAT User's Guide, 1, 4/e, SAS Institute Inc., Cary NC.
  13. Schafer, J. L. (1997). Analysis of Incomplete Multivariate Data, Chapman & Hall, London.
  14. Shin, S. M., Choi, Y. S. and Lee, N. Y. (2008). Comparison of shape variability in principal component biplot with missing values, The Korean Journal of Applied Statistics, 21, 1109-1116. https://doi.org/10.5351/KJAS.2008.21.6.1109
  15. Tanner, M. A. and Wong, W. H. (1987). The calculation of posterior distribution by data augmentation, Journal of the American Statistical Association, 82, 528-540. https://doi.org/10.2307/2289457

피인용 문헌

  1. Partial Canonical Correlation Biplot vol.24, pp.3, 2011, https://doi.org/10.5351/KJAS.2011.24.3.559