• 제목/요약/키워드: Principal component biplot

검색결과 19건 처리시간 0.018초

독립성분 행렬도 (Independent Component Biplot)

  • 이수진;최용석
    • 응용통계연구
    • /
    • 제27권1호
    • /
    • pp.31-41
    • /
    • 2014
  • 행렬도(biplot)는 이원표 자료행렬(two-way data matrix)의 행과 열을 한 그림에 동시에 나타내는 탐색적 방법으로, 복잡한 다변량 분석 결과를 보다 쉽게 파악할 수 있는 장점이 있다. 특히 주성분인자 행렬도(principal component factor biplot; PCFB)는 인자분석을 통해서 변수들 간의 상호의존 구조를 탐색하기 위한 시각적 도구이다. 자료에 따라 잠재된 변수들이 독립(independent)이고 비가우시안(non-Gaussian) 분포를 가진다는 사전 정보가 있을 때, Jutten과 Herault (1991)가 제안한 독립성분분석(independent component analysis)을 이용한다. 이 경우 주성분법을 이용한 인자분석을 적용하면 원래 변수들의 상호 관계를 잘못 해석할 수도 있다. 따라서 본 논문에서는 자료에 따라 잠재된 변수들이 독립이고 비가우시안 분포를 가진다는 사전 정보가 있을 때, 독립성분분석을 응용하여 원래 변수들 간의 상호 관계를 기하학적으로 살펴볼 수 있는 시각적 도구인 독립성분 행렬도(independent component biplot; ICB)를 제안하려 한다.

Resistant h-Plot for a Sample Variance-Covariance Matrix

  • Park, Yong-Seok
    • Journal of the Korean Statistical Society
    • /
    • 제24권2호
    • /
    • pp.407-417
    • /
    • 1995
  • The h-plot is a graphical technique for displaying the structure of one population's variance-covariance matrix. This follows the mathematical algorithem of the principle component biplot based on the singular value decomposition. But it is known that the singular value decomposition is not resistant, i.e., it is very sensitive to small changes in the input data. In this article, since the mathematical algorithm of the h-plot is equivalent to that of principal component biplot of Choi and Huh (1994), we derive the resistant h-plot.

  • PDF

Comparison of Shape Variability in Principal Component Biplot with Missing Values

  • Shin, Sang-Min;Choi, Yong-Seok;Lee, Nae-Young
    • 응용통계연구
    • /
    • 제21권6호
    • /
    • pp.1109-1116
    • /
    • 2008
  • Biplots are the multivariate analogue of scatter plots. They are useful for giving a graphical description of the data matrix, for detecting patterns and for displaying results found by more formal methods of analysis. Nevertheless, when some values are missing in data matrix, most biplots are not directly applicable. In particular, we are interested in the shape variability of principal component biplot which is the most popular in biplots with missing values. For this, we estimate the missing data using the EM algorithm and mean imputation according to missing rates. Even though we estimate missing values of biplot of incomplete data, we have different shapes of biplots according to the imputation methods and missing rates. Therefore we propose a RMS(root mean square) for measuring and comparing the shape variability between the original biplots and the estimated biplots.

Resistant Singular Value Decomposition and Its Statistical Applications

  • Park, Yong-Seok;Huh, Myung-Hoe
    • Journal of the Korean Statistical Society
    • /
    • 제25권1호
    • /
    • pp.49-66
    • /
    • 1996
  • The singular value decomposition is one of the most useful methods in the area of matrix computation. It gives dimension reduction which is the centeral idea in many multivariate analyses. But this method is not resistant, i.e., it is very sensitive to small changes in the input data. In this article, we derive the resistant version of singular value decomposition for principal component analysis. And we give its statistical applications to biplot which is similar to principal component analysis in aspects of the dimension reduction of an n x p data matrix. Therefore, we derive the resistant principal component analysis and biplot based on the resistant singular value decomposition. They provide graphical multivariate data analyses relatively little influenced by outlying observations.

  • PDF

SVM-Guided Biplot of Observations and Variables

  • Huh, Myung-Hoe
    • Communications for Statistical Applications and Methods
    • /
    • 제20권6호
    • /
    • pp.491-498
    • /
    • 2013
  • We consider support vector machines(SVM) to predict Y with p numerical variables $X_1$, ${\ldots}$, $X_p$. This paper aims to build a biplot of p explanatory variables, in which the first dimension indicates the direction of SVM classification and/or regression fits. We use the geometric scheme of kernel principal component analysis adapted to map n observations on the two-dimensional projection plane of which one axis is determined by a SVM model a priori.

Arrow Diagrams for Kernel Principal Component Analysis

  • Huh, Myung-Hoe
    • Communications for Statistical Applications and Methods
    • /
    • 제20권3호
    • /
    • pp.175-184
    • /
    • 2013
  • Kernel principal component analysis(PCA) maps observations in nonlinear feature space to a reduced dimensional plane of principal components. We do not need to specify the feature space explicitly because the procedure uses the kernel trick. In this paper, we propose a graphical scheme to represent variables in the kernel principal component analysis. In addition, we propose an index for individual variables to measure the importance in the principal component plane.

분석변수들의 잠재공간 표현 (Representing variables in the latent space)

  • 허명회
    • 응용통계연구
    • /
    • 제30권4호
    • /
    • pp.555-566
    • /
    • 2017
  • 다변량 자료에서 변수 수 p가 큰 경우 주성분분석 등 통상적인 차원축소는 효과적이지 못할 수 있다. 효과적인 시각화가 되려면 축소공간의 차원이 2-3 정도이어야 하는데, 관측개체의 잠재적 차원이 이보다 훨씬 큰 경우가 있기 때문이다. 이 논문은 분석변수들을 다수의 잠재 차원에 분할하여 차원축소적 방법으로 탐색하고 부분들의 유기적 관계를 시각화하는 이단계 작업을 제안한다. 분석변수들을 잠재 차원에 분할하는 "잠재변인 변수군집화" 방법으로는 R팩키지 ClustOfVar를 쓰고 개별 변수군집의 시각화를 위해서 주성분분석 행렬도(biplot)를, 개별 변수군집과 외부 잠재변인 또는 외적 변수 간 관계의 시각화를 위해서는 추가변수 끼워넣기(embedding supplementary variables) 기법을 활용한다.

행렬도를 이용한 대학 신입생의 진로의식 분석 (The Use of a Biplot in Studying the Career Maturity of College Freshmen)

  • 최혜미;박찬용;이상협;정성석
    • 응용통계연구
    • /
    • 제23권5호
    • /
    • pp.933-941
    • /
    • 2010
  • 행렬도는 고차원의 자료를 저차원 공간에 투영하여 자료를 시각화하는 비교적 현대적인 방법으로써, 자료의 산포도, 집단 구분, 변수사이의 상관관계 등 유용한 정보들을 제공한다. 본 연구에서는 이러한 행렬도를 간략하게 소개하고, 행렬도의 구현을 위해 대중성이 높아지고 있는 무료 소프트웨어인 R의 BiplotGUI 패키지를 사용하였다. 그리고 전북대학교에서 2009년도에 실시된 신입생의 진로의식 조사 자료를 이용하여, 신입생의 선호직업과 진로성숙도의 관계를 행렬도 분석방법으로 살펴보았다.

Additive Main Effects and Multiplicative Interaction Analysis of Host-Pathogen Relationship in Rice-Bacterial Blight Pathosystem

  • Nayak, D.;Bose, L.K.;Singh, S.;Nayak, P.
    • The Plant Pathology Journal
    • /
    • 제24권3호
    • /
    • pp.337-351
    • /
    • 2008
  • Host-pathogen interaction in rice bacterial blight pathosystem was analyzed for a better understanding of their relationship and recognition of stable pathogenicity among the populations of Xanthomonas oryzae pv. oryzae. A total number of 52 bacterial strains isolated from diseased leaf samples collected from 12 rice growing states and one Union Territory of India, were inoculated on 16 rice varieties, each possessing known genes for resistance. Analysis of variance revealed that the host genotypes(G) accounted for largest(78.4%) proportion of the total sum of squares(SS), followed by 16.5% due to the pathogen isolates(I) and 5.1% due to the $I{\times}G$ interactions. Application of the Additive Main effects and Multiplicative Interaction(AMMI) model revealed that the first two interaction principal component axes(IPCA) accounted for 66.8% and 21.5% of the interaction SS, respectively. The biplot generated using the isolate and genotypic scores of the first two IPCAs revealed groups of host genotypes and pathogen isolates falling into four sectors. A group of five isolates with high virulence, high absolute IPCA-1 scores, moderate IPCA-2 scores, low AMMI stability index '$D_i$' values and minimal deviations from additive main effects displayed in AMMI biplot as well as response plot, were identified as possessing stable pathogenicity across 16 host genotypes. The largest group of 27 isolates with low virulence, small IPCA-1 as well as IPCA-2 scores, low $D_i$ values and minimal deviations from additive main effect predictions, possessed stable pathogenicity for low virulence. The AMMI analysis and biplot display facilitated in a better understanding of the host-pathogen interaction, adaptability of pathogen isolates to specific host genotypes, identification of isolates showing stable pathogenicity and most discriminating host genotypes, which could be useful in location specific breeding programs aiming at deployment of resistant host genotypes in bacterial blight disease control strategies.

생태학의 통계적 서열화 방법 비교에 관한 연구 (A Comparison Study for Ordination Methods in Ecology)

  • 고현석;전명식;정형철
    • 응용통계연구
    • /
    • 제28권1호
    • /
    • pp.49-60
    • /
    • 2015
  • 군생태학에서 종, 장소 그리고 환경변수의 관계를 시각적으로 보기 위해 대응분석, 정준대응분석 등 다양한 서열화방법들을 사용한다. Ter Braak (1986), Jackson 등 (1991), Parmer (1993) 등은 고유값 및 거리그래프를 이용하여 서열화방법들을 비교하고 있는데, 이 방법들은 조사된 데이터에 근거하고 있기 때문에, 모집단과 행렬도의 관계를 보여주지는 못한다. 따라서, 본 논문에서는 행렬도에 모집단 정보의 표현정도를 측정하는 방법을 소개하고, 이를 활용하여 서열화방법들을 객관적으로 비교하였다. 비교결과, 정준대응분석은 대응분석과 유사한 정분류율을 유지하면서도 환경정보를 이차원 공간에 표현할 수 있는 장점을 지닌 분석임을 확인하였다.