DOI QR코드

DOI QR Code

통계적 형상분석을 이용한 엑셀 방사형 차트의 분류와 판별

Classification and discrimination of excel radial charts using the statistical shape analysis

  • Seungeon Lee (Department of Statistics, Pusan National University) ;
  • Jun Hong Kim (Department of Statistics, Pusan National University) ;
  • Yeonseok Choi (Department of Statistics, Pusan National University) ;
  • Yong-Seok Choi (Department of Statistics, Pusan National University)
  • 투고 : 2023.07.19
  • 심사 : 2023.09.15
  • 발행 : 2024.02.29

초록

평가지표와 같은 수치형 자료의 경우 수치 형태보다 엑셀(Excel)의 방사형 차트 형태로 나타내 시각적으로 표현하면 정보 전달에 더욱 효과적일 것이다. 그러나 개체가 많은 경우 시각적으로 판별하거나 분류하는 것이 쉽지 않다. 이럴 경우 각 개체에 대해 방사형 차트를 이용하여 형상화 시킨 후, 형상의 정보를 대표할 수 있는 형상점을 찾고 형상좌표로 변환해 형상분석을 적용하여 분류 및 판별하는 방법을 알아보고자 한다. 형상분석을 이용하기 위해 주로 분석자의 주관으로 형상점을 얻고 임의의 좌표공간을 생성시켜 좌표를 얻곤 했다. 방사형 차트는 해당 개체의 특징을 나타내는 변수의 개수만큼 형상점이 생기게 되고 이를 선으로 이은 것은 하나의 형상으로 여겨진다. 따라서 중심을 원점으로 두고 2차원 공간으로 정의를 내린 후, X축과 각 특징을 나타내는 축이 이루는 각에 대해 삼각함수를 적용해 형상좌표를 추출해낸다. 변수의 개수가 많아 형상의 모양이 복잡해질 경우 방사형 차트를 이용해 시각화하더라도 쉽게 파악하기 어렵다. 독립성을 보장할 수 없는 변수들에 대해 주성분 분석(PCA)을 실시하여 시각적으로 효과적인 형상을 만든다. PCA를 실시하기 전과 후의 형상에 대해 전통적 판별분석, 서포트벡터머신(support vector machine; SVM), 인공신경망(artificial neural network; ANN)의 기법을 적용시켜 분류표와 분류율을 확인한다. 또한 GPA (generalized procrustes analysis) 적합좌표, 북스테인좌표 2가지 좌표에 대한 판별의 차이를 비교한다. 북스테인좌표의 경우 기저 형상점을 중심으로 형상의 위치와 회전, 척도를 변환한 좌표로써, 분류율에 대해 GPA 형상좌표보다 더 높은 결과를 보이고 있다. 북스테인좌표의 경우 여러 군집 간의 형상을 비교하는데 유용하게 활용된다.

A radial chart of Excel is very useful graphical method in delivering information for numerical data. However, it is not easy to discriminate or classify many individuals. In this case, after shaping each individual of a radial chart, we need to apply shape analysis. For a radial chart, since landmarks for shaping are formed as many as the number of variables representing the characteristics of the object, we consider a shape that connects them to a line. If the shape becomes complicated due to the large number of variables, it is difficult to easily grasp even if visualized using a radial chart. Principal component analysis (PCA) is performed on variables to create a visually effective shape. The classification table and classification rate are checked by applying the techniques of traditional discriminant analysis, support vector machine (SVM), and artificial neural network (ANN), before and after principal component analysis. In addition, the difference in discrimination between the two coordinates of generalized procrustes analysis (GPA) coordinates and Bookstein coordinates is compared. Bookstein coordinates are obtained by converting the position, rotation, and scale of the shape around the base landmarks, and show higher rate than GPA coordinates for the classification rate.

키워드

참고문헌

  1. Choi YS (2021). Multivariate Statistical Shape Analysis with R, Pusan National University Press, Busan.
  2. Choi YS (2018). Multivariate Data Analysis with R, Kyungmoon, Seoul.
  3. Dryden IL and Mardia KV (2016). Statistical Shape Analysis: With Applications in R, John Wiley & Sons Ltd, Chichester, UK.
  4. Eberhart RC (2014). Neural Network PC Tools: A Practical Guide, Academic Press, Inc., New York.
  5. Jain AK, Dubes RC, and Chen CC (1987). Bootstrap techniques for error estimation, IEEE Transactions on Pattern Analysis and Machine Intelligence, 5, 628-633. https://doi.org/10.1109/TPAMI.1987.4767957
  6. Izenman AJ (2008). Modern Multivariate Statistical Techniques, Springer, New York.
  7. Kendall DG (1977). The diffusion of shape, Advances in Applied Probability, 9, 428-430. https://doi.org/10.2307/1426091
  8. Raschka S (2018). Model evaluation, model selection, and algorithm selection in machine learning, Available from: arXiv preprint arXiv:1811.12808