DOI QR코드

DOI QR Code

Information Theory and Data Visualization Approach to Poll Analysis

정보이론과 시각화 방법에 의한 여론조사 분석의 새로운 접근방법

  • Huh, Moon-Yul (Department of Statistics, Sungkyunkwan University) ;
  • Cha, Woon-Ock (Department of Mutimedia Engineering, Hansung University)
  • 허문열 (성균관대학교 통계학과) ;
  • 차운옥 (한성대학교 멀티미디어공학과)
  • Published : 2007.03.31

Abstract

A method for poll analysis using information theory and data visualization is proposed in this paper. Questions of opinion poll consist of a target variable and many explanation variables. The type of explanation variables is either numerical or categorical. In this study, explanation variables of mixed types have been ranked according to the magnitude of their effect on target variable by using mutual information. Likewise, the order of explanation variables has been evaluated using data visualization. This is the first study to quantify the impact of specific explanation variable on the related target variable.

본 논문에서는 상호정보와 데이터 시각화를 사용하여 여론조사 결과를 분석하는 방법을 제안하였다. 여론조사의 경우, 목적 변수와 이를 위한 설명 변수가 있으며 설명 변수는 수치형과 명목형이 혼재된 형태이다. 상호정보를 사용하면 목적변수에 대한 혼합형 설명변수의 영향을 크기순으로 순위를 매길 수 있고, 데이터 시각화 방법을 사용하여 이들 순위 매김에 대한 평가를 수행할 수 있다. 여론조사에서 목적변수에 미치는 설명변수의 영향력의 크기가 어느 정도인가를 정량화한 것은 이연구에 의해서만 이루어진 것이다.

Keywords

References

  1. Cang, S. and Partridge, D. (2004). Feature ranking and best feature subset using mutual information, Neural Computing & Applications, 13, 175-184 https://doi.org/10.1007/s00521-004-0400-9
  2. Cleveland, W. S. and McGill, M. E. (1988). Dynamic Graphics for Data Analysis, Wadsworth & Brooks/Cole
  3. Cover, T. M. and Thomas, J. A. (2004). Elements of Information Theory, 2nd ed., John Wiley & Sons
  4. Huh, M. Y. and Song, K. R. (2002). DAVIS: a Java-based data visualization system, Computational Statistics, 17, 411-423, http://stat.skku.ac.kr/myhuh/DAVIS.html https://doi.org/10.1007/s001800200116
  5. Hutter, M. and Zaffalon, M. (2005). Distribution of mutual information from complete and incomplete data, Computational Statistics & Data Analysis, 48, 633-657 https://doi.org/10.1016/j.csda.2004.03.010
  6. Lee, S. C. and Huh, M. Y. (2003). A measure of association for complex data, Computational Statistics & Data Analysis, 44, 211-222 https://doi.org/10.1016/S0167-9473(03)00031-8
  7. Parzen, E. (1962). On estimation of a probability density function and mode, Annals of Mathematical Statatistics, 33, 1065-1076 https://doi.org/10.1214/aoms/1177704472
  8. Tan, P. N., Kumar, V. and Srivastava, J. (2002). Selecting the right interestingness measure for association patterns, In Proceedings of the eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 32-41