DOI QR코드

DOI QR Code

잠재변수 모형에서의 군집효율을 이용한 변수선택

Variable selection for latent class analysis using clustering efficiency

  • 투고 : 2018.08.08
  • 심사 : 2018.10.06
  • 발행 : 2018.12.31

초록

잠재집단 모형은 다변량 범주형 자료 안에 숨겨진 집단을 찾는 매우 중요한 도구종의 하나이다. 하지만 실제 자료분석에서 너무 많은 관찰변수들을 포함시킨 모형은 모형을 복잡하게 만들고 또한 모수추정의 정확도에 영향을 주기 때문에 정보가 손실되지 않는 내에서 유용한 변수를 찾는 것은 중요한 문제이다. Dean과 Raftery (2010)은 잠재집단 모형에서의 변수선택을 위해 BIC를 이용한 Headlong search 알고리즘을 제시하였는데 본 논문에서는 이 방법을 대체할 수 있는 방법으로 적합한 모형으로부터 계산된 잠재집단에 속할 사후확률을 이용하여 변수 선택을 하는 방법을 제안하고자 한다. 이를 위하여 잠재집단 모형의 적합성을 측정할 수 있는 새로운 통계량과 이를 이용한 변수선택 알고리즘을 제시할 것이다. 또한 제안된 방법의 효율성을 모의실험과 실증자료 분석을 통해 살펴보고자 한다.

Latent class analysis (LCA) is an important tool to explore unseen latent groups in multivariate categorical data. In practice, it is important to select a suitable set of variables because the inclusion of too many variables in the model makes the model complicated and reduces the accuracy of the parameter estimates. Dean and Raftery (Annals of the Institute of Statistical Mathematics, 62, 11-35, 2010) proposed a headlong search algorithm based on Bayesian information criteria values to choose meaningful variables for LCA. In this paper, we propose a new variable selection procedure for LCA by utilizing posterior probabilities obtained from each fitted model. We propose a new statistic to measure the adequacy of LCA and develop a variable selection procedure. The effectiveness of the proposed method is also presented through some numerical studies.

키워드

Table 3.1. Headlong search algorithm

GCGHDE_2018_v31n6_721_t0001.png 이미지

Table 4.1. Proposed algorithm

GCGHDE_2018_v31n6_721_t0002.png 이미지

Table 5.1. Simulation models

GCGHDE_2018_v31n6_721_t0003.png 이미지

Table 5.2. The number of selected variables for Model 1

GCGHDE_2018_v31n6_721_t0004.png 이미지

Table 5.3. The number of selected variables for Model 2

GCGHDE_2018_v31n6_721_t0005.png 이미지

Table 6.1. Questionnaire

GCGHDE_2018_v31n6_721_t0006.png 이미지

Table 6.2. Estimated class probability

GCGHDE_2018_v31n6_721_t0007.png 이미지

Table 6.3. Response probabilities for selected models

GCGHDE_2018_v31n6_721_t0008.png 이미지

참고문헌

  1. Dean, N. and Raftery, A. E. (2010). Latent class analysis variable selection, Annals of the Institute of Statistical Mathematics, 62, 11-35. https://doi.org/10.1007/s10463-009-0258-9
  2. Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm, Journal of the Royal Statistical Society. Series B, 39, 1-38.
  3. Goodman, L. A. (1974). Exploratory latent structure analysis using both identifiable and unidentifiable models, Biometrika, 61, 215-231. https://doi.org/10.1093/biomet/61.2.215
  4. Kim, S. (2013). Variable selection in latent class analysis (Master thesis), Sungkyunkwan University, Seoul.
  5. Lazarsfeld, P. F. (1950a). The logical and mathematical foundations of latent structure analysis. In S. A. Stouffer (Ed.), Measurement and prediction, the American soldier: studies in social psychology in World War II (Vol. IV, Chap. 10, pp. 362-412). Princeton, Princeton University Press, NJ.
  6. Lazarsfeld, P. F. (1950b). The interpretation and computation of some latent structures. In S. A. Stouffer (Ed.), Measurement and prediction, the American soldier: studies in social psychology in World War II (Vol. IV, Chap. 11, pp. 413-472). Princeton, NJ: Princeton University Press.
  7. Lazarsfeld, P. F. and Henry, N. W. (1968). Latent Structure Analysis, Houghton Mifflin, Boston.
  8. McLachlan, G. J. and Peel, D. (2000). Finite Mixture Models, Wiley, New York.
  9. Raftery, A. E. and Dean, N. (2006). Variable selection for model-based clustering, Joumal of the American Statistical Association, 101, 168-178. https://doi.org/10.1198/016214506000000113
  10. Sung, M., Chang, Y. E., and Seo, B. (2016). The roles of study habits and emotional behavioral problems in predicting school adjustment classification among 3rd graders, Korean Journal of Childcare & Education, 12, 79-102.