DOI QR코드

DOI QR Code

희박 공분산 행렬에 대한 베이지안 변수 선택 방법론 비교 연구

A comparison study of Bayesian variable selection methods for sparse covariance matrices

  • Kim, Bongsu (Department of Statistics, Inha University) ;
  • Lee, Kyoungjae (Department of Statistics, Sungkyunkwan University)
  • 투고 : 2021.12.22
  • 심사 : 2022.02.03
  • 발행 : 2022.04.30

초록

연속 수축 사전분포는 spike and slab 사전분포와 더불어, 희박 회귀계수 벡터 또는 공분산 행렬에 대한 베이지안 추론을 위해 널리 사용되고 있다. 특히 고차원 상황에서, 연속 수축 사전분포는 spike and slab 사전분포에 비해 매우 작은 모수공간을 가짐으로써 계산적인 이점을 가진다. 하지만 연속 수축 사전분포는 정확히 0인 값을 생성하지 않기 때문에, 이를 이용한 변수 선택이 자연스럽지 않다는 문제가 있다. 비록 연속 수축 사전분포에 기반한 변수 선택 방법들이 개발되어 있기는 하지만, 이들에 대한 포괄적인 비교연구는 거의 진행되어 있지 않다. 본 논문에서는, 연속 수축 사전분포에 기반한 두 가지의 변수 선택 방법들을 비교하려 한다. 첫 번째 방법은 신용구간에 기반한 변수 선택, 두 번째 방법은 최근 Li와 Pati (2017)가 개발한 sequential 2-means 알고리듬이다. 두 방법에 대한 간략한 소개를 한 뒤, 다양한 모의실험 상황에서 자료를 생성하여 두 방법들의 성능을 비교하였다. 끝으로, 모의실험으로부터 발견한 몇 가지 사실들을 기술하고, 이로부터 몇 가지 제안을 하며 논문을 마치려 한다.

Continuous shrinkage priors, as well as spike and slab priors, have been widely employed for Bayesian inference about sparse regression coefficient vectors or covariance matrices. Continuous shrinkage priors provide computational advantages over spike and slab priors since their model space is substantially smaller. This is especially true in high-dimensional settings. However, variable selection based on continuous shrinkage priors is not straightforward because they do not give exactly zero values. Although few variable selection approaches based on continuous shrinkage priors have been proposed, no substantial comparative investigations of their performance have been conducted. In this paper, We compare two variable selection methods: a credible interval method and the sequential 2-means algorithm (Li and Pati, 2017). Various simulation scenarios are used to demonstrate the practical performances of the methods. We conclude the paper by presenting some observations and conjectures based on the simulation findings.

키워드

과제정보

This work was supported the National Research Foundation of Korea (NRF) grant funded by the Korea government (MSIT)(No. 2020R1A4A1018207).

참고문헌

  1. Boughorbel S, Jarray F, and El-Anbari M (2017). Optimal classifier for imbalanced data using Matthews correlation coefficient metric, PloS one, 12, e0177678 https://doi.org/10.1371/journal.pone.0177678
  2. Carvalho CM, Polson NG, and Scott JG (2009). Handling sparsity via the horseshoe. In Proceedings of the Twelth International Conference on Artificial Intelligence and Statistics, 5, 73-80.
  3. Lee K, Jo S, and Lee J (2021). The Beta-Mixture Shrinkage Prior for Sparse Covariances with Posterior Minimax Rates, arXiv:2101.04351
  4. Lee K and Lin L (2020). Bayesian bandwidth test and selection for high-dimensional banded precision matrices, Bayesian Analysis, 15, 737--758.
  5. Li H and Pati D (2017). Variable selection using shrinkage priors, Computational Statistics and Data Analysis, 107, 107--119. https://doi.org/10.1016/j.csda.2016.10.008
  6. Na S, Xumin L, and Yong G (2010). Research on k-means clustering algorithm: An improved k-means clustering algorithm. In 2010 Third International Symposium on Intelligent Information Technology and Security Informatics, 63-67.
  7. Van der Pas S, and Szabo B, and van der Vaart A (2017). Uncertainty Quantification for the Horseshoe, arXiv:1607.01892
  8. Wang H (2015). Scaling it up: Stochastic search structure learning in graphical models, Bayesian Analysis, 10, 351-377. https://doi.org/10.1214/14-BA916