DOI QR코드

DOI QR Code

Bayesian marginalized two-part mixed effects model based on generalized gamma distribution

일반화 감마 분포 기반 베이지안 주변화 2-부분 혼합 모형

  • Yongtae Kwon (Department of Statistics, Sungkyunkwan University) ;
  • Keunbaik Lee (Department of Statistics, Sungkyunkwan University)
  • 권용태 (성균관대학교 통계학과) ;
  • 이근백 (성균관대학교 통계학과)
  • Received : 2022.12.28
  • Accepted : 2023.03.08
  • Published : 2023.06.30

Abstract

Medical expenses, alcohol consumption, and rainfall are all examples of zero-inflated semicontinuous data. To analyze these data, two-part models have been proposed, consisting of a binary submodel that determines whether the data is zero or not, and a continuous submodel for data greater than zero. To analyze longitudinal zero-inflated semicontinuous data, the two-part models are extended to conditional two-part models and marginalized two-part models. We review two-part models and conditional/marginal two-part models in this paper. Then, in the marginalized two-part longitudinal models, we propose a Bayesian method for dealing with the frequentist problem of estimation failure and convergence. A simulation study is being carried out to compare our proposed model. We also use the Korea Health Panel Survey to examine the medical expenses of young people.

영과잉 반 연속 자료는 0의 값이 많은 연속형 자료를 의미하며, 그 예로는 의료 비용, 음주량 그리고 강수량 등이 있다. 이러한 자료를 분석하기 위한 2-부분 모형이 있으며, 이 모형은 자료를 0인지 아닌지를 판단하는 이항 부모형과 0보다 큰 자료들에 대한 연속형 부모형으로 구성되어 있다. 경시적 영과잉 반 연속 자료 분석을 위한 모형은 2-부분 모형을 확장한 조건부 2-부분 모형과 주변화 2-부분 모형이 있다. 본 논문에서는 영과잉 반 연속 자료 분석을 위한 2-부분 모형과 경시적 영과잉 반 연속 자료 분석을 위한 주변화 2-부분 모형을 고찰한다. 그리고 빈도주의 관점에서 주변화 2-부분 모형의 모수 추정 및 수렴실패의 문제를 해결하기 위하여 베이지안 모수추정을 제안한다. 제안된 방법의 성능을 비교하기 위하여 모의실험을 수행하고, 실제 자료인 한국의료패널의 청년층 의료비 분석을 위하여 제안된 추정 방법을 이용한다.

Keywords

Acknowledgement

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임 (NRF-2022R1A2C1002752). 이 논문은 권용태의 석사논문의 일부를 발췌하였음.

References

  1. Duan N, Manning WG, Morris CN, and Newhouse JP (1983). A comparison of alternative models for the demand for medical care, Journal of Business & Economic Statistics, 1, 115-126. https://doi.org/10.1080/07350015.1983.10509330
  2. Jaffa MA, Gebregziabher M, Garrett SM, Luttrell DK, Lipson KE, Luttrell LM, and Jaffa AA (2018). Analysis of longitudinal semicontinuous data using marginalized two-part model, Journal of Translational Medicine, 16, 1-15. https://doi.org/10.1186/s12967-018-1674-5
  3. Manning WG, Basu A, and Mullahy J (2005). Generalized modeling approaches to risk adjustment of skewed outcomes data, Journal of Health Economics, 24, 465-488. https://doi.org/10.1016/j.jhealeco.2004.09.011
  4. Min Y and Agresti A (2002). Modeling nonnegative data with clumping at zero: A survey.
  5. Olsen MK and Schafer JL (2001). A two-part random-effects model for semicontinuous longitudinal data, Journal of the American Statistical Association, 96, 730-745. https://doi.org/10.1198/016214501753168389
  6. Smith VA, Maciejewski ML, and Olsen MK (2018). Modeling semicontinuous longitudinal expenditures: A practical guide, Health Services Research, 53, 3125-3147. https://doi.org/10.1111/1475-6773.12815
  7. Smith VA, Neelon B, Preisser JS, and Maciejewski ML (2017). A marginalized two-part model for longitudinal semicontinuous data, Statistical Methods in Medical Research, 26, 1949-1968. https://doi.org/10.1177/0962280215592908
  8. Smith VA, Preisser JS, Neelon B, and Maciejewski ML (2014). A marginalized two-part model for semicontinuous data, Statistics in Medicine, 33, 4891-4903. https://doi.org/10.1002/sim.6263
  9. Su L, Tom BD, and Farewell VT (2009). Bias in 2-part mixed models for longitudinal semicontinuous data, Biostatistics, 10, 374-389. https://doi.org/10.1093/biostatistics/kxn044
  10. Voronca DC, Gebregziabher M, Durkalski VL, Liu L, and Egede LE (2015). Marginalized two part models for generalized gamma family of distributions, Cornell University Library, Available from: https://arXiv preprint arXiv:1511.05629
  11. Watanabe S and Opper M (2010). Asymptotic equivalence of bayes cross validation and widely applicable information criterion in singular learning theory, Journal of Machine Learning Research, 11, 3571-3594.
  12. 황연희 (2011). 세대별 의료비 지출에 영향을 미치는 요인 분석.