• 제목/요약/키워드: zero-inflated count data

검색결과 31건 처리시간 0.015초

영과잉 포아송 회귀모형에 대한 베이지안 추론: 구강위생 자료에의 적용 (Bayesian Analysis of a Zero-inflated Poisson Regression Model: An Application to Korean Oral Hygienic Data)

  • 임아경;오만숙
    • 응용통계연구
    • /
    • 제19권3호
    • /
    • pp.505-519
    • /
    • 2006
  • 셀 수 있는 이산 자료(discrete count data)에 대한 분석은 여러 분야에서 활용되고 있지만 영(zero)을 과도하게 포함하고 있는 영과잉 자료는 자료의 성격상 포아송 분포를 따르지 못할 때가 있어 분석에 어려움이 따른다. Zero-Inflated Poisson(ZIP)모형은 이런 어려움을 극복하기 위하여 영에 대한 점확률을 가지는 분포와 포아송 분포를 합성하여 과도한 영과 영이 아닌 자료를 설명하는 모형이다. 설명 변수가 존재할 때는 포아송 분포 부분에서 반응변수의 평균과 공변량사이에 로그선형 연결함수를 사용한 Zero-Inflated Poisson Regression(ZIPR)모형이 사용될 수 있다. 본 논문에서는 Markov Chain Monte Carlo 기법을 이용한 ZIPR모형의 베이지안 추론방법을 제안하고, 이를 실제 구강위생 자료에 적용하며 다른 모형들과 비교한다. 그 결과 베이지안 추론 방법을 적용한 영과잉 모형의 추정오차가 다른 모형들의 추정오차보다 작았고, 예측치가 더 정확했다는 점에서 우수함을 알 수 있었다.

A Bayesian joint model for continuous and zero-inflated count data in developmental toxicity studies

  • Hwang, Beom Seuk
    • Communications for Statistical Applications and Methods
    • /
    • 제29권2호
    • /
    • pp.239-250
    • /
    • 2022
  • In many applications, we frequently encounter correlated multiple outcomes measured on the same subject. Joint modeling of such multiple outcomes can improve efficiency of inference compared to independent modeling. For instance, in developmental toxicity studies, fetal weight and number of malformed pups are measured on the pregnant dams exposed to different levels of a toxic substance, in which the association between such outcomes should be taken into account in the model. The number of malformations may possibly have many zeros, which should be analyzed via zero-inflated count models. Motivated by applications in developmental toxicity studies, we propose a Bayesian joint modeling framework for continuous and count outcomes with excess zeros. In our model, zero-inflated Poisson (ZIP) regression model would be used to describe count data, and a subject-specific random effects would account for the correlation across the two outcomes. We implement a Bayesian approach using MCMC procedure with data augmentation method and adaptive rejection sampling. We apply our proposed model to dose-response analysis in a developmental toxicity study to estimate the benchmark dose in a risk assessment.

제로팽창 모형을 이용한 보험데이터 분석 (A Zero-Inated Model for Insurance Data)

  • 최종후;고인미;전수영
    • 응용통계연구
    • /
    • 제24권3호
    • /
    • pp.485-494
    • /
    • 2011
  • 계수(Count) 데이터는 반응변수가 음이 아닌 계수로, 자동차 사고건수나 지진이 일어난 횟수, 보험처리 발생건수 등을 말한다. 이런 경우에는 주로 포아송 회귀모형을 사용하지만, 평균과 분산이 동일한 경우만 이용될 수 있다는 제약이 따른다. 실증적 자료에서는 그룹 간 이질성으로 인해 분산이 매우 큰 과대산포(Overdispersion) 현상을 볼 수 있는데, 이를 무시할 경우 회귀계수나 표준오차가 편의되는 현상이 발생한다. 보험은 보장성 개념이 강하기 때문에 실제로 보험처리가 발생하지 않는 경우가 많아, 보험처리 건수에 '0'값이 있을 수 있다. 본 논문에서는 '0'값이 많은 자료의 분석을 위해 제로팽창 모형(Zero-Inflated Model)을 고려하고, 여러 모형들의 효율성을 실증자료를 통하여 비교하였다. 실증 자료 분석 결과, 과대산포와 제로팽창 현상이 존재하는 자료에서 제로팽창 음이항 모형(Zero-Inflated Negative Binomial Regression Model)이 가장 효율적인 모형임을 보여 주었다.

An application to Multivariate Zero-Inflated Poisson Regression Model

  • Kim, Kyung-Moo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권2호
    • /
    • pp.177-186
    • /
    • 2003
  • The Zero-Inflated Poisson regression is a model for count data with exess zeros. When the correlated response variables are intrested, we have to extend the univariate zero-inflated regression model to multivariate model. In this paper, we study and simulate the multivariate zero-inflated regression model. A real example was applied to this model. Regression parameters are estimated by using MLE's. We also compare the fitness of multivariate zero-inflated Poisson regression model with the decision tree model.

  • PDF

폴랴-감마 잠재변수에 기반한 베이지안 영과잉 음이항 회귀모형: 약학 자료에의 응용 (A Bayesian zero-inflated negative binomial regression model based on Pólya-Gamma latent variables with an application to pharmaceutical data)

  • 서기태;황범석
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.311-325
    • /
    • 2022
  • 0의 값을 과도하게 포함하는 가산자료는 다양한 연구 분야에서 흔히 나타난다. 영과잉 모형은 영과잉 가산자료를 분석하기 위해 가장 일반적으로 사용되는 모형이다. 영과잉 모형에 대한 전통적인 베이지안 추론은 조건부 사후분포의 형태가 폐쇄형 분포로 나타나지 않아 모형 적합 과정이 용이하지 않다는 한계점이 존재했다. 그러나 최근 Pillow와 Scott (2012)과 Polson 등 (2013)이 제안한 폴랴-감마 자료확대전략으로 인해, 로지스틱 회귀모형과 음이항 회귀모형에서 깁스 샘플링을 통한 추론이 가능해지면서, 영과잉 모형에 대한 베이지안 추론이 용이해졌다. 본 논문에서는 베이지안 추론에 기반한 영과잉 음이항 회귀모형을 Min과 Agresti(2005)에서 분석된 약학 연구 자료에 적용해본다. 분석에 사용된 자료는 경시적 영과잉 가산자료로 복잡한 자료 구조를 가지고 있다. 모형 적합 과정에서는 깁스 샘플링을 통한 추론을 수행하기 위해 폴랴-감마 자료확대전략을 사용한다.

랜덤효과를 포함한 영과잉 포아송 회귀모형에 대한 베이지안 추론: 흡연 자료에의 적용 (A Bayesian zero-inflated Poisson regression model with random effects with application to smoking behavior)

  • 김연경;황범석
    • 응용통계연구
    • /
    • 제31권2호
    • /
    • pp.287-301
    • /
    • 2018
  • 0이 과도하게 많이 나타나는 자료는 여러 다양한 분야에서 흔히 볼 수 있다. 이러한 자료들을 분석할 때 대표적으로 영과잉 포아송 모형이 사용된다. 특히 반응변수들 사이에 상관관계가 존재할 때에는 랜덤효과를 영과잉 포아송 모형에 도입해서 분석해야 한다. 이러한 모형은 주로 빈도론자들의 접근방법으로 분석되어왔는데, 최근에는 베이지안 기법을 사용한 분석도 다양하게 발전되어 왔다. 본 논문에서는 반응변수들 사이에 상관관계가 존재하는 경우 랜덤효과가 포함된 영과잉 포아송 회귀모형을 베이지안 추론 방법을 토대로 제안하였다. 이 모형의 적합성을 판단하기 위해 모의 실험을 통해 랜덤효과를 고려하지 않은 모형과 비교 분석하였다. 또한, 실제 지역사회 건강조사 흡연 자료에 직접 응용하여 그 결과를 살펴보았다.

Weighted zero-inflated Poisson mixed model with an application to Medicaid utilization data

  • Lee, Sang Mee;Karrison, Theodore;Nocon, Robert S.;Huang, Elbert
    • Communications for Statistical Applications and Methods
    • /
    • 제25권2호
    • /
    • pp.173-184
    • /
    • 2018
  • In medical or public health research, it is common to encounter clustered or longitudinal count data that exhibit excess zeros. For example, health care utilization data often have a multi-modal distribution with excess zeroes as well as a multilevel structure where patients are nested within physicians and hospitals. To analyze this type of data, zero-inflated count models with mixed effects have been developed where a count response variable is assumed to be distributed as a mixture of a Poisson or negative binomial and a distribution with a point mass of zeros that include random effects. However, no study has considered a situation where data are also censored due to the finite nature of the observation period or follow-up. In this paper, we present a weighted version of zero-inflated Poisson model with random effects accounting for variable individual follow-up times. We suggested two different types of weight function. The performance of the proposed model is evaluated and compared to a standard zero-inflated mixed model through simulation studies. This approach is then applied to Medicaid data analysis.

An application to Zero-Inflated Poisson Regression Model

  • Kim, Kyung-Moo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권1호
    • /
    • pp.45-53
    • /
    • 2003
  • The Zero-Inflated Poisson regression is a model for count data with exess zeros. When the reponse variables have excess zeros, it is not easy to apply the Poisson regression model. In this paper, we study and simulate the zero-inflated Poisson regression model. An real example was applied to this model. Regression parameters are estimated by using MLE's. We also compare the fitness of zero-inflated Poisson model with the Poisson regression and decision tree model.

  • PDF

Sample size calculations for clustered count data based on zero-inflated discrete Weibull regression models

  • Hanna Yoo
    • Communications for Statistical Applications and Methods
    • /
    • 제31권1호
    • /
    • pp.55-64
    • /
    • 2024
  • In this study, we consider the sample size determination problem for clustered count data with many zeros. In general, zero-inflated Poisson and binomial models are commonly used for zero-inflated data; however, in real data the assumptions that should be satisfied when using each model might be violated. We calculate the required sample size based on a discrete Weibull regression model that can handle both underdispersed and overdispersed data types. We use the Monte Carlo simulation to compute the required sample size. With our proposed method, a unified model with a low failure risk can be used to cope with the dispersed data type and handle data with many zeros, which appear in groups or clusters sharing a common variation source. A simulation study shows that our proposed method provides accurate results, revealing that the sample size is affected by the distribution skewness, covariance structure of covariates, and amount of zeros. We apply our method to the pancreas disorder length of the stay data collected from Western Australia.

경시적 영과잉 가산자료와 생존자료의 결합모형 (A joint modeling of longitudinal zero-inflated count data and time to event data)

  • 김동욱;천지훈
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1459-1473
    • /
    • 2016
  • 시간의 흐름에 따라 관측되는 경시적(longitudinal) 자료의 경우, 경시적 자료와 생존(survival) 자료가 종종 동시에 수집된다. 이 때 경시적 자료에서 발생하는 결측이 생존자료와의 연관성으로 인해 발생한 무시할 수 없는 결측(non-ignorable missing)이라면, 경시적 자료분석 방법만으로는 두 자료 간의 연관성을 고려하지 않아 독립변수에 대한 효과는 편향된 결과를 얻게 된다. 이러한 문제를 해결하기 위해서 결측의 원인이 생존시간과 연관되어 있으므로 생존모형을 고려하여 불편추정량을 얻기 위해 경시적 자료와 생존자료의 결합모형에 대한 연구가 이루어져 왔다. 본 논문은 경시적 자료의 형태가 영이 많이 존재하는 영과잉 가산자료(zero-inflated count data)와 생존자료의 결합모형을 연구하였다. 경시적 영과잉 가산자료와 생존자료는 각각 허들모형(hurdle model)과 비례위험모형(proportional hazards model)의 부 모형을 적용하였고, 두 부 모형들의 변량효과가 다변량 정규분포를 따른다는 가정을 통하여 결합하였다. 모수의 최우추정법으로 EM 알고리즘을 활용하였고, 추정된 표준오차를 계산하기 위해 프로파일 우도(profile likelihood)를 이용하였다. 최종적으로 모의실험을 통해 두 부 모형의 변량효과 간 상관관계가 존재하는 경우 결합모형이 개별적 모형보다 편의와 포함확률(coverage probability)의 측면에서 더 우수함을 보였다.