• 제목/요약/키워드: zero-inflated model

검색결과 66건 처리시간 0.025초

Modelling Count Responses with Overdispersion

  • Jeong, Kwang Mo
    • Communications for Statistical Applications and Methods
    • /
    • 제19권6호
    • /
    • pp.761-770
    • /
    • 2012
  • We frequently encounter outcomes of count that have extra variation. This paper considers several alternative models for overdispersed count responses such as a quasi-Poisson model, zero-inflated Poisson model and a negative binomial model with a special focus on a generalized linear mixed model. We also explain various goodness-of-fit criteria by discussing their appropriateness of applicability and cautions on misuses according to the patterns of response categories. The overdispersion models for counts data have been explained through two examples with different response patterns.

영-과잉 회귀모형을 활용한 폭염자료분석 (Heat-Wave Data Analysis based on the Zero-Inflated Regression Models)

  • 김성태;박만식
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2829-2840
    • /
    • 2018
  • 음이 아닌(non-negative) 측정값을 가지는 확률변수에 있어서, 영(0)이 과도하게 측정되는 자료를 반연속형(semi-continuous) 자료와 영-과잉(zero-inflated) 자료로 구분한다. 이러한 자료에서는 특정 확률 분포(probability distribution) 하에서의 확률보다 훨씬 큰 확률로 0을 관측하게 되는데, 연속형(continuous) 확률분포를 고려하는 경우에는 반연속형으로, 이산형(discrete) 확률분포를 고려하는 경우에는 영-과잉이라고 한다. 본 연구에서는 경계값(0)의 측정 여부에 관한 모형과 0보다 큰 확률변수에 대한 확률분포를 활용한 모형 등 두 개의 부문으로 이루어진 모형, 즉 2-부문 모형(two-part model)을 소개하고자 한다. 특히, 이산형 확률분포 중 포아송 분포와 음이항 분포를 고려한 영-과잉 회귀모형(regression model)을 설명하고 그 특성을 파악하고자 한다. 실증연구에서는 이러한 영-과잉 회귀모형을 활용하여 지난 10년(2009년부터 2018년) 간 한국의 여름철(6-8월) 폭염주의보(heat-wave advisory) 및 폭염경보(heat-wave warning) 발생일수를 적합하였다. 또한 공간예측기법 중 하나인 범용크리깅(universal kriging)을 이용하여 적합결과를 바탕으로 한 폭염 발생일수에 대한 예측지도를 작성하였다.

Sample size calculations for clustered count data based on zero-inflated discrete Weibull regression models

  • Hanna Yoo
    • Communications for Statistical Applications and Methods
    • /
    • 제31권1호
    • /
    • pp.55-64
    • /
    • 2024
  • In this study, we consider the sample size determination problem for clustered count data with many zeros. In general, zero-inflated Poisson and binomial models are commonly used for zero-inflated data; however, in real data the assumptions that should be satisfied when using each model might be violated. We calculate the required sample size based on a discrete Weibull regression model that can handle both underdispersed and overdispersed data types. We use the Monte Carlo simulation to compute the required sample size. With our proposed method, a unified model with a low failure risk can be used to cope with the dispersed data type and handle data with many zeros, which appear in groups or clusters sharing a common variation source. A simulation study shows that our proposed method provides accurate results, revealing that the sample size is affected by the distribution skewness, covariance structure of covariates, and amount of zeros. We apply our method to the pancreas disorder length of the stay data collected from Western Australia.

서로 다른 산포를 허용하는 이변량 영과잉 음이항 회귀모형 (Bivariate Zero-Inflated Negative Binomial Regression Model with Heterogeneous Dispersions)

  • 김동석;정슬기;이동희
    • Communications for Statistical Applications and Methods
    • /
    • 제18권5호
    • /
    • pp.571-579
    • /
    • 2011
  • 본 연구에서는 두 반응 변수에 서로 다른 산포를 허용하는 새로운 이변량 영과잉 음이항 회귀모형을 제안하고, Deb과 Trivedi (1997)에 나타난 헬스케어 자료를 이용하여 두 반응변수가 갖는 서로 다른 산포도를 무시한 Wang (2003)이 제안한 이변량 영과잉 음이항 회귀모형과의 효율성을 로그우도와 AIC의 관점에서 비교 하였다. 모형적합결과, 본 연구에서 제안한 모형이 모형선택기준 관점에서 기존모형에 비하여 월등히 우수한 결과를 보여주었다.

영과잉 경시적 가산자료 분석을 위한 허들모형 (Hurdle Model for Longitudinal Zero-Inflated Count Data Analysis)

  • 진익태;이근백
    • 응용통계연구
    • /
    • 제27권6호
    • /
    • pp.923-932
    • /
    • 2014
  • 허들모형은 영이 과잉 가산자료를 분석하기 위해서 사용되어 왔다. 이 모형은 이산부분을 위한 로짓모형과 절삭된 가산부분을 위한 절삭된 포아송모형의 혼합모형이다. 이 논문에서 우리는 경시적 영과잉 가산자료를 분석하기 위해서 수정된 콜레스키 분해을 이용하여 일반적인 이분산성을 가지는 변량효과 공분산행렬을 제안한다. 수정된 콜레스키 분해는 변량효과 공분산행렬을 일반화자기상관 모수와 혁신분산모수로 분리되면, 이러한 모수들은 베이지안 일반화 선형모형을 통해 추정된다. 그리고 실제 자료분석을 통하여 설명한다.

영 과잉 포아송 모형에 대한 베이지안 방법 연구 (Bayesian Approaches to Zero Inflated Poisson Model)

  • 이지호;최태련;우윤성
    • 응용통계연구
    • /
    • 제24권4호
    • /
    • pp.677-693
    • /
    • 2011
  • 본 논문에서는 영 과잉 계수형 자료 분석을 위한 모형중의 하나인 영 과잉 포아송 모형의 베이지안 접근 방법에 대해서 연구한다. 구체적으로는 베이지안 영 과잉 포아송 모형의 적합을 위한 사후 표본을 추출하는데 있어서, 깁스 표집기(Gibbs sampler)를 이용하는 마르코프 연쇄 몬테칼로(MCMC) 방법과 역 베이즈공식(IBF)에 의한 표본추출 방법 두 가지를 고려한다. 이러한 두 가지 사후 표본 추출방법을 비교 설명하고, IBF를 통한 사후표본을 깁스 표집기 사후표본의 수렴성 여부를 확인하는 방식에 대해서도 소개한다. 이를 바탕으로 베이지안 영 과잉 포아송 모형을 Trajan이라는 사과 품종의 발아자료(Trajan data, Marin 등, 1993)에 적용하고 모수에 대한 사후추론을 실시하고 기존의 결과와 비교한다. 또한 주어진 자료에 대하여 영 과잉 포아송 모형이 적합한지에 대한 여부를 여러 가지 모형선택 기준을 통해서 살펴보고, 아울러 기존의 자료 분석 결과 (Rodrigues, 2003)를 보완하기 위하여 계층적 베이지안 모형과 같은 대안에 대해서도 논의해본다.

제로팽창 음이항 회귀모형에 대한 베이지안 추론 (Bayesian Inference for the Zero In ated Negative Binomial Regression Model)

  • 심정숙;이동희;정병철
    • 응용통계연구
    • /
    • 제24권5호
    • /
    • pp.951-961
    • /
    • 2011
  • 본 논문에서는 제로팽창 음이항(ZINB) 회귀모형에서 회귀계수에 대한 추론방법으로 마코프체인몬테카를로(MC MC) 기법을 이용한 베이지안 추론방법을 제안하였다. 본 연구에서 고려한 ZINB 회귀모형은 반응변수의 평균뿐만 아니라 제로팽창확률에 대한 회귀모형을 고려한 것으로서 Jang, et al.(2010)의 연구를 확장한 것이다. 아울러 실제사례에 본 연구에서 제안한 베이지안 추론방법을 적용하고 과대산포를 허용하지 않는 제로팽창 포아송(ZIP) 회귀모형과 적합결과를 DIC를 이용하여 비교하였다. 실제 사례분석 결과 ZINB 회귀모형의 DIC가 ZIP모형보다 작게 나타나 ZINB 회귀모형이 ZIP 회귀모형보다 잘 적합되었음을 알 수 있었다.

어가의 고용량 결정요인 분석 (An Analysis on the Determinants of Employed Labour Quantity in the Fishing Industry)

  • 김태현;박철형;남종오
    • 자원ㆍ환경경제연구
    • /
    • 제27권3호
    • /
    • pp.545-567
    • /
    • 2018
  • 본 연구는 포아송모형, 음이항모형, 영과잉 포아송모형, 영과잉 음이항모형을 이용하여 어가의 고용량 결정요인을 분석하고, 개별모형 간 고용량 결정요인을 비교 분석한다. 이들 모형의 추정에 사용된 자료는 통계청에서 제공하는 2010년과 2015년의 농림어업총조사 마이크로 데이터이며, 이들 자료를 풀링(Pooling)하여 고용량 결정요인과 그 변화분에 대해 추정한다. 분석모형의 선정 결과, 과대 산포 경향을 갖고 있으면서 자가 노동 및 가족 경영으로 고용을 대체하고 있는 수산업의 특성을 모형에 동시에 반영하고 있는 영과잉 음이항모형이 선정되었다. 또한 2010년 대비 2015년 고용량 결정요인의 변화분을 분석해 본 결과, 어선을 보유한 어가와 판매금액이 많은 어가는 고용량 감소에 유의한 영향을 미치는 것으로 나타난 반면, 어가의 종사경력은 길수록 고용량 증가에 유의한 영향을 미치는 것으로 나타났다. 결론적으로 자본화된 어가와 고령화의 가속화가 수산업의 어가 고용량 수 변화에 유의한 영향을 미친 것으로 나타났다.

0이 팽창된 포아송 회귀모형을 이용한 기부회수 자료의 재분석 (The Reanalysis of the Donation Data Using the Zero-Inflated Possion Regression)

  • 김인영;박태규;김병수
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.819-827
    • /
    • 2009
  • 김인영 등 (2006)은 두 개 포아송 분포의 혼합모형에 기초한 회귀모형으로써 2002년 (사)볼런티어 21에서 실시한 설문조사 자료를 분석하여 우리나라 개인들이 기부한 횟수에 영향을 미치는 유의적 변수들을 식별하였다. 본고에서는 김인영 등 (2006)에서도 언급하였듯이 기부횟수 0의 관찰 빈도와 예측 빈도간 차이가 유독 큰 점을 감안하여, 0이 팽창된 포아송(zero inflated Poisson: ZIP)을 기존의 두 개의 포아송 혼합분포에 추가하여 일종의 세 개 포아송 혼합분포 형태로 모집단 분포를 구성하며 동 모형의 회귀모형으로써 기부횟수 자료를 재분석하고자 한다. 회귀계수에 대한 추정은 두 단계 EM 알고리즘으로 이루어 졌고, 유의적 설명 변수의 검색은 김인영 등 (2006)과 같았으나 본 연구에서는 고정된 령(零)군의 비율을 0.201로 추정할 수 있었으며, 두 가지 유의적 설명변수인 소득과 자원봉사 중에서 자원봉사가 기부 횟수를 늘리는 안정적 도구 변수로써 작용할 수 있음을 보고하고 있다.

영 과잉 순서적 프로빗 모형을 이용한 한국인의 음주자료에 대한 베이지안 분석 (Bayesian Analysis of Korean Alcohol Consumption Data Using a Zero-Inflated Ordered Probit Model)

  • 오만숙;오현탁;박세미
    • 응용통계연구
    • /
    • 제25권2호
    • /
    • pp.363-376
    • /
    • 2012
  • 순서적 다항 반응변수의 경우 종종 과도하게 많은 수의 관측치가 0 범주에서 발생하는 영 과잉 특성을 지닌다. 이러한 영 과잉 자료에서 0범주를 발생시키는 요인이 여러 개 존재할 때 일반적인 순서적 프로빗 모형은 자료를 설명함에 있어서 한계를 지닌다. 본 논문에서는 영 과잉 특성을 반영한 이 단계 영 과잉 순서적 프로빗 모형의 베이지안 분석기법을 제시하고 이를 2008년도 통계청에서 조사한 한국인의 음주소비 자료에 적용시킨다. 첫 번째 단계에서는 음주소비가 하나도 없다고 답한 0 범주에 속하는 비음주자들을 신념 또는 영구적 건강상의 문제 등으로 상황에 관계없이 음주를 하지 않는 절대적 비음주자(genuine non-drinker, non-participant)와 현재 소비가 없지만 상황에 따라 음주자가 될 가능성이 있는 잠재적 음주자(zero consumption potential drinker)로 구분하는 프로빗 모형을 적용시켜 분석한다. 두 번째 단계에서는 잠재적 음주자와 1 이상의 범주에 속하는 실제적 음주자를 합하여 음주자 집단으로 보고 이에 대하여 순서적 프로빗 모형을 적용하여 분석한다. 분석결과, 비음주자 중 약 30%가 절대적 비음주자로 음주자료가 일반적 순서적 자료에 비하여 뚜렷한 영 과잉 특성을 가짐을 알 수 있었다. 각 변수의 한계효과를 분석함으로써 같은 설명변수가 절대적 비음주자와 잠재적 음주자에 미치는 영향이 서로 반대로 나타날 수 있음을 발견하였고, 따라서 한국인의 음주자료에 대하여 제안된 영 과잉 순서적 프로빗 모형이 유용함을 보여주었다.