In this paper, Tobit and Heckit models are introduced. These models have been used for analyzing censored data. Censoring occurs at a specific point and a large number of observations are distributed with a positive probability at a certain point. Censoring can occur due to observing limitation or exogenous variables. Tobit and Heckit models are used to correct sample selection bias, which can occur when an ordinary linear regression model is fitted to censored data. However, the difference between the two models is not clearly accounted for; hence, they have often been used interchangeably. Therefore, the suitability of the models was validated through simulated data, and demonstrated through real data. As the result, it was confirmed that both Tobit and Heckit models are well-fitted to the data censored due to observing limitation, although Tobit model was fitted parsimoniously. In contrast, only Heckit model is well-fitted to the data censored due to exogenous variables.
본 논문에서는 Tobit 모형과 Heckit 모형을 소개한다. 이러한 모형은 절단된 자료의 분석에 사용되는데, 이때 절단된 자료란 연속형 자료가 아닌 특정 지점에서 절단이 발생하게 되거나 일정한 지점에서 개체가 양의 확률로 개체의 다수가 분포, 다른 영역에서는 연속형의 형태로 분포하는 자료를 의미한다. 이때 절단된 형태의 자료라는 특성을 고려하여 일반적인 선형회귀모형을 적합하는 경우 발생하는 문제점을 교정하고자 Tobit 및 Heckit 모형을 사용하나, 두 모형의 차이점이 명확하게 고려되지 않고 종종 혼용된 채 사용되었다. 따라서 여기서는 절단된 자료의 형태를 가정별로 세분화하여 모의자료를 통해 먼저 모형의 적합성을 비교하였으며, 이후 실제 자료를 바탕으로 모형을 적합하였다. 그 결과 절단 여부에 영향을 주는 잠재변수가 없는 경우 Tobit 및 Heckit 모형 모두 잘 적합되나 Tobit 모형이 간소하면서도 참값에 더 근접하게 적합되는 것을 확인하였다. 하지만 절단 여부에 영향을 주는 잠재변수가 존재하는 경우에는 Heckit 모형만 적합이 잘 되는 것을 확인하였다.
Heckman JJ (1979). Sample selection bias as a specification error. Econometrica: Journal of the Econometric Society, 153-161.
Henningsen A (2010). Estimating censored regression models in R using the censReg Package. R package vignettes, 5, 12.
Lee JG, Kim TJ, and Kwon KH (2009). An empirical analysis on the pattern of private tutoring expenditure and the effect on its reduction policy-using Tobit model and Heckman selection model. The Journal of Korean Education, 36(2), 189-221.https://doi.org/10.22804/JKE.2009.36.2.009
Tobin J (1958). Estimation of relationships for limited dependent variables. Econometrica: Journal of the Econometric Society, 24-36.
Toomet O and Henningsen A (2008). Sample selection models in R: Package sampleSelection. Journal of Statistical Software, 27(7), 1-23.