Abstract
When conducting a survey, item nonresponse occurs if the respondent does not respond to some items. Since analysis based only on completely observed data may cause biased results, imputation is often conducted to analyze data in its complete form. The panel study is a survey method that examines changes of responses over time. In panel studies, there has been a preference for using information from response values of previous waves when the imputation of item nonresponses is performed; however, limited research has been conducted to support this preference. Therefore, this study compares the performance of imputation methods according to whether or not information from previous waves is utilized in the panel study. Among imputation methods that utilize information from previous responses, we consider ratio imputation, imputation based on the linear mixed model, and imputation based on the Bayesian linear mixed model approach. We compare the results from these methods against the results of methods that do not use information from previous responses, such as mean imputation and hot deck imputation. Simulation results show that imputation based on the Bayesian linear mixed model performs best and yields small biases and high coverage rates of the 95% confidence interval even at higher nonresponse rates.
설문조사를 실시할 때 응답자가 설문조사의 일부 문항에 대하여 응답하지 않는 경우 항목무응답이 발생한다. 무응답이 발생한 자료를 제외하고 완전하게 응답된 자료 만에 근거한 분석은 분석 결과에 편의가 발생할 수 있으므로, 이를 채워 넣어 완전한 형태의 자료로 분석하기 위해서 무응답 대체가 흔히 사용되고 있으며 여러 가지 무응답 대체 기법들을 비교하는 연구들도 많이 존재한다. 패널조사 연구는 연구 대상 패널에 대하여 정해진 시간에 따라 반복적으로 동일한 설문 문항에 대하여 응답을 조사하여 시간에 따른 변화를 살펴보는 조사 방법을 나타낸다. 패널조사 자료의 항목 무응답을 대체할 때 이전 시점의 응답 자료가 존재한다면 이를 포함하여 대체를 실시하는 것이 바람직한 것으로 여겨져 왔으나 이에 관한 직접적인 연구는 찾기 힘들다. 따라서 본 연구에서는 패널자료에서 이전 시점의 정보를 고려하지 않고 대체를 실시하는 방법과 이전 시점의 정보를 활용하여 대체하는 방법들 중에서 어느 대체 방법이 보다 적절한 대체를 제공하는지 살펴보았다. 특히 이전 시점의 응답 정보를 이용하는 방법인 비대체, 선형혼합모형을 이용한 대체와 선형혼합모형에 근거한 베이지안 대체 방법을 고려하였고, 이를 이전 시점의 정보를 고려하지 않는 대체 방법들 중 흔히 사용되는 평균대체, 핫덱대체 방법과 비교하였다. 모의실험 결과 선형혼합모형에 근거한 베이지 안 대체 방법이 다른 대체 방법에 비해 무응답 비율이 높아지더라도 편의도 작으며 평균에 관한 95% 신뢰구간의 포함률도 높게 나타나서 가장 좋은 대체 방법으로 확인되었다.