초록
농촌생활지표조사는 2000년부터 농촌자원개발연구소에서 매년 실시하는 조사로서 통계청 승인통계이다. 본 연구에서는 2005년 농촌생활지표조사에 사용된 원자료를 이용하였다. 원자료에 대한 에디팅 과정을 거친 후 무응답이 포함된 개체를 제거하여 얻어진 1,582 가구를 대 상으로 하였으며 총 146문항 중에서 최종 선택되어진 15문항을 증심으로 무응답 대체를 실시하였다. 실험에 사용된 대체법과 각 대체법의 효율성은 자료의 종류에 따라 다르게 적용되었다. 먼저 연속형 자료에 대해서는 평균대체, 회귀대체, 수정된 그레이 기반 k-NN 대체(DU, DW, WU, WW) 방법을 사용하여 무응답을 대체하고 RMSB를 이용하여 실험결과를 비교하였으며, 범주형 자료에 대해서는 최빈값 이용, 확률 대체, 조건부 최빈간 이용, 조건부 학률 대체, 단순 임의 핫덱 대체 방법을 사용하여 무응답을 대체하고 정확도(Accuracy)를 이용하여 실험 결과를 비교하였다. 실험 결과에 의하면 연속형 자료에 대해서는 회귀대체 또는 그레이 기반 k-NN 대체가 적절하고, 범주형 자료에 대해서는 핫덱 대체가 가장 적절한 것으로 나타났다.
Survey on the rural living indicators was the statistic approved from National Statistical Office and the survey executed by rural resources development institute. This study was used the raw data of survey on the rural living indicators in 2005. After editing procedure for raw data, we were studied 1,582 households which is acquired through elimination of case included nonresponses, and imputed a nonresponses of 15 item selected from 146 item. The imputation methods and efficiency of imputation for simulation was adapted differently from type of data. For continuous data, we imputed the nonresponses with mean imputation, regression imputation, adjusted grey-based k-NN imputation(DU, DW, WU, WW) and compared the results with RMSE. For categorical data, we imputed the nonresponses with mode method, probability imputation, conditional mode method, conditional probability method, hot-deck imputation, and compared the results with Accuracy. By the results, regression imputation and adjusted grey-based k-NN imputation appropriated for continuous data and hot-deck imputation appropriated for categorical data.