A Case Study of Data Editing for the Korean Housing Price Survey

주택가격동향조사를 위한 데이터편집 사례연구

  • 박진우 (수원대학교 통계정보학과) ;
  • 박현주 (수원대학교 통계정보학과) ;
  • 김진억 (국민은행 청약사업팀)
  • Published : 2005.01.01

Abstract

Large scale survey database may contain some erroneous data or missing data. Incomplete or erroneous data may be produced in the process of data collection or data capture. Since erroneous data can cause some bias and inconsistency, data editing, which is the procedure for detecting and adjusting individual errors in data records, is a very important work in statistical survey. In this paper, we introduce an editing process for the housing price survey to enhance discussions on that topic. We explain how to decide some appropriate edit rules and show some related data. Furthermore, we describe input editing procedures which is appropriate for on-line survey and how to find and eliminate erroneous data through output editing.

대규모 통계조사에서 수집된 데이터에는 오류나 결측값의 문제가 발생하기 마련이다. 조사, 데이터 입력, 데이터 처리 등의 과정에서 여러 가지 요인에 의해 이런 문제가 생길 수 있는데 이런 데이터를 방치한 채 통계를 생산할 경우 편향이나 다양한 분석에서의 불일치의 문제가 발생하게 되어 통계의 품질과 신뢰성을 떨어뜨릴 수 있으므로 수집된 데이터의 오류나 결측값을 찾아 수정하는 데이터편집은 매우 중요한 작업이다. 해외에서는 데이터편집의 문제를 공론화하여 다루고 있는 데 반해 우리나라에서 데이터편집에 관한 논의는 거의 없는 편이다. 본 연구의 목적은 주택가 격동향조사를 위한 데이터편집의 사례를 소개함으로 데이터편집에 대한 논의의 폭을 넓히는 데 있다. 조사목적에 맞도록 편집규칙을 정하는 과정 및 관련 자료들을 소개하고, 온라인조사라는 조사방식에 맞는 입력 데이터편집방법을 마련하여 실시하는 예들을 소개하며, 마지막으로 출력 데이터편집에 의해 입력 편집에서 걸러지지 않은 오류나 문제들을 제거하는 방법도 소개한다.

Keywords