A Case Study on the Construction of the Sampling Frame and Sampling Design for 2008 Seoul Survey

2008 서울서베이 표본추출틀 구축 및 표본추출 사례 연구

  • 강현철 (호서대학교 정보통계학과) ;
  • 박승열 ((주)월드리서치) ;
  • 김지연 ((주)밀워드브라운 미디어리서치) ;
  • 김인수 (서울시 정보화기획담당관실 통계분석팀) ;
  • 이동수 (서울시 정보화기획담당관실 통계분석팀) ;
  • 황재일 (서울시 정보화기획담당관실 통계분석팀) ;
  • 박민규 (고려대학교 통계학과)
  • Received : 2009.08.02
  • Accepted : 2009.10.29
  • Published : 2009.11.30

Abstract

For a survey research in which the characteristics of the population of interest are investigated from a sample, representativeness of the sampling frame is one of the most important part to be considered. If the sampling frame fails to represent the population properly, statistical procedures based on the even efficient sampling design result in significant nonsampling biases and thus the statistical validities of the results could be damaged. But the construction of the reliable sampling frame that covers the population properly costs money and time and thus the sampling frame based on a census or a large scale survey is often used in practice. For example, the sampling frame based on the population households census is used for many household surveys in Korea. But due to the time difference between the census and a survey of interest, the sampling frame constructed from the census is expected to fail to cover the population of interest. Especially, one could expect a large amount of population and household movement in a large city like Seoul. Thus in our research, we considered the construction of new sampling frame and the procedure of sample selection for 2008 Seoul survey. We analyzed the sampling frame based on 2005 population households census and found that it does not represent the population properly. Thus, we proposed a new sampling frame based on resident registration DB for 2008 Seoul survey. We also proposed the sampling weights and estimator of the population mean based on the sample selected from the newly constructed sampling frame.

추출된 표본을 바탕으로 관심 모집단의 특성을 파악하는 조사연구에 있어서는 실제로 표본이 추출되는 표본추출틀의 모집단 대표성이 매우 중요하다. 표본추출틀이 관심 모집단을 적절한 수준으로 포함하지 못하는 경우 심각한 표본추출틀 편향이 발생하게 되고 이로 인하여 효율적인 추출법에 의하여 추출된 표본의 통계적 신뢰도 역시 손상된다. 그러나 대규모 조사를 위한 표본추출틀의 구축은 시간과 비용의 측면에서 비효율적이고 따라서 국가에서 제공하는 전수 조사 기반의 표본추출틀이 흔히 사용된다. 대표적으로 국내의 가구조사를 위한 표본추출틀로는 매 5년마다 시행되는 인구주택총조사 기반의 자료가 사용된다. 그러나 인구주택총조사 기반 표본추출틀의 경우 인구주택총조사 시점과 실제 조사 시점과의 시간적 차이로 인한 표본추출틀의 모집단 대표성에 문제가 발생하게 된다. 특별히 인구 유동성이 심한 서울과 같은 대도시의 경우 시간의 경과에 따른 모집단 분포의 변화가 심하게 나타나리라 예측할 수 있다. 따라서 본 연구에서는 2008 서울서베이 가구 조사를 위해 새롭게 표본추출틀을 구축한 것과 새 표본추출틀을 기초로 하여 표본을 추출한 사례를 다룬다. 기존 인구주택총조사 기반 표본추출틀이 시간이 지남에 따라 대표성을 상실하는 문제점을 지적하고 주민등록 DB와 과세대장 DB를 기반으로 한 새로운 표본추출틀을 2008년 서울서베이 가구조사를 위한 표본추출틀로 제시하였다. 새롭게 작성된 표본추출틀로부터의 가구표본추출과정과 가중치 및 모평균 추정량 또한 제시되었다.

Keywords