• Title/Summary/Keyword: 임의결측

Search Result 30, Processing Time 0.025 seconds

패널자료의 종단적 결측패턴에 관한 실증분석 연구

  • Son, Chang-Gyun
    • Proceedings of the Korean Association for Survey Research Conference
    • /
    • 2011.10a
    • /
    • pp.273-285
    • /
    • 2011
  • 본 논문에서는 패널조사와 같은 종단면 연구에서 시간의 흐름에 따라 패널의 노후화 등의 원인으로 각 조사주기별로 발생하는 무응답(결측)에 대해 특정한 패널집단을 대상으로 무응답 패턴을 통계모형을 이용하여 분석하였다. 이러한 무응답 패턴분석을 기반으로 결측자료가 존재하는 종단자료의 분석에서 적절한 방법을 선택하여 분석을 수행할수 있으며, 만일 무응답 대체가 필요한 경우 적절한 대체 방법을 결정할 수 있을 것이다. 횡단면 조사와는 달리 이용가능한 보조정보가 각 웨이브별로 다양하게 존재하며, 이와 같은 보조정보를 무응답 대체에 활용할수 있다면, 결측자료가 존재하는 패널 자료에 비해 전통적인 통계분석 방법을 적용하여 표준적인 결과를 산출할 수 있을 것으로 기대된다.

  • PDF

Comparison of GEE Estimation Methods for Repeated Binary Data with Time-Varying Covariates on Different Missing Mechanisms (시간-종속적 공변량이 포함된 이분형 반복측정자료의 GEE를 이용한 분석에서 결측 체계에 따른 회귀계수 추정방법 비교)

  • Park, Boram;Jung, Inkyung
    • The Korean Journal of Applied Statistics
    • /
    • v.26 no.5
    • /
    • pp.697-712
    • /
    • 2013
  • When analyzing repeated binary data, the generalized estimating equations(GEE) approach produces consistent estimates for regression parameters even if an incorrect working correlation matrix is used. However, time-varying covariates experience larger changes in coefficients than time-invariant covariates across various working correlation structures for finite samples. In addition, the GEE approach may give biased estimates under missing at random(MAR). Weighted estimating equations and multiple imputation methods have been proposed to reduce biases in parameter estimates under MAR. This article studies if the two methods produce robust estimates across various working correlation structures for longitudinal binary data with time-varying covariates under different missing mechanisms. Through simulation, we observe that time-varying covariates have greater differences in parameter estimates across different working correlation structures than time-invariant covariates. The multiple imputation method produces more robust estimates under any working correlation structure and smaller biases compared to the other two methods.

Filling in Hydrological Missing Data Using Imputation Methods (Imputation Method를 활용한 수문 결측자료의 보정)

  • Kang, Tae-Ho;Hong, Il-Pyo;Km, Young-Oh
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2009.05a
    • /
    • pp.1254-1259
    • /
    • 2009
  • 과거 관측된 수문자료는 분석을 통해 다양한 수문모형의 평가 및 예측과 수자원 정책결정에서 활용된다. 하지만 관측장비의 오작동 및 관측범위의 한계에 의해 수집된 자료에는 결측이 존재한다. 단순히 결측이 존재하는 벡터를 제외하거나, 결측이 존재하는 자료 구간에 선형성이 존재한다는 가정 하에 평균을 활용하기도 했으나, 이로 인하여 자료의 통계특성에 왜곡이 야기될 수 있다. 본 연구는 결측의 보정으로 자료가 보유하는 정보의 손실 및 왜곡을 최소화 할 수 있는 방안을 연구하고자 한다. 자료의 결측은 크게 완벽한 무작위 결측(missing completely at random, MCAR), 무작위 결측(missing at random, MAR), 무작위성이 없는 결측(nonrandom missingness)으로 분류되며, 수문자료는 결측을 포함한 기간이 그 외 기간의 자료와 통계적으로 동일하지는 않지만 결측자료의 추정이 가능한 MAR에 속하는 것이 일반적이므로 이를 가정으로 결측을 보정하였다. Local Lest Squares Imputation(LLSimput)을 결측의 추정을 위해 사용하였으며, 기존에 쉽게 사용되던 선형보간법과 비교하였다. 적용성 평가를 위해 소양강댐 일 유입량 자료에 1 - 5 %의 결측자료를 임의로 생성하였다. 동일한 양의 결측자료에 대해 100개의 셋을 사용하여 보정의 불확실성 범위를 적용된 방법에 대해 비교..평가하였으며, 결측 증가에 따른 보정효과의 변화를 검토하였다. Normalized Root Mean Squared Error(NRMSE)를 사용하여 적용된 두 방법을 평가한 결과, (1) 결측자료의 비가 낮을수록 간단한 선형보간법을 사용한 보정이 효과적이었다. (2) 하지만 결측의 비가 증가할수록 선형보간법의 보정효과는 점차 큰 불확실성과 낮은 보정효과를 보인 반면, (3) LLSimpute는 결측의 증가에 관계없이 일정한 보정효과 및 불확실성 범위를 나타내는 것으로 드러났다.

  • PDF

Evaluation of Gapfilling Method of Missing Soil Moisture Values during Rainfall Period - Gapfilling Method Based on Culmulative Distribution Function (강우기간의 토양수분량 결측값 보간방법 평가 - 누적분포함수를 이용한 결측 보간)

  • Yong Jun Lee;Ki young Kim
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.299-299
    • /
    • 2023
  • 토양수분(soil moisture)은 수문인자의 하나로서 토양 내에 함유된 물의 양을 의미하며, 그 총량은 미미하지만 대기와 지표면 사이에서 일어나는 복잡한 물순환과 에너지 교환을 이해하는데 있어 필수적이다. 현재 국내에서는 「수자원의 조사·계획 및 관리에 관한 법률」(이하 수자원법)에 근거해 토양수분량 관측이 이루어지고 있으며, 수자원 분야의 한국수자원조사기술원 외에도 농업, 임업 분야에서도 다양한 기관에서 지상관측소를 구축해 토양수분량을 측정하고 있다. 국내 지상관측소에서는 주로 지점규모(point scale)로 토양수분량을 관측하는 장비가 사용되고 있으며, 유전율식 장비인 TDR(Time Domain Reflectometry), FDR(Frequency Domain Reflectometry)이나 토양수분장력을 측정하는 장력계(Tensiometer)가 널리 쓰이고 있다. 수자원분야에서는 토양 내 수분의 양을 직관적으로 확인할 수 있는 유전율식 장비가 대중적으로 사용되고 있으며, 최근에는 우주선(Cosmic-Ray)으로부터 발생하는 고속중성자(Fast Neutron)를 통해 중규모 면단위(field scale) 토양수분량을 관측하는 장비인 CRNP(Cosmic-Ray Neutron Probe)에 대한 연구도 활발히 진행되고 있다. 이러한 장비는 주로 야외에 설치해 운영하고 있기 때문에 장비 훼손이나 전원공급의 어려움으로 결측이나 오측이 발생할 수 있다. 토양수분량 시계열자료의 결측이나 오측이 일반적인 감쇄기에 발생했다면 선형보간법으로도 간단히 보간할 수 있지만, 강우에 의한 상승기에 발생했다면 해당 강우사상에서의 토양수분량의 상한치를 알기 어려워 결측보간에 어려움이 있다. 본 연구에서는 토양수분량 시계열자료의 강우기간 결측을 보간하는 방법으로 누적분포함수 역변환 샘플링방법을 선택하였다. 연구에는 음성군(차곡리) 토양수분량 관측소 2021년 자료가 사용되었으며, 관측소 56개 지점 중 임의의 지점에 결측구간을 생성한 뒤 해당 지점과의 상관계수가 높은 지점의 누적분포함수를 이용해 역변환 샘플링 방식으로 임의 지점의 결측을 보간하고 그 결과를 기존값과 비교해 보간 방법의 정확도를 평가하였다.

  • PDF

Development of gap filling technique for statistical downscaling of cimate change scenario data (기후변화 시나리오 자료의 통계적 상세화를 위한 결측자료 보정 기법 개발)

  • Cho, Jaepil;Kim, Kwang-Hyung;Park, Jihoon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2019.05a
    • /
    • pp.16-16
    • /
    • 2019
  • 기후변화 시나리오 및 계절예측 자료를 포함한 기후정보를 수자원 분야에 활용하기 위해서는 기후정보의 시 공간적인 상세화(donwscaling)을 필요로 한다. 상세화의 경우 역학적 상세화와 통계학적 상세화로 구분될 수 있으며, 통계학적 상세화를 위해서는 대상 지역의 기후특성을 대표할 수 있는 장기 관측 자료의 확보가 중요하다. 국내의 경우에는 자동기상관측장비(Automatic Weather System, AWS)와 종관기상관측장비(Automatic Synoptic Observation System, ASOS)로 부터 수집된 기상관측자료를 사용할 수 있으나 기후변화 시나리오의 통계적 상세화를 위해서는 30년 이상의 자료 기간을 포함하는 ASOS 자료가 적합하다. 하지만 개발도상국과 같이 기상관측기반이 열악한 지역에서는 잦은 결측 등으로 인하여 품질이 좋은 관측자료의 획득이 어려운 상황이다. 따라서 본 연구에서는 측이 포함된 장기 기상관측 자료로부터 대상 지역의 기후특성을 재현할 수 있도록 기본적인 QC(Quality Control)을 거쳐 결측 자료를 보완할 수 있는 기법 및 R 기반패키지를 개발하여 적용성을 평가하였다. 개발된 기법의 적용성 평가를 위해서 기상청에서 QC를 통해 제공하고 있는 60개 ASOS 지점의 관측자료 중 강수량과 기온 변수를 사용하였다. 최대 50%까지의 현실적인 결측 패턴을 임의로 생성하기 위해 실제 개발도상국 관측자료의 일단위 결측 패턴을 이용하였다. 자료의 QC는 관측일 누락/중복 및 문자형 관측값 등 기본적인 오류 검사, 기온의 경우 물리적 허용 범위에 대한 검사, 최고기온과 최저기온의 비교 및 계측기 오작동에 의한 동일한 값의 반복 등을 포함한 내적 일치성 검사를 우선적으로 수행한다. 이후 결측값에 대해서 인근 기상관측소와의 상관성 분석 결과를 기반으로 결측값을 채우고, 최종적으로는 다양한 위성자료 및 재분석 자료 중에서 일단위 기후특성의 재현성 평가를 통해 선정된 격자형 자료와의 상관성 분석 결과를 기반으로 결측값을 보정하였다. 기온의 경우는 결측률이 높더라도 월평균 기후특성에 큰 영향을 미치지 않았지만 강수의 경우에는 5% 이상의 결측이 발생하는 경우 월평균 강수량에 영향을 미쳐 지역의 강수량을 과소 추정하는 결과를 보였다. 개발된 QC 기법을 강수 자료에 적용한 결과 월평균 기후특성을 잘 복원하는 결과를 보였지만, 일단위 강우 사상의 재현에 있어서는 미흡한 결과를 보였다.

  • PDF

Monte Carlo Random Permutation Tests for Incompletely Ranked Data (불완전 순위 자료를 위한 몬테칼로 임의순열 검정)

  • Huh, Myung-Hoe;Choi, Won
    • The Korean Journal of Applied Statistics
    • /
    • v.14 no.1
    • /
    • pp.191-199
    • /
    • 2001
  • 본 소고는 n명의 심사자가 k개의 객체를 평가하여 얻어진 불완전 순위자료에서 객체간 선호도에 있어 차이가 없다는 영가설을 검정하는 방법에 관한 연구이다. 주어진 자료에서 결측값들을 다중대체하는 방식을 제안하고 이들을 평균 p-값으로 묶는 몬테칼로방식의 임의순열 검정을 제안한다.

  • PDF

Analysis of Missing Data Using an Empirical Bayesian Method (경험적 베이지안 방법을 이용한 결측자료 연구)

  • Yoon, Yong Hwa;Choi, Boseung
    • The Korean Journal of Applied Statistics
    • /
    • v.27 no.6
    • /
    • pp.1003-1016
    • /
    • 2014
  • Proper missing data imputation is an important procedure to obtain superior results for data analysis based on survey data. This paper deals with both a model based imputation method and model estimation method. We utilized a Bayesian method to solve a boundary solution problem in which we applied a maximum likelihood estimation method. We also deal with a missing mechanism model selection problem using forecasting results and a comparison between model accuracies. We utilized MWPE(modified within precinct error) (Bautista et al., 2007) to measure prediction correctness. We applied proposed ML and Bayesian methods to the Korean presidential election exit poll data of 2012. Based on the analysis, the results under the missing at random mechanism showed superior prediction results than under the missing not at random mechanism.

Modelling Missing Traffic Volume Data using Circular Probability Distribution (순환확률분포를 이용한 교통량 결측자료 보정 모형)

  • Kim, Hyeon-Seok;Im, Gang-Won;Lee, Yeong-In;Nam, Du-Hui
    • Journal of Korean Society of Transportation
    • /
    • v.25 no.4
    • /
    • pp.109-121
    • /
    • 2007
  • In this study, an imputation model using circular probability distribution was developed in order to overcome problems of missing data from a traffic survey. The existing ad-hoc or heuristic, model-based and algorithm-based imputation techniques were reviewed through previous studies, and then their limitations for imputing missing traffic volume data were revealed. The statistical computing language 'R' was employed for model construction, and a mixture of von Mises probability distribution, which is classified as symmetric, and unimodal circular probability were finally fitted on the basis of traffic volume data at survey stations in urban and rural areas, respectively. The circular probability distribution model largely proved to outperform a dummy variable regression model in regards to various evaluation conditions. It turned out that circular probability distribution models depict circularity of hourly volumes well and are very cost-effective and robust to changes in missing mechanisms.

A longitudinal data analysis for child academic achievement with Korea welfare panel study data (경시적 자료를 이용한 아동 학업성취도 분석)

  • Lee, Naeun;Huh, Jib
    • Journal of the Korean Data and Information Science Society
    • /
    • v.28 no.1
    • /
    • pp.1-10
    • /
    • 2017
  • Longitudinal data of Korean child academic achievement have been used to find the significant exploratory variables under the assumption of independent repeated measured data. Using the exploratory variables in previous research works, we analyze the linear mixed model incorporating the fixed and random effects for child academic achievement to detect the significant exploratory variables. Korea welfare panel study data observed three times between 2006 and 2012 by additional survey for children. The child academic achievement is evaluated by the sum of academic achievements of Korean, English and Mathematics. We also investigate the multicollinearity and the missing mechanism and select some popular correlation matrices to analyze the linear mixed model.

Comparison of GEE Estimators Using Imputation Methods (대체방법별 GEE추정량 비교)

  • 김동욱;노영화
    • The Korean Journal of Applied Statistics
    • /
    • v.16 no.2
    • /
    • pp.407-426
    • /
    • 2003
  • We consider the missing covariates problem in generalized estimating equations(GEE) model. If the covariate is partially missing, GEE can not be calculated. In this paper, we study the performance of 7 imputation methods to handle missing covariates in GEE models, and the properties of GEE estimators are investigated after missing covariates are imputed for ordinal data of repeated measurements. The 7 imputation methods include i) Naive Deletion ii) Sample Average Imputation iii) Row Average Imputation iv) Cross-wave Regression Imputation v) Carry-over Imputation vi) Bayesian Bootstrap vii) Approximate Bayesian Bootstrap. A Monte-Carlo simulation is used to compare the performance of these methods. For the missing mechanism generating the missing data, we assume ignorable nonresponse. Furthermore, we generate missing covariates with or without considering wave nonresp onse patterns.