• 제목/요약/키워드: 임의결측

검색결과 30건 처리시간 0.022초

패널자료의 종단적 결측패턴에 관한 실증분석 연구

  • 손창균
    • 한국조사연구학회:학술대회논문집
    • /
    • 한국조사연구학회 2011년도 추계학술대회 발표논문집
    • /
    • pp.273-285
    • /
    • 2011
  • 본 논문에서는 패널조사와 같은 종단면 연구에서 시간의 흐름에 따라 패널의 노후화 등의 원인으로 각 조사주기별로 발생하는 무응답(결측)에 대해 특정한 패널집단을 대상으로 무응답 패턴을 통계모형을 이용하여 분석하였다. 이러한 무응답 패턴분석을 기반으로 결측자료가 존재하는 종단자료의 분석에서 적절한 방법을 선택하여 분석을 수행할수 있으며, 만일 무응답 대체가 필요한 경우 적절한 대체 방법을 결정할 수 있을 것이다. 횡단면 조사와는 달리 이용가능한 보조정보가 각 웨이브별로 다양하게 존재하며, 이와 같은 보조정보를 무응답 대체에 활용할수 있다면, 결측자료가 존재하는 패널 자료에 비해 전통적인 통계분석 방법을 적용하여 표준적인 결과를 산출할 수 있을 것으로 기대된다.

  • PDF

시간-종속적 공변량이 포함된 이분형 반복측정자료의 GEE를 이용한 분석에서 결측 체계에 따른 회귀계수 추정방법 비교 (Comparison of GEE Estimation Methods for Repeated Binary Data with Time-Varying Covariates on Different Missing Mechanisms)

  • 박보람;정인경
    • 응용통계연구
    • /
    • 제26권5호
    • /
    • pp.697-712
    • /
    • 2013
  • 다시점 자료 연구에서 일반화추정방정식은 가상관행렬을 잘못 가정하더라도 모수의 일치추정량을 도출하므로 많이 이용된다. 하지만, 결측 체계가 완전임의결측이 아닌 경우에는 편의추정량을 제공하고, 시간-종속적 공변량이 포함된 경우에는 가상관행렬에 따라 회귀계수 추정값이 다르게 도출될 수 있는 문제점이 있다. 결측 체계가 임의결측인 경우에 발생하는 문제를 해결하기 위해 가중 방법과 다중대체 방법을 사용하는 것이 제안되었다. 본 논문에서는 시간-종속적 공변량이 포함된 이분형 반복측정자료를 GEE를 이용하여 분석할 때 다양한 결측 체계에서 일반화추정방정식 방법, 가중 방법, 다중대체 방법의 회귀계수 추정에 대한 로버스트성과 정확성을 모의실험을 통하여 비교해 보았다. 세 가지 방법 모두에서 시간-종속적 공변량의 회귀계수가 시간-독립적 공변량의 회귀계수에 비해 가상관행렬에 따라 추정값의 차이가 크게 나타났다. 다른 두 방법에 비해 다중대체 방법이 가상관행렬의 형태에 대해 더 로버스트하고 편의도 작은 추정치를 도출하였다.

Imputation Method를 활용한 수문 결측자료의 보정 (Filling in Hydrological Missing Data Using Imputation Methods)

  • 강태호;홍일표;김영오
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2009년도 학술발표회 초록집
    • /
    • pp.1254-1259
    • /
    • 2009
  • 과거 관측된 수문자료는 분석을 통해 다양한 수문모형의 평가 및 예측과 수자원 정책결정에서 활용된다. 하지만 관측장비의 오작동 및 관측범위의 한계에 의해 수집된 자료에는 결측이 존재한다. 단순히 결측이 존재하는 벡터를 제외하거나, 결측이 존재하는 자료 구간에 선형성이 존재한다는 가정 하에 평균을 활용하기도 했으나, 이로 인하여 자료의 통계특성에 왜곡이 야기될 수 있다. 본 연구는 결측의 보정으로 자료가 보유하는 정보의 손실 및 왜곡을 최소화 할 수 있는 방안을 연구하고자 한다. 자료의 결측은 크게 완벽한 무작위 결측(missing completely at random, MCAR), 무작위 결측(missing at random, MAR), 무작위성이 없는 결측(nonrandom missingness)으로 분류되며, 수문자료는 결측을 포함한 기간이 그 외 기간의 자료와 통계적으로 동일하지는 않지만 결측자료의 추정이 가능한 MAR에 속하는 것이 일반적이므로 이를 가정으로 결측을 보정하였다. Local Lest Squares Imputation(LLSimput)을 결측의 추정을 위해 사용하였으며, 기존에 쉽게 사용되던 선형보간법과 비교하였다. 적용성 평가를 위해 소양강댐 일 유입량 자료에 1 - 5 %의 결측자료를 임의로 생성하였다. 동일한 양의 결측자료에 대해 100개의 셋을 사용하여 보정의 불확실성 범위를 적용된 방법에 대해 비교..평가하였으며, 결측 증가에 따른 보정효과의 변화를 검토하였다. Normalized Root Mean Squared Error(NRMSE)를 사용하여 적용된 두 방법을 평가한 결과, (1) 결측자료의 비가 낮을수록 간단한 선형보간법을 사용한 보정이 효과적이었다. (2) 하지만 결측의 비가 증가할수록 선형보간법의 보정효과는 점차 큰 불확실성과 낮은 보정효과를 보인 반면, (3) LLSimpute는 결측의 증가에 관계없이 일정한 보정효과 및 불확실성 범위를 나타내는 것으로 드러났다.

  • PDF

강우기간의 토양수분량 결측값 보간방법 평가 - 누적분포함수를 이용한 결측 보간 (Evaluation of Gapfilling Method of Missing Soil Moisture Values during Rainfall Period - Gapfilling Method Based on Culmulative Distribution Function)

  • 이용준;김기영
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.299-299
    • /
    • 2023
  • 토양수분(soil moisture)은 수문인자의 하나로서 토양 내에 함유된 물의 양을 의미하며, 그 총량은 미미하지만 대기와 지표면 사이에서 일어나는 복잡한 물순환과 에너지 교환을 이해하는데 있어 필수적이다. 현재 국내에서는 「수자원의 조사·계획 및 관리에 관한 법률」(이하 수자원법)에 근거해 토양수분량 관측이 이루어지고 있으며, 수자원 분야의 한국수자원조사기술원 외에도 농업, 임업 분야에서도 다양한 기관에서 지상관측소를 구축해 토양수분량을 측정하고 있다. 국내 지상관측소에서는 주로 지점규모(point scale)로 토양수분량을 관측하는 장비가 사용되고 있으며, 유전율식 장비인 TDR(Time Domain Reflectometry), FDR(Frequency Domain Reflectometry)이나 토양수분장력을 측정하는 장력계(Tensiometer)가 널리 쓰이고 있다. 수자원분야에서는 토양 내 수분의 양을 직관적으로 확인할 수 있는 유전율식 장비가 대중적으로 사용되고 있으며, 최근에는 우주선(Cosmic-Ray)으로부터 발생하는 고속중성자(Fast Neutron)를 통해 중규모 면단위(field scale) 토양수분량을 관측하는 장비인 CRNP(Cosmic-Ray Neutron Probe)에 대한 연구도 활발히 진행되고 있다. 이러한 장비는 주로 야외에 설치해 운영하고 있기 때문에 장비 훼손이나 전원공급의 어려움으로 결측이나 오측이 발생할 수 있다. 토양수분량 시계열자료의 결측이나 오측이 일반적인 감쇄기에 발생했다면 선형보간법으로도 간단히 보간할 수 있지만, 강우에 의한 상승기에 발생했다면 해당 강우사상에서의 토양수분량의 상한치를 알기 어려워 결측보간에 어려움이 있다. 본 연구에서는 토양수분량 시계열자료의 강우기간 결측을 보간하는 방법으로 누적분포함수 역변환 샘플링방법을 선택하였다. 연구에는 음성군(차곡리) 토양수분량 관측소 2021년 자료가 사용되었으며, 관측소 56개 지점 중 임의의 지점에 결측구간을 생성한 뒤 해당 지점과의 상관계수가 높은 지점의 누적분포함수를 이용해 역변환 샘플링 방식으로 임의 지점의 결측을 보간하고 그 결과를 기존값과 비교해 보간 방법의 정확도를 평가하였다.

  • PDF

기후변화 시나리오 자료의 통계적 상세화를 위한 결측자료 보정 기법 개발 (Development of gap filling technique for statistical downscaling of cimate change scenario data)

  • 조재필;김광형;박지훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.16-16
    • /
    • 2019
  • 기후변화 시나리오 및 계절예측 자료를 포함한 기후정보를 수자원 분야에 활용하기 위해서는 기후정보의 시 공간적인 상세화(donwscaling)을 필요로 한다. 상세화의 경우 역학적 상세화와 통계학적 상세화로 구분될 수 있으며, 통계학적 상세화를 위해서는 대상 지역의 기후특성을 대표할 수 있는 장기 관측 자료의 확보가 중요하다. 국내의 경우에는 자동기상관측장비(Automatic Weather System, AWS)와 종관기상관측장비(Automatic Synoptic Observation System, ASOS)로 부터 수집된 기상관측자료를 사용할 수 있으나 기후변화 시나리오의 통계적 상세화를 위해서는 30년 이상의 자료 기간을 포함하는 ASOS 자료가 적합하다. 하지만 개발도상국과 같이 기상관측기반이 열악한 지역에서는 잦은 결측 등으로 인하여 품질이 좋은 관측자료의 획득이 어려운 상황이다. 따라서 본 연구에서는 측이 포함된 장기 기상관측 자료로부터 대상 지역의 기후특성을 재현할 수 있도록 기본적인 QC(Quality Control)을 거쳐 결측 자료를 보완할 수 있는 기법 및 R 기반패키지를 개발하여 적용성을 평가하였다. 개발된 기법의 적용성 평가를 위해서 기상청에서 QC를 통해 제공하고 있는 60개 ASOS 지점의 관측자료 중 강수량과 기온 변수를 사용하였다. 최대 50%까지의 현실적인 결측 패턴을 임의로 생성하기 위해 실제 개발도상국 관측자료의 일단위 결측 패턴을 이용하였다. 자료의 QC는 관측일 누락/중복 및 문자형 관측값 등 기본적인 오류 검사, 기온의 경우 물리적 허용 범위에 대한 검사, 최고기온과 최저기온의 비교 및 계측기 오작동에 의한 동일한 값의 반복 등을 포함한 내적 일치성 검사를 우선적으로 수행한다. 이후 결측값에 대해서 인근 기상관측소와의 상관성 분석 결과를 기반으로 결측값을 채우고, 최종적으로는 다양한 위성자료 및 재분석 자료 중에서 일단위 기후특성의 재현성 평가를 통해 선정된 격자형 자료와의 상관성 분석 결과를 기반으로 결측값을 보정하였다. 기온의 경우는 결측률이 높더라도 월평균 기후특성에 큰 영향을 미치지 않았지만 강수의 경우에는 5% 이상의 결측이 발생하는 경우 월평균 강수량에 영향을 미쳐 지역의 강수량을 과소 추정하는 결과를 보였다. 개발된 QC 기법을 강수 자료에 적용한 결과 월평균 기후특성을 잘 복원하는 결과를 보였지만, 일단위 강우 사상의 재현에 있어서는 미흡한 결과를 보였다.

  • PDF

불완전 순위 자료를 위한 몬테칼로 임의순열 검정 (Monte Carlo Random Permutation Tests for Incompletely Ranked Data)

  • 허명회;최원
    • 응용통계연구
    • /
    • 제14권1호
    • /
    • pp.191-199
    • /
    • 2001
  • 본 소고는 n명의 심사자가 k개의 객체를 평가하여 얻어진 불완전 순위자료에서 객체간 선호도에 있어 차이가 없다는 영가설을 검정하는 방법에 관한 연구이다. 주어진 자료에서 결측값들을 다중대체하는 방식을 제안하고 이들을 평균 p-값으로 묶는 몬테칼로방식의 임의순열 검정을 제안한다.

  • PDF

경험적 베이지안 방법을 이용한 결측자료 연구 (Analysis of Missing Data Using an Empirical Bayesian Method)

  • 윤용화;최보승
    • 응용통계연구
    • /
    • 제27권6호
    • /
    • pp.1003-1016
    • /
    • 2014
  • 조사를 통하여 수집된 자료에 기반하여 분석을 수행하는데 있어서 결측값에 대한 적절한 대체 방법은 보다 정확한 결과를 얻기 위한 매우 중요한 절차이다. 본 연구에서는 모형에 기반하여 결측자료에 대한 대체방법과 모형 추정방법을 다루었다. 특히 최대우도추정 방법의 적용에서 발생할 수 있는 변방값 문제(bounday soluntion problem)를 해결하기 위하여 베이지안 방법을 적용하였다. 분석된 결과를 바탕으로 하여 예측을 수행한 후 결측체계에 따른 정확성 비교를 수행하여 결측체계에 따른 결측모형의 선택 문제를 다루었다. 예측의 정확도를 측정하기 위하여 Bautista 등 (2007)이 제안한 MWPE(modified within precinct error) 이용하여 비교를 수행 하였다. 본 연구에서 제시된 방법들은 2012년에 시행된 제 18대 대통령 선거 당일 시행된 출구조사의 자료를 적용하여 분석을 수행하였다. 분석 결과 임의결측체계의 가정에 따른 결과가 비임의체계 가정에 따른 결과보다 예측의 정확도가 더 높았다.

순환확률분포를 이용한 교통량 결측자료 보정 모형 (Modelling Missing Traffic Volume Data using Circular Probability Distribution)

  • 김현석;임강원;이영인;남두희
    • 대한교통학회지
    • /
    • 제25권4호
    • /
    • pp.109-121
    • /
    • 2007
  • 자료결측의 심각성은 현실적으로 거의 대부분의 조사에서 발생한다. 비단 교통분야뿐만 아니라 인문사회 분야나 기상학, 생물학, 지구과학 등 모든 분야에서 인력식이든 기계식이든 조사 방식에 관계없이 발생한다. 교통자료 수집장비에서의 자료결측의 발생은 현실적으로 불가피한 현상으로 볼 수 있으며, 이와 같은 자료 수집과정에서 발생하는 결측을 신뢰성있게 추정하여 보정하였던 선행연구의 대부분은 교통량 자료의 결측값 보정시 통계적 검증없이 시간적인 임의의 종속성만 고려함으로서, 보정 성능이 떨어지는 단점을 노출하고 있다. 이들 연구에서 적용했던 기법들 또한, 교통량 자료가 가지고 있는 가장 큰 특징인 주기적 순환성(periodic circularity)이 제대로 반영되지 못함으로서 적용상 한계를 노출하고 있다. 본 연구는 현실적으로 거의 대부분의 조사과정에서 발생하는 자료결측의 심각성에 대한 인식을 토대로 대안으로 순환분포모형을 제안하였다. 이러한 자료결측 현상에 대응하고자 하였던 기존의 ad-hoc 또는 heuristic 보정 기법과 모형 기반 및 알고리즘 기반의 보정 기법에 관한 선행 연구의 고찰을 통하여 이들 기법들의 한계점을 확인하였다.

경시적 자료를 이용한 아동 학업성취도 분석 (A longitudinal data analysis for child academic achievement with Korea welfare panel study data)

  • 이나은;허집
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권1호
    • /
    • pp.1-10
    • /
    • 2017
  • 경시적 자료를 이용한 아동 학업성취도에 영향을 주는 요인을 찾기 위한 기존의 분석들은 각 아동의 반복 측정된 자료들이 독립이라고 가정한 모형을 주로 이용하였다. 본 연구에서는 기존 연구들에서 고려한 아동 학업성취도에 영향을 주는 변수들을 선택하여 반복 측정된 경시적 자료의 종속성을 고려한 고정효과와 임의효과를 포함하는 선형혼합모형으로 분석하여 아동 학업성취도에 영향을 주는 변수들은 무엇인지, 각 아동의 특성들이 반영되는 임의절편과 임의기울기가 있는지를 파악하는 것이 연구의 목적이다. 본 연구에 사용된 자료는 한국복지패널 1, 4, 7차 부가조사 중에서 아동용 설문문항에 대한 자료이고, 국어, 영어와 수학의 학업성취도 점수의 합을 아동 학업성취도로 한다. 선형혼합모형을 이용한 분석 시에 다중공선성의 검토와 결측치의 특성을 파악하고 적절한 오차의 상관행렬을 선택한다.

대체방법별 GEE추정량 비교 (Comparison of GEE Estimators Using Imputation Methods)

  • 김동욱;노영화
    • 응용통계연구
    • /
    • 제16권2호
    • /
    • pp.407-426
    • /
    • 2003
  • 본 연구에서는 범주형 반복측정자료의 일반화추정방정식(GEE)모형에서 결측이 발생할 경우 결측값 대체(imputation)방법들에 대한 성능을 비교하고자 한다. 설명변수 X가 부분적으로 결측을 갖는 경우 GEE추정량을 계산할 수 없다. 본 논문에서는 시점에 따라 값이 변하는 설명변수에 결측이 있는 경우 GEE모형에서 결측값을 추정하는 7가지의 대체방법을 다루며, 실제자료와 모의실험을 통하여 대체방법별 GEE추정량의 성질을 연구한다. 대체방법별 GEE추정량의 성능을 비교하기 위해 우리는 반응변수가 범주형인 반복측정모형에서 완전자료의 GEE추정량과 완전자료에서 결측을 생성하여 결측값에 각 대체방법을 적용하여 대체한 후 구한 GEE추정량을 비교한다. 대체방법으로는 (1) 단순삭제 (2) 표본 평균대체 (3) 행 평균대체 (4) 횡 시점 회귀대체 (5) 이월대체 (6) 베이지안 붓스트랩 (7) 근사적 베이지안 붓스트랩에 대해서 살펴본다. 결측과정(missing mechanism)은 무시할 수 있는 무응답(ignorable nonresponse)을 가정하며, 결측 발생에 대해서는 원자료의 시점 무응답 패턴(wave nonresponse pattern)을 고려하여 발생시키거나 또는 시점 무응답 패턴을 고려하지 않고 단순임의추출로 결측을 발생시키는 방법을 각각 고려한다.