• 제목/요약/키워드: missing data mechanism

검색결과 36건 처리시간 0.032초

Analysis of Incomplete Data with Nonignorable Missing Values

  • 김현정
    • Journal of the Korean Data and Information Science Society
    • /
    • 제13권2호
    • /
    • pp.167-174
    • /
    • 2002
  • In the case of "nonignorable missing data", it is necessary to assume a model dealing with the missing on each situations. In this article, for example, we sometimes meet situations where data set are income amounts in a survey of individuals and assume a model as the values are the larger, a missing data probability is the higher. The method is to maximize using the EM(Expectation and Maximization) algorithm based on the (missing data) mechanism that creates missing data of the case of exponential distribution. The method started from any initial values, and converged in a few iterations. We changed the missing data probability and the artificial data size to show the estimated accuracy. Then we discuss the properties of estimates.

  • PDF

On statistical Computing via EM Algorithm in Logistic Linear Models Involving Non-ignorable Missing data

  • Jun, Yu-Na;Qian, Guoqi;Park, Jeong-Soo
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2005년도 추계 학술발표회 논문집
    • /
    • pp.181-186
    • /
    • 2005
  • Many data sets obtained from surveys or medical trials often include missing observations. When these data sets are analyzed, it is general to use only complete cases. However, it is possible to have big biases or involve inefficiency. In this paper, we consider a method for estimating parameters in logistic linear models involving non-ignorable missing data mechanism. A binomial response and normal exploratory model for the missing data are used. We fit the model using the EM algorithm. The E-step is derived by Metropolis-hastings algorithm to generate a sample for missing data and Monte-carlo technique, and the M-step is by Newton-Raphson to maximize likelihood function. Asymptotic variances of the MLE's are derived and the standard error and estimates of parameters are compared.

  • PDF

The Interpolation Method for the missing AIS Data of Ship

  • Nguyen, Van-Suong;Im, Nam-kyun;Lee, Sang-min
    • 한국항해항만학회지
    • /
    • 제39권5호
    • /
    • pp.377-384
    • /
    • 2015
  • The interpolation of missing AIS data can be used for recovering the lost data of a ship's state which is then able to produce useful information for VTS stations or other ships. Previous research has introduced some interpolating methods however there are some problems with regard to missing AIS data. This paper proposes one new method which includes linear interpolation, cubic Hermit interpolation and an identification mechanism to overcome some of those limitations, first AIS data regarding ship position, COG, SOG and HDG is divided into separate time series, then the characteristic of the missing data is investigated into through using an identification mechanism, an appropriate interpolation is selected to fit all the time series which matches the characteristics. Numerical experiments are carried out using real AIS data to validate the algorithm of this approach and the results are compared with the previous method, after which the actual missing area is suggested to be interpolated by the proposed method. The interpolation results show this approach can be applied well in practice.

경험적 베이지안 방법을 이용한 결측자료 연구 (Analysis of Missing Data Using an Empirical Bayesian Method)

  • 윤용화;최보승
    • 응용통계연구
    • /
    • 제27권6호
    • /
    • pp.1003-1016
    • /
    • 2014
  • 조사를 통하여 수집된 자료에 기반하여 분석을 수행하는데 있어서 결측값에 대한 적절한 대체 방법은 보다 정확한 결과를 얻기 위한 매우 중요한 절차이다. 본 연구에서는 모형에 기반하여 결측자료에 대한 대체방법과 모형 추정방법을 다루었다. 특히 최대우도추정 방법의 적용에서 발생할 수 있는 변방값 문제(bounday soluntion problem)를 해결하기 위하여 베이지안 방법을 적용하였다. 분석된 결과를 바탕으로 하여 예측을 수행한 후 결측체계에 따른 정확성 비교를 수행하여 결측체계에 따른 결측모형의 선택 문제를 다루었다. 예측의 정확도를 측정하기 위하여 Bautista 등 (2007)이 제안한 MWPE(modified within precinct error) 이용하여 비교를 수행 하였다. 본 연구에서 제시된 방법들은 2012년에 시행된 제 18대 대통령 선거 당일 시행된 출구조사의 자료를 적용하여 분석을 수행하였다. 분석 결과 임의결측체계의 가정에 따른 결과가 비임의체계 가정에 따른 결과보다 예측의 정확도가 더 높았다.

Comparison of missing data methods in clustered survival data using Bayesian adaptive B-Spline estimation

  • Yoo, Hanna;Lee, Jae Won
    • Communications for Statistical Applications and Methods
    • /
    • 제25권2호
    • /
    • pp.159-172
    • /
    • 2018
  • In many epidemiological studies, missing values in the outcome arise due to censoring. Such censoring is what makes survival analysis special and differentiated from other analytical methods. There are many methods that deal with censored data in survival analysis. However, few studies have dealt with missing covariates in survival data. Furthermore, studies dealing with missing covariates are rare when data are clustered. In this paper, we conducted a simulation study to compare results of several missing data methods when data had clustered multi-structured type with missing covariates. In this study, we modeled unknown baseline hazard and frailty with Bayesian B-Spline to obtain more smooth and accurate estimates. We also used prior information to achieve more accurate results. We assumed the missing mechanism as MAR. We compared the performance of five different missing data techniques and compared these results through simulation studies. We also presented results from a Multi-Center study of Korean IBD patients with Crohn's disease(Lee et al., Journal of the Korean Society of Coloproctology, 28, 188-194, 2012).

결측이 있는 이산형 공변량에 대한 Cox비례위험모형의 패턴-혼합 모델 (Pattern-Mixture Model of the Cox Proportional Hazards Model with Missing Binary Covariates)

  • 육태미;송주원
    • 응용통계연구
    • /
    • 제25권2호
    • /
    • pp.279-291
    • /
    • 2012
  • 공변량에 결측이 발생한 Cox 비례위험 모형을 적합할 때, 결측이 발생하는 개체를 모두 제거한 후 분석을 실시한다면 정보 손실에 의해 비효율적이고 결측의 발생 메커니즘이 완전 임의 결측(missing completely at random; MCAR)이 아니라면 모수의 추정값에 편향이 발생할 수 있다. Cox 비례위험 회귀모형의 공변량에 결측이 있는 경우 적용할 수 있는 여러 가지 방법들이 제안되어져 왔으나 이 분석들은 선택모델(selection model)에 기반하고 있다. 본 연구에서는 Little (1993)이 제안한 패턴-혼합 모델(pattern-mixture model)을 사용하여 Cox 비례위험 회귀모형에서 생존시간과 결측 메커니즘의 결합분포를 모델화 하고, 여러 가지 제약에 근거한 생존 분석의 결과를 비교하였다. 모의실험을 통해서 패턴-혼합 모델의 제약(restrictions)에 따른 모수 추정의 민감도를 확인하였고 결측을 무시한 채 분석한 결과 및 선택모형에 근거한 분석결과와 비교하였다. 패턴-혼합 모델의 제약에 따라 공변량의 결측으로 인한 모수 추정의 민감성 정도를 쥐백혈병 자료 예제를 통해 설명하였다.

19대 대선 여론조사에서 무응답 메카니즘의 민감도 분석 (Sensitivity analysis of missing mechanisms for the 19th Korean presidential election poll survey)

  • 김성용;곽동호
    • 응용통계연구
    • /
    • 제32권1호
    • /
    • pp.29-40
    • /
    • 2019
  • 선거여론조사 자료의 경우 무응답이 흔히 관측되며, 이와 같이 무응답이 존재하는 범주형 자료는 불완전 분할표로 표현된다. 불완전 분할표로 표현된 선거여론조사 자료에서 후보자 지지율을 추정하는 경우, 지지율은 무응답이 어떤 메카니즘을 따르는가에 따라 다르게 추정되며, 따라서 자료가 어떠한 무응답 메카니즘을 따르는지에 대한 판별이 분석에 선행되어야 한다. 그러나 최근 연구에 따르면, 관측된 자료를 이용해서는 무응답 메카니즘을 판별할 수 없음이 밝혀졌다. 이러한 문제를 해결하기 위해 다양한 무응답 메카니즘을 반영할 수 있는 민감도 분석이 제안되었다. 그러나 기존에 제안된 민감도 분석의 경우, 이원 분할표에서 각 변수의 범주 수가 두 개인 경우만을 대상으로 한다. 우리나라 선거여론조사에서 고려되는 요인이 지역, 성, 연령 등임을 감안할 때, 기존 방법론으로 민감도 분석을 시행하기에는 한계점이 존재한다. 이에 따라 본 논문에서는 기존의 민감도 분석을 다차원 불완전 분할표에 적용할 수 있도록 확장하고, 이를 우리나라 19대 대선 여론조사 자료에 적용하였다. 분석 결과, 민감도 분석의 구간이 실제 지지율을 포함하고 있을 뿐 아니라, 다양한 무응답 메카니즘의 결과를 포괄하고 있으며, 실제 지지율과 가장 가까운 예측치의 경우 후보자에 대한 지지가 무응답의 발생에 영향을 미침을 알 수 있었다.

대체방법별 GEE추정량 비교 (Comparison of GEE Estimators Using Imputation Methods)

  • 김동욱;노영화
    • 응용통계연구
    • /
    • 제16권2호
    • /
    • pp.407-426
    • /
    • 2003
  • 본 연구에서는 범주형 반복측정자료의 일반화추정방정식(GEE)모형에서 결측이 발생할 경우 결측값 대체(imputation)방법들에 대한 성능을 비교하고자 한다. 설명변수 X가 부분적으로 결측을 갖는 경우 GEE추정량을 계산할 수 없다. 본 논문에서는 시점에 따라 값이 변하는 설명변수에 결측이 있는 경우 GEE모형에서 결측값을 추정하는 7가지의 대체방법을 다루며, 실제자료와 모의실험을 통하여 대체방법별 GEE추정량의 성질을 연구한다. 대체방법별 GEE추정량의 성능을 비교하기 위해 우리는 반응변수가 범주형인 반복측정모형에서 완전자료의 GEE추정량과 완전자료에서 결측을 생성하여 결측값에 각 대체방법을 적용하여 대체한 후 구한 GEE추정량을 비교한다. 대체방법으로는 (1) 단순삭제 (2) 표본 평균대체 (3) 행 평균대체 (4) 횡 시점 회귀대체 (5) 이월대체 (6) 베이지안 붓스트랩 (7) 근사적 베이지안 붓스트랩에 대해서 살펴본다. 결측과정(missing mechanism)은 무시할 수 있는 무응답(ignorable nonresponse)을 가정하며, 결측 발생에 대해서는 원자료의 시점 무응답 패턴(wave nonresponse pattern)을 고려하여 발생시키거나 또는 시점 무응답 패턴을 고려하지 않고 단순임의추출로 결측을 발생시키는 방법을 각각 고려한다.

특성도를 이용한 결측치 대체방법 (Imputation method for missing data based on measure of property)

  • 김형주;김동재
    • 응용통계연구
    • /
    • 제30권3호
    • /
    • pp.463-473
    • /
    • 2017
  • 임상시험에서 어떻게 결측치를 다룰 것인가 하는 것은 큰 문제이다. 주로 주분석에서 사용하는 ITT원칙은 결측치가 어떠한 메커니즘을 따른다는 가정 하에 결측치를 대체 하지만 가정에 대한 타당성이 불확실한 문제가 있다. 즉, 올바른 결측치 대체방법은 매우 중요하다. 본 연구에서는 Kang과 Kim (1997)이 제안한 일치도와 유지도의 개념을 이용하여 새로운 결측치 대체방법을 제안하였다. 또한 실제자료를 이용하여 예제를 제시하고 Monte Carlo 모의실험을 통하여 기존방법과 대체 성능을 비교하였다.

무응답이 있는 설문조사연구의 접근법 : 한국노인약물역학코호트 자료의 평가 (An Approach to Survey Data with Nonresponse: Evaluation of KEPEC Data with BMI)

  • 백지은;강위창;이영조;박병주
    • Journal of Preventive Medicine and Public Health
    • /
    • 제35권2호
    • /
    • pp.136-140
    • /
    • 2002
  • Objectives : A common problem with analyzing survey data involves incomplete data with either a nonresponse or missing data. The mail questionnaire survey conducted for collecting lifestyle variables on the members of the Korean Elderly Phamacoepidemiologic Cohort(KEPEC) in 1996 contains some nonresponse or missing data. The proper statistical method was applied to evaluate the missing pattern of a specific KEPEC data, which had no missing data in the independent variable and missing data in the response variable, BMI. Methods : The number of study subjects was 8,689 elderly people. Initially, the BMI and significant variables that influenced the BMI were categorized. After fitting the log-linear model, the probabilities of the people on each category were estimated. The EM algorithm was implemented using a log-linear model to determine the missing mechanism causing the nonresponse. Results : Age, smoking status, and a preference of spicy hot food were chosen as variables that influenced the BMI. As a result of fitting the nonignorable and ignorable nonresponse log-linear model considering these variables, the difference in the deviance in these two models was 0.0034(df=1). Conclusion : There is a lot of risk if an inference regarding the variables and large samples is made without considering the pattern of missing data. On the basis of these results, the missing data occurring in the BMI is the ignorable nonresponse. Therefore, when analyzing the BMI in KEPEC data, the inference can be made about the data without considering the missing data.