• 제목/요약/키워드: missingness

검색결과 7건 처리시간 0.02초

A Comparative Study of Microarray Data with Survival Times Based on Several Missing Mechanism

  • Kim Jee-Yun;Hwang Jin-Soo;Kim Seong-Sun
    • Communications for Statistical Applications and Methods
    • /
    • 제13권1호
    • /
    • pp.101-111
    • /
    • 2006
  • One of the most widely used method of handling missingness in microarray data is the kNN(k Nearest Neighborhood) method. Recently Li and Gui (2004) suggested, so called PCR(Partial Cox Regression) method which deals with censored survival times and microarray data efficiently via kNN imputation method. In this article, we try to show that the way to treat missingness eventually affects the further statistical analysis.

Bayesian Pattern Mixture Model for Longitudinal Binary Data with Nonignorable Missingness

  • Kyoung, Yujung;Lee, Keunbaik
    • Communications for Statistical Applications and Methods
    • /
    • 제22권6호
    • /
    • pp.589-598
    • /
    • 2015
  • In longitudinal studies missing data are common and require a complicated analysis. There are two popular modeling frameworks, pattern mixture model (PMM) and selection models (SM) to analyze the missing data. We focus on the PMM and we also propose Bayesian pattern mixture models using generalized linear mixed models (GLMMs) for longitudinal binary data. Sensitivity analysis is used under the missing not at random assumption.

A Bayesian uncertainty analysis for nonignorable nonresponse in two-way contingency table

  • Woo, Namkyo;Kim, Dal Ho
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권6호
    • /
    • pp.1547-1555
    • /
    • 2015
  • We study the problem of nonignorable nonresponse in a two-way contingency table and there may be one or two missing categories. We describe a nonignorable nonresponse model for the analysis of two-way categorical table. One approach to analyze these data is to construct several tables (one complete and the others incomplete). There are nonidentifiable parameters in incomplete tables. We describe a hierarchical Bayesian model to analyze two-way categorical data. We use a nonignorable nonresponse model with Bayesian uncertainty analysis by placing priors in nonidentifiable parameters instead of a sensitivity analysis for nonidentifiable parameters. To reduce the effects of nonidentifiable parameters, we project the parameters to a lower dimensional space and we allow the reduced set of parameters to share a common distribution. We use the griddy Gibbs sampler to fit our models and compute DIC and BPP for model diagnostics. We illustrate our method using data from NHANES III data to obtain the finite population proportions.

Comparison of tree-based ensemble models for regression

  • Park, Sangho;Kim, Chanmin
    • Communications for Statistical Applications and Methods
    • /
    • 제29권5호
    • /
    • pp.561-589
    • /
    • 2022
  • When multiple classifications and regression trees are combined, tree-based ensemble models, such as random forest (RF) and Bayesian additive regression trees (BART), are produced. We compare the model structures and performances of various ensemble models for regression settings in this study. RF learns bootstrapped samples and selects a splitting variable from predictors gathered at each node. The BART model is specified as the sum of trees and is calculated using the Bayesian backfitting algorithm. Throughout the extensive simulation studies, the strengths and drawbacks of the two methods in the presence of missing data, high-dimensional data, or highly correlated data are investigated. In the presence of missing data, BART performs well in general, whereas RF provides adequate coverage. The BART outperforms in high dimensional, highly correlated data. However, in all of the scenarios considered, the RF has a shorter computation time. The performance of the two methods is also compared using two real data sets that represent the aforementioned situations, and the same conclusion is reached.

불완전한 반복측정 자료의 보정방법 (Methods for Handling Incomplete Repeated Measures Data)

  • 우해봉;윤인진
    • 한국조사연구학회지:조사연구
    • /
    • 제9권2호
    • /
    • pp.1-27
    • /
    • 2008
  • 사회조사 자료를 활용한 통계분석에 있어서 불완전 자료의 문제는 거의 모든 연구자들이 경험하는 하나의 보편적인 문제이다. 불완전 자료의 문제는 특히 패널조사와 같은 종단적 자료를 활용한 연구에 있어서 중요한 이슈가 된다. 본 연구의 목적은 최근까지 이루어진 불완전 자료에 대한 보정방범을 소개하는 것이다. 특히, 본 연구는 패널자괴에서 발생한 불완전 자료의 처리에 대한 관심이 부족한 점을 고려하여 최근까지 이루어진 보정방법들을 반복측정 패널자료 분석에 적용하는데 초점을 맞춘다. 첫째, 본 연구는 불완전 자료에 대한 적절하지 못한 사후처리는 분석결과에 있어서 유의미한 차이로 이어 수 있음을 시사한다. 특히, 분석결과는 반복측정 자료를 사용하는 연구의 경우 불완전 자료의 발생은 궤적의 초기값보다는 시간의 경과에 따른 궤적의 변화를 적절히 추정하는데 문제를 가질 수 있음을 시사하고 있다. 둘째, 분석결과는 완전제거법이나 평균대체법이 EM, FIML, MICE 방법들에 비해 불완전 자료의 처리효과가 상대적으로 떨어짐을 보여준다. 특히, 완전제거법이나 평균대체법과 같은 방법에 비해 최대우도법이나 다중대체법이 갖는 상대적 우위는 MCAR 가정에 비해 보다 현실적인 가정이라고 할 수 있는 MAR 조건하에서 크게 나타난다. 본 연구의 분석결과는 또한 비록 결측치의 발생기제가 MNAR 상황이라고 하더라도 연구자가 결측치의 발생과 관련된 변수들을 보정과정에서 적절하게 활용하면 편의의 상당부분을 감소시킬 수 있음을 시사한다.

  • PDF

Imputation Method를 활용한 수문 결측자료의 보정 (Filling in Hydrological Missing Data Using Imputation Methods)

  • 강태호;홍일표;김영오
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2009년도 학술발표회 초록집
    • /
    • pp.1254-1259
    • /
    • 2009
  • 과거 관측된 수문자료는 분석을 통해 다양한 수문모형의 평가 및 예측과 수자원 정책결정에서 활용된다. 하지만 관측장비의 오작동 및 관측범위의 한계에 의해 수집된 자료에는 결측이 존재한다. 단순히 결측이 존재하는 벡터를 제외하거나, 결측이 존재하는 자료 구간에 선형성이 존재한다는 가정 하에 평균을 활용하기도 했으나, 이로 인하여 자료의 통계특성에 왜곡이 야기될 수 있다. 본 연구는 결측의 보정으로 자료가 보유하는 정보의 손실 및 왜곡을 최소화 할 수 있는 방안을 연구하고자 한다. 자료의 결측은 크게 완벽한 무작위 결측(missing completely at random, MCAR), 무작위 결측(missing at random, MAR), 무작위성이 없는 결측(nonrandom missingness)으로 분류되며, 수문자료는 결측을 포함한 기간이 그 외 기간의 자료와 통계적으로 동일하지는 않지만 결측자료의 추정이 가능한 MAR에 속하는 것이 일반적이므로 이를 가정으로 결측을 보정하였다. Local Lest Squares Imputation(LLSimput)을 결측의 추정을 위해 사용하였으며, 기존에 쉽게 사용되던 선형보간법과 비교하였다. 적용성 평가를 위해 소양강댐 일 유입량 자료에 1 - 5 %의 결측자료를 임의로 생성하였다. 동일한 양의 결측자료에 대해 100개의 셋을 사용하여 보정의 불확실성 범위를 적용된 방법에 대해 비교..평가하였으며, 결측 증가에 따른 보정효과의 변화를 검토하였다. Normalized Root Mean Squared Error(NRMSE)를 사용하여 적용된 두 방법을 평가한 결과, (1) 결측자료의 비가 낮을수록 간단한 선형보간법을 사용한 보정이 효과적이었다. (2) 하지만 결측의 비가 증가할수록 선형보간법의 보정효과는 점차 큰 불확실성과 낮은 보정효과를 보인 반면, (3) LLSimpute는 결측의 증가에 관계없이 일정한 보정효과 및 불확실성 범위를 나타내는 것으로 드러났다.

  • PDF

Maximum a posteriori estimation based wind fragility analysis with application to existing linear or hysteretic shear frames

  • Wang, Vincent Z.;Ginger, John D.
    • Structural Engineering and Mechanics
    • /
    • 제50권5호
    • /
    • pp.653-664
    • /
    • 2014
  • Wind fragility analysis provides a quantitative instrument for delineating the safety performance of civil structures under hazardous wind loading conditions such as cyclones and tornados. It has attracted and would be expected to continue to attract intensive research spotlight particularly in the nowadays worldwide context of adapting to the changing climate. One of the challenges encumbering efficacious assessment of the safety performance of existing civil structures is the possible incompleteness of the structural appraisal data. Addressing the issue of the data missingness, the study presented in this paper forms a first attempt to investigate the feasibility of using the expectation-maximization (EM) algorithm and Bayesian techniques to predict the wind fragilities of existing civil structures. Numerical examples of typical linear or hysteretic shear frames are introduced with the wind loads derived from a widely used power spectral density function. Specifically, the application of the maximum a posteriori estimates of the distribution parameters for the story stiffness is examined, and a surrogate model is developed and applied to facilitate the nonlinear response computation when studying the fragilities of the hysteretic shear frame involved.