• Title/Summary/Keyword: 결측치

Search Result 102, Processing Time 0.037 seconds

Comparison of binary data imputation methods in clinical trials (임상시험에서 이분형 결측치 처리방법의 비교연구)

  • An, Koosung;Kim, Dongjae
    • The Korean Journal of Applied Statistics
    • /
    • v.29 no.3
    • /
    • pp.539-547
    • /
    • 2016
  • We discussed how to handle missing binary data clinical trials. Patterns of occurring missing data are discussed and introduce missing binary data imputation methods that include the modified method. A simulation is performed by modifying actual data for each method. The condition of this simulation is controlled by a response rate and a missing value rate. We list the simulation results for each method and discussed them at the end of this paper.

Adaptive Nearest Neighbors를 활용한 결측치 대치

  • 전명식;정형철
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2004.11a
    • /
    • pp.185-190
    • /
    • 2004
  • 비모수적 결측치 대치 방법으로 널리 사용되는 k-nearest neighbors(KNN) 방법은 자료의 국소적(local) 특징을 고려하지 않고 전체 자료에 대해 균일한 이웃의 개수 k를 사용하는 단점이 있다. 본 연구에서는 KNN의 대안으로 자료의 국소적 특징을 고려하는 adaptive nearest neighbors(ANN) 방법을 제안하였다. 나아가 microarray 자료의 경우에 대하여 결측치 대치를 통해 KNN과 ANN의 성능을 비교하였다.

  • PDF

Filling Method for Missing Turbidity Data having Periodicity (주기성을 갖는 탁도자료의 결측치 보완 기법)

  • Baek, Kyong-Oh;Cho, Hong-Yeon;Lee, Sam-Hee
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2006.05a
    • /
    • pp.1546-1550
    • /
    • 2006
  • 한강 하구부의 3개 지점에서 수중 계류방식으로 약 5개월에 걸쳐 탁도를 관측하였다. 이 과정에서 관측기기의 한계로 인해 탁도 자료의 결측치가 발생하였고, 이를 효율적으로 보완하기 위해 새로운 결측치 보완기법을 개발하였다. 개발된 기법, 일명 면적비법은 시계열 자료가 단일주기와 상이한 진폭을 갖는다는 가정하에, 각 사이클의 면적비율을 통해 결측치를 보완하는 방법이다. 면적비법과 기존의 최소제곱법을 검증하기 위해 결측치가 없는 정상적인 자료에 적용해 보면, 두 방법 모두 첨두치를 약간 과소 산정하는 경향이 있었다. 하지만 면적비법의 경우, 원자료의 총 면적과 보완자료의 총 면적간의 차이가 거의 없었다. 이 방법들을 한강 하구부에서 관측된 탁도자료에 적용해 본 결과, 면적비법은 합리적으로 결측치를 보완하는 반면, 최소제곱법은 보완자료의 총면적이 원자료에 비해 작아지는 오류가 발생하였다. 따라서 최소제곱법에 비해 면적비법이 결측치 보완에 더 우수한 결과를 제공함을 알 수 있었다. 본 연구에서 개발한 면적비법은 주기성이 뚜렷한 시계열자료의 결측치 보완에 유용하게 쓰일 수 있으리라 기대된다.

  • PDF

불완비 데이터에서 분류 나무의 구축

  • 우주성;김규성
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2001.11a
    • /
    • pp.105-108
    • /
    • 2001
  • 본 논문에서는 결측치가 있는 불완비 데이터에서 분류나루를 구축하는 방법을 고찰하였다. 기존의 결측치 처리 방법인 대리 분리 방법의 대안으로 대체 방법으로 결측치를 처리한 후 분류나무를 구축하는 방법을 제안하였다.

  • PDF

A Sparse Data Preprocessing Using Support Vector Regression (Support Vector Regression을 이용한 희소 데이터의 전처리)

  • Jun, Sung-Hae;Park, Jung-Eun;Oh, Kyung-Whan
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.14 no.6
    • /
    • pp.789-792
    • /
    • 2004
  • In various fields as web mining, bioinformatics, statistical data analysis, and so forth, very diversely missing values are found. These values make training data to be sparse. Largely, the missing values are replaced by predicted values using mean and mode. We can used the advanced missing value imputation methods as conditional mean, tree method, and Markov Chain Monte Carlo algorithm. But general imputation models have the property that their predictive accuracy is decreased according to increase the ratio of missing in training data. Moreover the number of available imputations is limited by increasing missing ratio. To settle this problem, we proposed statistical learning theory to preprocess for missing values. Our statistical learning theory is the support vector regression by Vapnik. The proposed method can be applied to sparsely training data. We verified the performance of our model using the data sets from UCI machine learning repository.

Development of a Machine Learning Model for Imputing Time Series Data with Massive Missing Values (결측치 비율이 높은 시계열 데이터 분석 및 예측을 위한 머신러닝 모델 구축)

  • Bangwon Ko;Yong Hee Han
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.17 no.3
    • /
    • pp.176-182
    • /
    • 2024
  • In this study, we compared and analyzed various methods of missing data handling to build a machine learning model that can effectively analyze and predict time series data with a high percentage of missing values. For this purpose, Predictive State Model Filtering (PSMF), MissForest, and Imputation By Feature Importance (IBFI) methods were applied, and their prediction performance was evaluated using LightGBM, XGBoost, and Explainable Boosting Machines (EBM) machine learning models. The results of the study showed that MissForest and IBFI performed the best among the methods for handling missing values, reflecting the nonlinear data patterns, and that XGBoost and EBM models performed better than LightGBM. This study emphasizes the importance of combining nonlinear imputation methods and machine learning models in the analysis and prediction of time series data with a high percentage of missing values, and provides a practical methodology.

Imputation method for missing data based on measure of property (특성도를 이용한 결측치 대체방법)

  • Kim, Hyungju;Kim, Dongjae
    • The Korean Journal of Applied Statistics
    • /
    • v.30 no.3
    • /
    • pp.463-473
    • /
    • 2017
  • How to handle missing data is a main issue in clinical trials. We impute missing data based on missing data that follows a mechanism according to the intention-to-treat rule. However, using the right imputation method for missing data is very important because this supposition is unclear. We suggest a new imputation method for missing data using agreement and maintenance introduced by Kang and Kim (1997). We give an example and adapt a Monte Carlo simulation to compare the performance between the established method and the suggested method.

Comparision of Missing Imputaion Methods In fine dust data (미세먼지 자료에서의 결측치 대체 방법 비교)

  • Kim, YeonJin;Park, HeonJin
    • The Journal of Bigdata
    • /
    • v.4 no.2
    • /
    • pp.105-114
    • /
    • 2019
  • Missing value replacement is one of the big issues in data analysis. If you ignore the occurrence of the missing value and proceed with the analysis, a bias can occur and give incorrect results for the estimate. In this paper, we need to find and apply an appropriate alternative to missing data from weather data. Through this, we attempted to clarify and compare the simulations for various situations using existing methods such as MICE and MissForest based on R and time series-based models. When comparing these results with each variable, it was determined that the kalman filter of the auto arima model using the ImputeTS package and the MissForest model gave good results in the weather data.

  • PDF

Using Missing Values in the Model Tree to Change Performance for Predict Cholesterol Levels (모델트리의 결측치 처리 방법에 따른 콜레스테롤수치 예측의 성능 변화)

  • Jung, Yong Gyu;Won, Jae Kang;Sihn, Sung Chul
    • Journal of Service Research and Studies
    • /
    • v.2 no.2
    • /
    • pp.35-43
    • /
    • 2012
  • Data mining is an interest area in all field around us not in any specific areas, which could be used applications in a number of areas heavily. In other words, it is used in the decision-making process, data and correlation analysis in hidden relations, for finding the actionable information and prediction. But some of the data sets contains many missing values in the variables and do not exist a large number of records in the data set. In this paper, missing values are handled in accordance with the model tree algorithm. Cholesterol value is applied for predicting. For the performance analysis, experiments are approached for each treatment. Through this, efficient alternative is presented to apply the missing data.

  • PDF

A Sparse Data Preprocessing Using Support Vector Regression (Support Vector Regression을 이용한 희소 데이터의 전처리)

  • 전성해;박정은;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2004.04a
    • /
    • pp.499-501
    • /
    • 2004
  • 웹 로그, 바이오정보학 둥 여러 분야에서 다양한 형태의 결측치가 발생하여 학습 데이터를 희소하게 만든다. 결측치는 주로 전처리 과정에서 조건부 평균이나 나무 모형과 같은 기본적인 Imputation 방법을 이용하여 추정된 값에 의해 대체되기도 하고 일부는 제거되기도 한다. 특히, 결측치 비율이 매우 크게 되면 기존의 결측치 대체 방법의 정확도는 떨어진다. 또한 데이터의 결측치 비율이 증가할수록 사용 가능한 Imputation 방법들의 수는 극히 제한된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 Vapnik의 Support Vector Regression을 데이터 전처리 과정에 알맞게 변형한 Support Vector Regression을 제안하여 이러한 문제점들을 해결하였다. 제안 방법을 통하여 결측치의 비율이 상당히 큰 희소 데이터의 전처리도 가능하게 되었다. UCI machine learning repository로부터 얻어진 데이터를 이용하여 제안 방법의 성능을 확인하였다.

  • PDF