• 제목/요약/키워드: Imputation accuracy

검색결과 48건 처리시간 0.019초

Missing Value Imputation Technique for Water Quality Dataset

  • Jin-Young Jun;Youn-A Min
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권4호
    • /
    • pp.39-46
    • /
    • 2024
  • 많은 연구자들이 다양한 모델을 이용하여 물의 수질을 평가하기 위해 노력하고 있다. 평가 모델에는 결측값이 없는 데이터셋이 필요하지만, 관측 데이터셋에는 결측값이 다수 포함되는 것이 현실이다. 단순히 결측값을 삭제하는 방법은 경우에 따라 기저 데이터의 분포를 왜곡시키고 모델의 예측성능에도 편의(bias)를 불러올 위험성이 있다. 본 연구에서는 수질 데이터의 결측값 처리에 적합한 기법을 탐색하기 위해, 기존의 KNN과 MICE Imputation, 그리고 생성형 신경망 모델인 Autoencoder와 Denoising Autoencoder를 기반으로 몇 가지 대치 기법을 실험하였다. 실험 결과, KNN과 MICE Imputation의 결과를 평균한 Combined Imputation이 실측치에 가장 가깝게 값을 추정하였으며, 이 기법을 적용하여 결측값을 처리한 관측 데이터셋을 support vector machine과 ensemble 기반의 분류 모델로 평가한 결과, 결측값을 삭제했을 때에 비해 Accuracy, F1 score, ROC-AUC score, 그리고 MCC(Mathews Correlation Coefficient) 지표가 향상되었다.

MergeReference: A Tool for Merging Reference Panels for HLA Imputation

  • Cook, Seungho;Han, Buhm
    • Genomics & Informatics
    • /
    • 제15권3호
    • /
    • pp.108-111
    • /
    • 2017
  • Recently developed computational methods allow the imputation of human leukocyte antigen (HLA) genes using intergenic single nucleotide polymorphism markers. To improve the imputation accuracy in HLA imputation, it is essential to increase the sample size and the diversity of alleles in the reference panel. Our software, MergeReference, helps achieve this goal by providing a streamlined pipeline for combining multiple reference panels into one.

Handling Incomplete Data Problem in Collaborative Filtering System

  • Noh, Hyun-ju;Kwak, Min-jung;Han, In-goo
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2003년도 Proceeding
    • /
    • pp.105-110
    • /
    • 2003
  • Collaborative filtering is one of the methodologies that are most widely used for recommendation system. It is based on a data matrix of each customer's preferences of products. There could be a lot of missing values in such preference. data matrix. This incomplete data is one of the reasons to deteriorate the accuracy of recommendation system. Multiple imputation method imputes m values for each missing value. It overcomes flaws of single imputation approaches through considering the uncertainty of missing values.. The objective of this paper is to suggest multiple imputation-based collaborative filtering approach for recommendation system to improve the accuracy in prediction performance. The experimental works show that the proposed approach provides better performance than the traditional Collaborative filtering approach, especially in case that there are a lot of missing values in dataset used for recommendation system.

  • PDF

초모집단 모형의 오차가 이분산일 때 무시할 수 없는 무응답에서 편향수정 무응답 대체 (Bias-corrected imputation method for non-ignorable nonresponse with heteroscedasticity in super-population model)

  • 이유진;신기일
    • 응용통계연구
    • /
    • 제37권3호
    • /
    • pp.283-295
    • /
    • 2024
  • 무응답을 적절히 처리하기 위한 많은 방법이 연구되었다. 최근 다수의 무응답 대체법이 개발되고 실질적으로 사용되고 있다. 기존에 발표된 다수의 방법은 MCAR (missing completely at random) 또는 MAR (missing at random) 가정을 사용하고 있다. 그러나 관심변수에 영향을 받는 MNAR (missing not at random) 또는 무시할 수 없는 무응답(non-ignorable non-response; NN)은 편향을 발생시켜 대체 결과의 정확성을 크게 떨어뜨리지만 이에 관한 연구는 상대적으로 미미하다. Lee와 Shin (2022)은 등분산 가정하에서 무시할 수 없는 무응답을 적절히 처리할 수 있는 편향수정 무응답 대체법을 제안하였다. 본 연구에서는 Lee와 Shin (2022)이 제안한 방법을 확장한 무응답 대체법으로 초모집단 모형의 오차가 이분산인 경우에서 편향을 제거함으로써 추정의 정확성을 향상하는 방법을 제안하였다. 모의실험을 이용하여 제안된 방법의 타당성을 확인하였다.

Fully Efficient Fractional Imputation for Incomplete Contingency Tables

  • Kang, Shin-Soo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제15권4호
    • /
    • pp.993-1002
    • /
    • 2004
  • Imputation procedures such as fully efficient fractional imputation(FEFI) or multiple imputation(MI) can be used to construct complete contingency tables from samples with partially classified responses. Variances of FEFI estimators of population proportions are derived. Simulation results, when data are missing completely at random, reveal that FEFI provides more efficient estimates of population than either multiple imputation(MI) based on data augmentation or complete case analysis, but neither FEFI nor MI provides an improvement over complete-case(CC) analysis with respect to accuracy of estimation of some parameters for association between two variables like $\theta_{i+}\theta_{+i}-\theta_{ij}$ and log odds-ratio.

  • PDF

Handling Incomplete Data Problem in Collaborative Filtering System

  • Noh, Hyun-Ju;Kwak, Min-Jung;Han, In-Goo
    • 지능정보연구
    • /
    • 제9권2호
    • /
    • pp.51-63
    • /
    • 2003
  • Collaborative filtering is one of the methodologies that are most widely used for recommendation system. It is based on a data matrix of each customer's preferences of products. There could be a lot of missing values in such preference data matrix. This incomplete data is one of the reasons to deteriorate the accuracy of recommendation system. There are several treatments to deal with the incomplete data problem such as case deletion and single imputation. Those approaches are simple and easy to implement but they may provide biased results. Multiple imputation method imputes m values for each missing value. It overcomes flaws of single imputation approaches through considering the uncertainty of missing values. The objective of this paper is to suggest multiple imputation-based collaborative filtering approach for recommendation system to improve the accuracy in prediction performance. The experimental works show that the proposed approach provides better performance than the traditional Collaborative filtering approach, especially in case that there are a lot of missing values in dataset used for recommendation system.

  • PDF

Application of discrete Weibull regression model with multiple imputation

  • Yoo, Hanna
    • Communications for Statistical Applications and Methods
    • /
    • 제26권3호
    • /
    • pp.325-336
    • /
    • 2019
  • In this article we extend the discrete Weibull regression model in the presence of missing data. Discrete Weibull regression models can be adapted to various type of dispersion data however, it is not widely used. Recently Yoo (Journal of the Korean Data and Information Science Society, 30, 11-22, 2019) adapted the discrete Weibull regression model using single imputation. We extend their studies by using multiple imputation also with several various settings and compare the results. The purpose of this study is to address the merit of using multiple imputation in the presence of missing data in discrete count data. We analyzed the seventh Korean National Health and Nutrition Examination Survey (KNHANES VII), from 2016 to assess the factors influencing the variable, 1 month hospital stay, and we compared the results using discrete Weibull regression model with those of Poisson, negative Binomial and zero-inflated Poisson regression models, which are widely used in count data analyses. The results showed that the discrete Weibull regression model using multiple imputation provided the best fit. We also performed simulation studies to show the accuracy of the discrete Weibull regression using multiple imputation given both under- and over-dispersed distribution, as well as varying missing rates and sample size. Sensitivity analysis showed the influence of mis-specification and the robustness of the discrete Weibull model. Using imputation with discrete Weibull regression to analyze discrete data will increase explanatory power and is widely applicable to various types of dispersion data with a unified model.

Comparison of the estimated breeding value and accuracy by imputation reference Beadchip platform and scaling factor of the genomic relationship matrix in Hanwoo cattle

  • Soo Hyun, Lee;Chang Gwon, Dang;Mina, Park;Seung Soo, Lee;Young Chang, Lee;Jae Gu, Lee;Hyuk Kee, Chang;Ho Baek, Yoon;Chung-il, Cho;Sang Hong, Lee;Tae Jeong, Choi
    • 농업과학연구
    • /
    • 제49권3호
    • /
    • pp.431-440
    • /
    • 2022
  • Hanwoo cattle are a unique and historical breed in Korea that have been genetically improved and maintained by the national evaluation and selection system. The aim of this study was to provide information that can help improve the accuracy of the estimated breeding values in Hanwoo cattle by showing the difference between the imputation reference chip platforms of genomic data and the scaling factor of the genetic relationship matrix (GRM). In this study, nine sets of data were compared that consisted of 3 reference platforms each with 3 different scaling factors (-0.5, 0 and 0.5). The evaluation was performed using MTG2.0 with nine different GRMs for the same number of genotyped animals, pedigree, and phenotype data. A five multi-trait model was used for the evaluation in this study which is the same model used in the national evaluation system. Our results show that the Hanwoo custom v1 platform is the best option for all traits, providing a mean accuracy improvement by 0.1 - 0.3%. In the case of the scaling factor, regardless of the imputation chip platform, a setting of -1 resulted in a better accuracy increased by 0.5 to 1.6% compared to the other scaling factors. In conclusion, this study revealed that Hanwoo custom v1 used as the imputation reference chip platform and a scaling factor of -0.5 can improve the accuracy of the estimated breeding value in the Hanwoo population. This information could help to improve the current evaluation system.

상시조사 교통량 자료의 결측 보정에 관한 연구 (A Study on Imputing the Missing Values of Continuous Traffic Counts)

  • 이상협;신재명
    • 대한토목학회논문집
    • /
    • 제33권5호
    • /
    • pp.2009-2019
    • /
    • 2013
  • 교통량은 교통망 계획, 도로 설계, 도로 관리 등에 직접적으로 활용되는 중요한 기초자료이다. 교통량은 고정식 교통량조사 장비를 설치하여 연속적인 자료를 수집하는 상시조사와 특정일을 조사하는 수시조사로 구분되어 조사되고 있다. 상시조사의 경우 조사 지점에 설치되어 있는 장비의 고장이나 오작동 등으로 인하여 교통량 자료의 결측이 발생하며, 이러한 결측을 보정하기 위하여 다양한 방법이 적용되어 왔다. 본 연구에서는 결측 발생일 전 후의 자료를 활용하는 응용 지수평활화법을 제안하였으며, 평가 결과 교통량 변동계수가 낮은 경우 보정의 정확성이 제고됨을 알 수 있었다. 게다가 지점의 교통량 변동성이 결측 보정의 정확성에 영향을 미치는 중요한 요인으로 작용한다는 것을 확인하였다. 따라서 교통량 결측 보정의 신뢰성을 높이기 위해서는 지점별-시기별 결측 보정 방법이 달리 적용되어야 할 것이다.

무시할 수 없는 무응답에서 편향 보정을 이용한 무응답 대체 (Bias corrected imputation method for non-ignorable non-response)

  • 이민하;신기일
    • 응용통계연구
    • /
    • 제35권4호
    • /
    • pp.485-499
    • /
    • 2022
  • 표본오차와 비표본오차를 포함하는 총오차(total survey error)를 관리하는 것은 표본설계에서 매우 중요하다. 무응답으로 인해 발생한 비표본오차는 총오차에서 차지하는 비중이 매우 크며 이를 해결하는 방법인 무응답 대체에 관한 다수의 연구가 수행되었다. 최근 전통적 통계학 관련 기법에 추가하여 기계학습 관련 기법을 이용한 무응답 대체법이 다수 연구되고 실질적으로 사용되고 있다. 기존에 발표된 다수의 방법은 MCAR(missing completely at random) 또는 MAR(missing at random) 가정을 사용하고 있다. 그러나 관심변수에 영향을 받는 MNAR(missing not at random) 또는 무시할 수 없는 무응답(non-ignorable non-response; NN)은 편향을 발생시켜 대체 결과의 정확성을 크게 떨어뜨리지만 이에 관한 연구는 상대적으로 미미하다. 본 연구에서는 무시할 수 없는 무응답이 발생한 경우에 적용 가능한 무응답 대체법을 제안하였다. 특히 편향을 추정한 후 이를 제거하는 방법을 이용하여 무응답 대체 결과의 정확성을 향상하는 방법을 제안하였다. 또한, 모의실험을 이용하여 제안된 방법의 타당성을 확인하였다.