• 제목/요약/키워드: Missing Values

검색결과 440건 처리시간 0.03초

A Naive Multiple Imputation Method for Ignorable Nonresponse

  • Lee, Seung-Chun
    • Communications for Statistical Applications and Methods
    • /
    • 제11권2호
    • /
    • pp.399-411
    • /
    • 2004
  • A common method of handling nonresponse in sample survey is to delete the cases, which may result in a substantial loss of cases. Thus in certain situation, it is of interest to create a complete set of sample values. In this case, a popular approach is to impute the missing values in the sample by the mean or the median of responders. The difficulty with this method which just replaces each missing value with a single imputed value is that inferences based on the completed dataset underestimate the precision of the inferential procedure. Various suggestions have been made to overcome the difficulty but they might not be appropriate for public-use files where the user has only limited information for about the reasons for nonresponse. In this note, a multiple imputation method is considered to create complete dataset which might be used for all possible inferential procedures without misleading or underestimating the precision.

A Modified Grey-Based k-NN Approach for Treatment of Missing Value

  • Chun, Young-M.;Lee, Joon-W.;Chung, Sung-S.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권2호
    • /
    • pp.421-436
    • /
    • 2006
  • Huang proposed a grey-based nearest neighbor approach to predict accurately missing attribute value in 2004. Our study proposes which way to decide the number of nearest neighbors using not only the deng's grey relational grade but also the wen's grey relational grade. Besides, our study uses not an arithmetic(unweighted) mean but a weighted one. Also, GRG is used by a weighted value when we impute missing values. There are four different methods - DU, DW, WU, WW. The performance of WW(Wen's GRG & weighted mean) method is the best of any other methods. It had been proven by Huang that his method was much better than mean imputation method and multiple imputation method. The performance of our study is far superior to that of Huang.

  • PDF

Application of NORM to the Multiple Imputation for Multivariate Missing Data

  • 김현정;문승호;신재경
    • Journal of the Korean Data and Information Science Society
    • /
    • 제13권2호
    • /
    • pp.105-113
    • /
    • 2002
  • The statistical analysis of incomplete data sometimes requires handling of incomplete observations. Towards this end, each case with some missing values generally should be deleted, namely, resulting in only use of non-missing cases. EM algorithm(Dempster et al., 1977) which involves prediction and estimation steps is a general method among others. In this article, we use the free software NORM developed for multiple imputation, which uses DA(Data Augmentation) algorithm in its imputation, and evaluate its efficiency through a numerical example.

  • PDF

A Study on the Treatment of Missing Value using Grey Relational Grade and k-NN Approach

  • 천영민;정성석
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2006년도 PROCEEDINGS OF JOINT CONFERENCEOF KDISS AND KDAS
    • /
    • pp.55-62
    • /
    • 2006
  • Huang proposed a grey-based nearest neighbor approach to predict accurately missing attribute value in 2004. Our study proposes which way to decide the number of nearest neighbors using not only the dong's grey relational grade but also the wen's grey relational grade. Besides, our study uses not an arithmetic(unweighted) mean but a weighted one. Also, GRG is used by a weighted value when we impute a missing values. There are four different methods - DU, DW, WU, WW. The performance of WW(wen's GRG & weighted mean) method is the best of my other methods. It had been proven by Huang that his method was much better than mean imputation method and multiple imputation method. The performance of our study is far superior to that of Huang.

  • PDF

한계와 이상치가 있는 결측치의 로버스트 다중대체 방법 (Robust multiple imputation method for missings with boundary and outliers)

  • 박유성;오도영;권태연
    • 응용통계연구
    • /
    • 제32권6호
    • /
    • pp.889-898
    • /
    • 2019
  • 항목 무응답(item missing)이 발생한 설문조사에서 결측이 포함된 변수에 이상치(outlier)의 존재와 다른 설문문항 항목과의 논리적 한계(boundary) 조건들이 유의미하다면 결측치 대체문제는 매우 복잡해진다. 한계가 있는 결측값들을 포함한 변수에 이상치가 존재하는 경우, 기존의 회귀분석에 근거한 결측치 대체방법은 편향된 대체값 그리고 한계를 만족하지 않은 대체값을 제시할 가능성이 있다. 이에 본 논문은 회귀모형에 기반을 두고 결측치들을 대체를 함에 있어 이상치와 논리적 한계조건이 자료에 존재하는 경우, 다양한 로버스트 회귀모형과 다중대체 방법의 조합을 통해 해결점을 모색하고자 한다. 이를 위해 이들 방법들의 최적의 조합을 다양한 시나리오별로 모의실험을 통하여 찾아보고 이에 대하여 논의하였다.

미계측 결측 강수자료 보완을 위한 선형계획법의 검정 (A Certification of Linear Programming Method for Estimating Missing Precipitation Values Ungauged)

  • 유주환
    • 한국수자원학회논문집
    • /
    • 제43권3호
    • /
    • pp.257-264
    • /
    • 2010
  • 강수량을 이용해 수문분석 할 경우 강수 자료의 양과 연속성은 분석의 신뢰성에 큰 영향을 미칠 수 있다. 따라서 강수 자료가 짧거나 기계 고장 등으로 인하여 결측된 경우에 강수 자료기간을 늘리거나 결측 자료를 보완하는 것은 매우 기본적인 과정이다. 이에 본 연구에서는 결측 강수량을 보완하기 위해서 적용되는 자료구동(Data-driven) 방법인 선형계획법을 많이 사용되는 7개 기법을 비교 분석하고 우수성을 검정한다. 이를 위해서 적용한 자료는 한강 유역 내에 있는 기상청 관할 관측소 중에 미계측 기간 15년을 포함하는 철원 관측소와 5개 주변 관측소의 17년간 강수량 자료이다. 그리고 검정된 방법을 적용하여 철원 관측소의 미계측 강수량을 보완하고 한강 유역의 32년간 유역 평균 강수량을 산출한다.

UTIS 구간통행속도 결측치 보정모델 (Imputation Model for Link Travel Speed Measurement Using UTIS)

  • 기용걸;안계형;김은정;배광수
    • 한국ITS학회 논문지
    • /
    • 제10권6호
    • /
    • pp.63-73
    • /
    • 2011
  • 구간통행속도는 도로의 교통상황을 나타내는 중요한 지표이며, UTIS(Urban Traffic Information System)는 도로의 구간 통행속도를 측정하여 제공하는 대표적인 구간속도 측정시스템이다. 시험운영 결과, 프로브 차량의 미통과, 시스템 H/W 및 S/W 오작동 등의 이유로 UTIS 산출 구간통행속도가 도로의 일부 링크에서 결측되는 현상이 나타나고 있다. 본 논문에서는 이러한 결측구간에 신뢰성 높은 교통정보를 제공하기 위한 구간통행속도 추정 알고리즘을 제안하였다. 제안된 알고리즘을 적용하여 현장실험을 실시한 결과 새로운 알고리즘이 추정한 속도들의 정학도가 93.6%로 분석되었다. 이는 새로운 알고리즘이 결측구간의 속도를 비교적 정확하게 추정하여 구간통행속도 산출 정확도를 높여줌을 나타낸다.

에너지 하베스팅 및 모니터링 기반의 고로쇠 수액 통합 관리 시스템 구현 (A Implementation of Acer Pictum Sap Integrated Management System based on Energy Harvesting and Monitoring System)

  • 정세훈;조경호;김준영;박준;김종찬;최수임;심춘보
    • 한국멀티미디어학회논문지
    • /
    • 제22권11호
    • /
    • pp.1324-1337
    • /
    • 2019
  • This study set out to investigate an energy harvesting device to ensure stable energy supply to batteries and data collection devices and a monitoring system for acer pictum sap to check collected data. Acer pictum sap farmers have written down weather information and yield of acer pictum sap manually for data storage. Since the job is done manually, there are many missing values in their data. In addition, it is not easy to manage batteries due to the characteristics of the areas where acer pictum sap is collected. The present study thus decided to build an energy harvesting device based on new renewable energy to ensure stable energy supply by taking into consideration power load, daily power consumption, and number of days with no sunshine for various devices. For a monitoring system, the investigator proposed a JSP-based web page to monitor temperature, humidity, volume of collected water, and battery state in real time. The proposed energy harvesting device was applied to reduce missing values in data. It promoted stable energy supply to the batteries and data collection devices, reducing the percentage of missing values in data from 30.55% to 0%.

XGBoost 회귀를 활용한 편의점 계약전력 예측 모델의 최적화에 대한 연구 (A Study on the Optimization of a Contracted Power Prediction Model for Convenience Store using XGBoost Regression)

  • 김상민;박찬권;이지은
    • 한국IT서비스학회지
    • /
    • 제21권4호
    • /
    • pp.91-103
    • /
    • 2022
  • This study proposes a model for predicting contracted power using electric power data collected in real time from convenience stores nationwide. By optimizing the prediction model using machine learning, it will be possible to predict the contracted power required to renew the contract of the existing convenience store. Contracted power is predicted through the XGBoost regression model. For the learning of XGBoost model, the electric power data collected for 16 months through a real-time monitoring system for convenience stores nationwide were used. The hyperparameters of the XGBoost model were tuned using the GridesearchCV, and the main features of the prediction model were identified using the xgb.importance function. In addition, it was also confirmed whether the preprocessing method of missing values and outliers affects the prediction of reduced power. As a result of hyperparameter tuning, an optimal model with improved predictive performance was obtained. It was found that the features of power.2020.09, power.2021.02, area, and operating time had an effect on the prediction of contracted power. As a result of the analysis, it was found that the preprocessing policy of missing values and outliers did not affect the prediction result. The proposed XGBoost regression model showed high predictive performance for contract power. Even if the preprocessing method for missing values and outliers was changed, there was no significant difference in the prediction results through hyperparameters tuning.

수평방향의 3차 스플라인 보간과 ELA을 이용한 개선된 디인터레이싱 연구 (A study on the improved de-interlacing applying third order spline interpolation for horizontal direction and ELA)

  • 백경훈
    • 한국산학기술학회논문지
    • /
    • 제18권1호
    • /
    • pp.696-701
    • /
    • 2017
  • 본 논문에서는 하나의 필드 만을 사용하여 비월 주사 영상을 순차 주사 영상으로 변환하는 개선된 디인터레이싱 방법을 제안한다. 우선, 구하고자 하는 화소의 위와 아래 각각 4개 화소를 이용하여 화소 사이의 3개 점을 3차 스플라인 보간을 적용하여 구한다. 알려진 위와 아래 화소값과 3차 스플라인 보간으로 구한 위와 아래 화소 사이의 보간값으로 부터 구하고자 하는 화소를 중심으로 9방향으로 세분화하여 각각의 상관 관계를 구한다. 구하고자 하는 화소에서 위 아래 상관 관계가 가장 최소가 되는 방향으로 에지의 방향성을 예측하고 화소 사이의 상대적인 값이 최소가 되는 방향으로 화소의 방향성을 결정한다. 결정된 방향의 위 아래 화소값의 평균으로 화소값을 계산한다. 모의실험 결과 기존의 디인터레이싱 방법에 비해 약간의 소요 시간이 걸리는 문제점은 있으나 CPU의 개선으로 시간적 제약은 없다고 판단된다. 기존의 연구된 여러 디인터레이싱 방법들과의 비교를 통하여 본 논문에서 제시된 방법이 주관적 화질에 있어서 개선이 있었으며 객관적 화질에 있어서도 정량적으로 PSNR이 0.1~0.5dB 향상됨을 보이고 있다.