• 제목/요약/키워드: Missing Value

검색결과 315건 처리시간 0.023초

미세먼지 자료에서의 결측치 대체 방법 비교 (Comparision of Missing Imputaion Methods In fine dust data)

  • 김연진;박헌진
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.105-114
    • /
    • 2019
  • 자료 분석에 있어서 결측치 대체는 큰 이슈중 하나이다. 결측치의 발생을 무시하고 분석을 진행하게 되면, bias가 발생하여 그에 따른 추정치에 대해 잘못된 결과를 줄 수 있다. 이 논문에서는 미세먼지자료에서 발생한 결측치를 적절한 대체 방법을 찾아 적용하자 한다. 이를 통해 시계열 자료에서 발생한 결측치를 R을 기반으로 한MICE, MissForest 등의 기존 방법과 시계열 기반 모델을 사용하여 여러 가지 상황에 대한 시뮬레이션을 설정해 비교해 밝히고자 하였다. 이 결과에 대해 각각을 변수 별로 비교하였을때 ImputeTS 패키지를 이용한 auto arima 모델의 kalman filter를 적용한 모형과 MissForest 모형이 미세먼지자료 결측치 대체에서는 좋은 결과를 주는 것으로 판단되었다.

  • PDF

모델트리의 결측치 처리 방법에 따른 콜레스테롤수치 예측의 성능 변화 (Using Missing Values in the Model Tree to Change Performance for Predict Cholesterol Levels)

  • 정용규;원재강;신성철
    • 서비스연구
    • /
    • 제2권2호
    • /
    • pp.35-43
    • /
    • 2012
  • 데이터 마이닝은 특정분야에서만 관심을 갖는 분야가 아니라 현재 우리주변 여러 분야에서 많이 사용되고 응용되고 있다. 즉, 수많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 예측하여 추출해 내고 추후에 의사 결정에 이용하는 과정을 말한다. 하지만, 일부 데이터 집합에서는 매우 많은 결측치를 포함하는 변수들이 존재한다. 다시 말해서 다수의 레코드에서 측정치가 존재하지 않는 데이터 집합이 존재한다. 그래서 본 논문에서는 Cholesterol 값을 예측하기 위한 결측치 처리에 따른 모델트리 알고리즘을 적용하고, 실험을 통해서 각 처리방식에 대한 성능을 분석한다. 또는 이 결과를 통하여 결측치 대체방법에 대한 효율적인 적용사례를 제시한다.

  • PDF

HANDLING MISSING VALUES IN FUZZY c-MEANS

  • Miyamoto, Sadaaki;Takata, Osamu;Unayahara, Kazutaka
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1998년도 The Third Asian Fuzzy Systems Symposium
    • /
    • pp.139-142
    • /
    • 1998
  • Missing values in data for fuzzy c-menas clustering is discussed. Two basic methods of fuzzy c-means, i.e., the standard fuzzy c-means and the entropy method are considered and three options of handling missing values are proposed, among which one is to define a new distance between data with missing values, second is to alter a weight in the new distance, and the third is to fill the missing values by an appropriate numbers. Experimental Results are shown.

  • PDF

철도 노반유실검지시스템 구축에 관한 연구 (A Study on the Sensing System Construction of a Missing Roadbed)

  • 김기영;강경식
    • 대한안전경영과학회:학술대회논문집
    • /
    • 대한안전경영과학회 2009년도 추계학술대회
    • /
    • pp.461-470
    • /
    • 2009
  • A railroad has a benefit of the mass transportation of a passenger and cargo, but just a time of accident could cause a huge loss of a human life and property. Especially, a typhoon and a localized torrential downpour usually happened in summer season have caused average 38.29 times of the missing roadbed which support the railroad in recent 7 years. If a train would pass on this railroad which the roadbed was missed, there could be a huge accident and many people will die. But, the security issue is not satisfied because the method of sensing the missing roadbed is depending solely on the naked eye inspection by a person in charge. So, in this study, I would like to suggest the missing roadbed real-time sensing and train operation system to reduce the possibility of the railroad accident by controlling the operation of train when the missing roadbed condition would be sensed in the real-time system.

  • PDF

보건조사연구에서 다변량결측치가 내포된 자료를 효율적으로 분석하기 위한 통계학적 방법 (Statistical Methods for Multivariate Missing Data in Health Survey Research)

  • 김동기;박은철;손명세;김한중;박형욱;안재형;임종건;송기준
    • Journal of Preventive Medicine and Public Health
    • /
    • 제31권4호
    • /
    • pp.875-884
    • /
    • 1998
  • Missing observations are common in medical research and health survey research. Several statistical methods to handle the missing data problem have been proposed. The EM algorithm (Expectation-Maximization algorithm) is one of the ways of efficiently handling the missing data problem based on sufficient statistics. In this paper, we developed statistical models and methods for survey data with multivariate missing observations. Especially, we adopted the EM algorithm to handle the multivariate missing observations. We assume that the multivariate observations follow a multivariate normal distribution, where the mean vector and the covariance matrix are primarily of interest. We applied the proposed statistical method to analyze data from a health survey. The data set we used came from a physician survey on Resource-Based Relative Value Scale(RBRVS). In addition to the EM algorithm, we applied the complete case analysis, which uses only completely observed cases, and the available case analysis, which utilizes all available information. The residual and normal probability plots were evaluated to access the assumption of normality. We found that the residual sum of squares from the EM algorithm was smaller than those of the complete-case and the available-case analyses.

  • PDF

협력적 여과(Collaborative Filtering)에서 결측치(Missing Value) 예측에 관한 연구 (The Research fur Prediction of Missing Value in Collaborative Filtering)

  • 황철현;박영길;박용준
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 추계정기학술대회:지능형기술과 CRM
    • /
    • pp.333-337
    • /
    • 2000
  • 성공적인 사이트를 위한 필수적인 요소로 각광받고 있는 collaborative filtering 기술은 정보의 과부하를 줄일 수 있고 고객에 대한 충성도를 높여주는 효과로 인해 많은 사이트에 적용되어 운용되고 있다. 이 논문에서는 collaborative filtering 적용 포기에 발생하는 정보의 부족으로 인한 정확도 저하를 막기 위해 상품간 연관성을 이용한 결측티 예측 방안을 제안한다.

  • PDF

Weighted k-Nearest Neighbors를 이용한 결측치 대치 (On the Use of Weighted k-Nearest Neighbors for Missing Value Imputation)

  • 임찬희;김동재
    • 응용통계연구
    • /
    • 제28권1호
    • /
    • pp.23-31
    • /
    • 2015
  • 통계적 분석을 할 때 결측치가 발생하는 것은 매우 통상적이다. 이러한 결측치를 대치하는 방법은 여러가지가 있으며, 기존에 사용되는 단일대치법으로 k-nearest neighbor(KNN) 방법이 있다. 하지만 KNN 방법은 k개의 최근접 이웃들 중 극단치나 이상치가 있을 때 편의를 일으킬 수 있다. 본 논문에서는 KNN 방법의 단점을 보완하여 가중 k-최근접이웃(Weighted k-Nearest Neighbors; WKNN) 대치법을 제안하였다. 또한 모의실험을 통해서 기존의 방법과 비교하였다.

Imputation Method Using Local Linear Regression Based on Bidirectional k-nearest-components

  • Yonggeol, Lee
    • Journal of information and communication convergence engineering
    • /
    • 제21권1호
    • /
    • pp.62-67
    • /
    • 2023
  • This paper proposes an imputation method using a bidirectional k-nearest components search based local linear regression method. The bidirectional k-nearest-components search method selects components in the dynamic range from the missing points. Unlike the existing methods, which use a fixed-size window, the proposed method can flexibly select adjacent components in an imputation problem. The weight values assigned to the components around the missing points are calculated using local linear regression. The local linear regression method is free from the rank problem in a matrix of dependent variables. In addition, it can calculate the weight values that reflect the data flow in a specific environment, such as a blackout. The original missing values were estimated from a linear combination of the components and their weights. Finally, the estimated value imputes the missing values. In the experimental results, the proposed method outperformed the existing methods when the error between the original data and imputation data was measured using MAE and RMSE.

태양광 발전량 데이터의 시계열 모델 적용을 위한 결측치 보간 방법 연구 (A Research for Imputation Method of Photovoltaic Power Missing Data to Apply Time Series Models)

  • 정하영;홍석훈;전재성;임수창;김종찬;박철영
    • 한국멀티미디어학회논문지
    • /
    • 제24권9호
    • /
    • pp.1251-1260
    • /
    • 2021
  • This paper discusses missing data processing using simple moving average (SMA) and kalman filter. Also SMA and kalman predictive value are made a comparative study. Time series analysis is a generally method to deals with time series data in photovoltaic field. Photovoltaic system records data irregularly whenever the power value changes. Irregularly recorded data must be transferred into a consistent format to get accurate results. Missing data results from the process having same intervals. For the reason, it was imputed using SMA and kalman filter. The kalman filter has better performance to observed data than SMA. SMA graph is stepped line graph and kalman filter graph is a smoothing line graph. MAPE of SMA prediction is 0.00737%, MAPE of kalman prediction is 0.00078%. But time complexity of SMA is O(N) and time complexity of kalman filter is O(D2) about D-dimensional object. Accordingly we suggest that you pick the best way considering computational power.