• Title/Summary/Keyword: 결측

Search Result 428, Processing Time 0.029 seconds

A Missing Data Imputation by Combining K Nearest Neighbor with Maximum Likelihood Estimation for Numerical Software Project Data (K-NN과 최대 우도 추정법을 결합한 소프트웨어 프로젝트 수치 데이터용 결측값 대치법)

  • Lee, Dong-Ho;Yoon, Kyung-A;Bae, Doo-Hwan
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.4
    • /
    • pp.273-282
    • /
    • 2009
  • Missing data is one of the common problems in building analysis or prediction models using software project data. Missing imputation methods are known to be more effective missing data handling method than deleting methods in small software project data. While K nearest neighbor imputation is a proper missing imputation method in the software project data, it cannot use non-missing information of incomplete project instances. In this paper, we propose an approach to missing data imputation for numerical software project data by combining K nearest neighbor and maximum likelihood estimation; we also extend the average absolute error measure by normalization for accurate evaluation. Our approach overcomes the limitation of K nearest neighbor imputation and outperforms on our real data sets.

The Comparison of Imputation Methods in Time Series Data with Missing Values (시계열자료에서 결측치 추정방법의 비교)

  • Lee, Sung-Duck;Choi, Jae-Hyuk;Kim, Duck-Ki
    • Communications for Statistical Applications and Methods
    • /
    • v.16 no.4
    • /
    • pp.723-730
    • /
    • 2009
  • Missing values in time series can be treated as unknown parameters and estimated by maximum likelihood or as random variables and predicted by the expectation of the unknown values given the data. The purpose of this study is to impute missing values which are regarded as the maximum likelihood estimator and random variable in incomplete data and to compare with two methods using ARMA model. For illustration, the Mumps data reported from the national capital region monthly over the years 2001 ${\sim}$ 2006 are used, and results from two methods are compared with using SSF(Sum of square for forecasting error).

Correction of Drifter Data Using Recurrent Neural Networks (순환신경망을 이용한 뜰개의 관측 데이터 보정)

  • Kim, Gyoung-Do;Kim, Yong-Hyuk
    • Journal of the Korea Convergence Society
    • /
    • v.9 no.3
    • /
    • pp.15-21
    • /
    • 2018
  • The ocean drifter is a device for observing the ocean weather by floating off the sea surface. The data observed through the drifter is utilized in the ocean weather prediction and oil spill. Observed data may contain incorrect or missing data at the time of observation, and accuracy may be lowered when we use the data. In this paper, we propose a data correction model using recurrent neural networks. We corrected data collected from 7 drifters in 2015 and 8 drifters in 2016, and conducted experiments of drifter moving prediction to reflect the correction results. Experimental results showed that observed data are corrected by 13.9% and improved the performance of the prediction model by 1.4%.

Development of Performance to Predict the Prognosis of Korean Patients with Acute Myocardial Infarction by Data Transformation for Naïve Bayes Method (나이브 베이지안 방법을 위한 데이터 변환법으로 한국인 급성 심근경색증 환자의 예후를 예측하는 성능의 향상)

  • Cho, Sun Ho;Kim, Jeong-su;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.868-871
    • /
    • 2014
  • 오늘날 한국에서는 급성 심근경색증으로 인한 사망률이 높은 상태로, 발병 시에 치료까지 신속한 의사결정이 요구되는 위중한 질병이기 때문에, 한국인에게 맞는 급성 심근경색증 연구가 매우 중요 하다. 본 연구는 한국인 급성 심근경색증 등록 데이터를 이용해 기계 학습 방법의 한 종류인 나이브 베이지안 방법을 이용해 급성 심근경색증 환자의 예후를 예측하고자, 의료 데이터의 특성에 따른 데이터 변환 방법을 제안한다. 타겟 클래스에서 보다 중요한 의미를 가진 death 값에 대해 각 값을, nominal value, numeric value, 결측치로 구분한 방식에 따라, 확률을 계산해 변환한다. 실험 결과를 통해 결측치를 피처마다 존재하는 값들의 평균을 낸 값으로 대입하였을 때 가장 좋은 성능임을 알 수 있었는데, 기존의 방법에 비해 precision=5.4%, recall=7.0%의 성능이 향상되었다. 따라서 제안한 방법은 나이브 베이지안 방법의 예측 성능 향상에 기여하였다고 판단된다. 이후 적용했던 데이터 변환 방법을 여러 가지 기계 학습 방법에서 판단해보고, 다른 타겟 클래스에도 시험해보고자 한다.

On the Use of Weighted k-Nearest Neighbors for Missing Value Imputation (Weighted k-Nearest Neighbors를 이용한 결측치 대치)

  • Lim, Chanhui;Kim, Dongjae
    • The Korean Journal of Applied Statistics
    • /
    • v.28 no.1
    • /
    • pp.23-31
    • /
    • 2015
  • A conventional missing value problem in the statistical analysis k-Nearest Neighbor(KNN) method are used for a simple imputation method. When one of the k-nearest neighbors is an extreme value or outlier, the KNN method can create a bias. In this paper, we propose a Weighted k-Nearest Neighbors(WKNN) imputation method that can supplement KNN's faults. A Monte-Carlo simulation study is also adapted to compare the WKNN method and KNN method using real data set.

Analysis of flow relationship for replacement to IRDIMS continuous data (자동유량측정시설 연속유량자료 보완을 위한 상하류관계 검토)

  • Kwon, Young Bin;Kim, Dong Su;Cha, Jun Ho;Jung, Sung Won
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2019.05a
    • /
    • pp.359-359
    • /
    • 2019
  • 2011년 4대강 다기능보 설치에 따라 배수영향을 받는 구간은 기존의 측정방법으로는 유량측정이 어려워 보 구간별로 자동유량측정시설을 설치하여 실시간으로 유량을 생산하고 있다. 하지만 현재 수질개선 및 하천 자연화를 위해 보 운영수위를 저하시켰다. 이에 수위 저하에 따른 측정영역 한계로 정상적인 운영에 어려움이 발생하고 있다. 본 연구에서는 낙동강 합천창녕보 영향 구간 내 합천군(율지교), 합천군(적포교) 지점을 대상으로 상하류 유량관계를 활용하여 결측 및 오측자료를 보완하고자 한다. 대상지점은 2018년 수문개방에 따른 수위저하로 인한 결측과 부유물에 걸림에 의한 유속자료 오측으로 자료의 보완이 필요하였다. 이로 인해 자료 보완을 위하여 각 지점의 환산유량을 이용하여 경향성 검토를 하였으며, 상하류 환산유량과 검보정 측정성과와의 관계를 활용한 관계식을 개발하여 유량을 산정하였다. 산정된 유량과 검보정 측정결과 상관도(R2)는 0.95 이상으로 나타나 매우 합리적으로 판단되나 수문조작 시에 일부 편차는 보인다는 결과를 나타냈다. 단기적인 자료보완은 품질관리를 통해 다양한 방법으로 가능하지만 상하류 유량관계를 활용한 방법이 장기적인 자료를 보완하는 방법으로 적절하다고 판단된다. 향후 보완방법을 다른 보 구간의 지점에도 적용하여 보 수위저하에 따른 시설물 개선공사가 진행되는 동안 실시간 유량자료의 제공으로 연속적인 유량자료 생산이 가능하도록 하고자 한다.

  • PDF

Study on Weather Data Interpolation of a Buoy Based on Machine Learning Techniques (기계 학습을 이용한 항로표지 기상 자료의 보간에 관한 연구)

  • Seong-Hun Jeong;Jun-Ik Ma;Seong-Hyun Jo;Gi-Ryun Lim;Jun-Woo Lee;Jun-Hee Han
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2022.06a
    • /
    • pp.72-74
    • /
    • 2022
  • Several types of data are collected from buoy due to the development of hardware technology.. However, the collected data are difficult to use due to errors including missing values and outliers depending on mechanical faults and meteorological environment. Therefore, in this study, linear interpolation is performed by adding the missing time data to enable machine learning to the insufficient meteorological data. After the linear interpolation, XGBoost and KNN-regressor, are used to forecast error data and suggested model is evaluated by using real-world data of a buoy.

  • PDF

A study on the factors influencing the data collection performance of smart buoys (스마트 항로표지의 데이터 수집 성능에 영향을 미치는 요인에 관한 연구)

  • Ho-Joon Kim;Min-Kyu Kim;Nam-Yong Lee;Chul-Soo Kim;Sangmun Shin;Se-woong Oh;Jin-Hong Yang
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2021.11a
    • /
    • pp.60-62
    • /
    • 2021
  • 항로표지는 해상상황 정보를 수집하고 선박들의 항해에 안전을 도모하기 위해 설치 및 운용되고 있다. 관련해 개별 지방청에서 운영되는 데이터를 빅데이터 형태로 활용하고자 하는 경우 수집된 데이터의 품질에 대한 평가가 이루어져야 한다. 본 논문에서는 수집된 항로표지 데이터의 누락 정보를 중심으로 데이터 수집에 있어 장애 생성의 주된 원인을 찾고자 하였다. 수집된 데이터의 분석 결과 기상악화와 표지의 전압이 하락한 날에 데이터 결측 발생률이 톺음을 확인할 수 있었다. 이를 통해 기상 상황, 표지의 전압 상태 그리고 수집된 데이터 개수의 비교를 통해 기상악화가 영향을 미쳤을 수 있음을 확인하였다.

  • PDF

Gap-Filling of Sentinel-2 NDVI Using Sentinel-1 Radar Vegetation Indices and AutoML (Sentinel-1 레이더 식생지수와 AutoML을 이용한 Sentinel-2 NDVI 결측화소 복원)

  • Youjeong Youn;Jonggu Kang;Seoyeon Kim;Yemin Jeong;Soyeon Choi;Yungyo Im;Youngmin Seo;Myoungsoo Won;Junghwa Chun;Kyungmin Kim;Keunchang Jang;Joongbin Lim;Yangwon Lee
    • Korean Journal of Remote Sensing
    • /
    • v.39 no.6_1
    • /
    • pp.1341-1352
    • /
    • 2023
  • The normalized difference vegetation index (NDVI) derived from satellite images is a crucial tool to monitor forests and agriculture for broad areas because the periodic acquisition of the data is ensured. However, optical sensor-based vegetation indices(VI) are not accessible in some areas covered by clouds. This paper presented a synthetic aperture radar (SAR) based approach to retrieval of the optical sensor-based NDVI using machine learning. SAR system can observe the land surface day and night in all weather conditions. Radar vegetation indices (RVI) from the Sentinel-1 vertical-vertical (VV) and vertical-horizontal (VH) polarizations, surface elevation, and air temperature are used as the input features for an automated machine learning (AutoML) model to conduct the gap-filling of the Sentinel-2 NDVI. The mean bias error (MAE) was 7.214E-05, and the correlation coefficient (CC) was 0.878, demonstrating the feasibility of the proposed method. This approach can be applied to gap-free nationwide NDVI construction using Sentinel-1 and Sentinel-2 images for environmental monitoring and resource management.

Filling of Incomplete Rainfall Data Using Fuzzy-Genetic Algorithm (퍼지-유전자 알고리즘을 이용한 결측 강우량의 보정)

  • Kim, Do Jin;Jang, Dae Won;Seoh, Byung Ha;Kim, Hung Soo
    • Journal of Wetlands Research
    • /
    • v.7 no.4
    • /
    • pp.97-107
    • /
    • 2005
  • As the distributed model is developed and widely used, the accuracy of a rainfall measurement and more dense rainfall observation network are required for the reflection of various spatial properties. However, in reality, it is not easy to get the accurate data from dense network. Generally, we could not have the proper rainfall gages in space and even we have proper network for rainfall gages it is not easy to reflect the variations of rainfall in space and time. Often, we do also have missing rainfall data at the rainfall gage stations due to various reasons. We estimate the distribution of mean areal rainfall data from the point rainfalls. So, in the aspect of continuous rainfall property in time, we should fill the missing rainfall data then we can represent the spatial distribution of rainfall data. This study uses the Fuzzy-Genetic algorithm as a interpolation method for filling the missing rainfall data. We compare the Fuzzy-Genetic algorithm with arithmetic average method, inverse distance method, normal ratio method, and ratio of distance and elevation method which are widely used previously. As the results, the previous methods showed the accuracy of 70 to 80 % but the Fuzzy-Genetic algorithm showed that of 90 %. Especially, from the sensitivity analysis, we suggest the values of power in the equation for filling the missing data according to the distance and elevation.

  • PDF