• 제목/요약/키워드: MissingData

검색결과 1,302건 처리시간 0.031초

대중교통 OD구축을 위한 대중교통카드 데이터의 오류와 결측 분석 및 보정에 관한 연구 (The study on error, missing data and imputation of the smart card data for the transit OD construction)

  • 박준환;김순관;조종석;허민욱
    • 대한교통학회지
    • /
    • 제26권2호
    • /
    • pp.109-119
    • /
    • 2008
  • 대중교통 교통카드 도입 이후, 점차 이용율이 증가되고 있다. 카드 데이터를 통해 얻을 수 있는 자료를 고려할 때 대중교통 카드 이용의 증가는 통행패턴 분석 및 정책적 측면에서 중요한 의미를 가지고 있다. 그 중에서 특히 죤별 대중교통 통행수요(O/D)를 손쉽게 파악할 수 있다는 점에서 높은 중요성을 가진다. 카드데이터를 통해 대중교통 죤별 통행수요(O/D)를 파악함에 있어서 데이터 자체의 오류에 대한 분석이나 결측에 대한 보완 과정이 반드시 필요하다. 본 연구에서는 반드시 선행되어야 할 과제이지만 아직 연구사례가 없었던 카드데이터의 오류와 결측에 관해 살펴보았다. 그 결과, 통행수요(O/D)분석과 관련한 오류나 결측에 대한 특성을 제시하였고, 결측에 대한 보정방안을 제안하였다. 그리고 제시된 결측방안들에 대한 적용 및 평가와 함께 활용방안을 제시하여, 향후 보다 신뢰성있는 대중교통 OD구축을 위한 기반을 마련하였다.

경험적 베이지안 방법을 이용한 결측자료 연구 (Analysis of Missing Data Using an Empirical Bayesian Method)

  • 윤용화;최보승
    • 응용통계연구
    • /
    • 제27권6호
    • /
    • pp.1003-1016
    • /
    • 2014
  • 조사를 통하여 수집된 자료에 기반하여 분석을 수행하는데 있어서 결측값에 대한 적절한 대체 방법은 보다 정확한 결과를 얻기 위한 매우 중요한 절차이다. 본 연구에서는 모형에 기반하여 결측자료에 대한 대체방법과 모형 추정방법을 다루었다. 특히 최대우도추정 방법의 적용에서 발생할 수 있는 변방값 문제(bounday soluntion problem)를 해결하기 위하여 베이지안 방법을 적용하였다. 분석된 결과를 바탕으로 하여 예측을 수행한 후 결측체계에 따른 정확성 비교를 수행하여 결측체계에 따른 결측모형의 선택 문제를 다루었다. 예측의 정확도를 측정하기 위하여 Bautista 등 (2007)이 제안한 MWPE(modified within precinct error) 이용하여 비교를 수행 하였다. 본 연구에서 제시된 방법들은 2012년에 시행된 제 18대 대통령 선거 당일 시행된 출구조사의 자료를 적용하여 분석을 수행하였다. 분석 결과 임의결측체계의 가정에 따른 결과가 비임의체계 가정에 따른 결과보다 예측의 정확도가 더 높았다.

결정트리를 이용하는 불완전한 데이터 처리기법 (Incomplete data handling technique using decision trees)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제12권8호
    • /
    • pp.39-45
    • /
    • 2021
  • 본 논문은 손실값을 포함하는 불완전한 데이터를 처리하는 방법에 대해 논한다. 손실값을 최적으로 처리한다는 것은 학습 데이터가 가지고 있는 정보들에서 본래값과 가장 근사한 추정치를 구하고, 이 값으로 손실값을 대치하는 것이다. 이것을 실현하기 위한 방안으로 분류기가 정보를 분류하는 과정에서 완성되어가는 결정트리를 이용한다. 다시말해 이 결정트리는 전체 학습 데이터 중에서 손실값을 포함하지 않는 완전한 정보만을 C4.5 분류기에 입력하여 학습하는 과정에서 얻어진다. 이 결정트리의 노드들은 분류 변수의 정보를 가지는데, 루트에 가까운 상위 노드일수록 많은 정보를 포함하게 되고 말단 노드에서는 루트로부터의 경로를 통해 분류 영역을 형성하게 된다. 또한 각 영역에는 분류된 데이터 사건들의 평균이 기록된다. 손실값을 포함하는 사건들은 이러한 결정트리에 입력되어 각 노드의 정보에 따라 순회과정을 통해 사건과 가장 근접한 영역을 찾아가게 된다. 이 영역에 기록된 평균값을 손실값의 추정치로 간주하고, 보상 과정은 완성된다.

결측치 비율이 높은 시계열 데이터 분석 및 예측을 위한 머신러닝 모델 구축 (Development of a Machine Learning Model for Imputing Time Series Data with Massive Missing Values)

  • 고방원;한용희
    • 한국정보전자통신기술학회논문지
    • /
    • 제17권3호
    • /
    • pp.176-182
    • /
    • 2024
  • 본 연구는 결측치 비율이 높은 시계열 데이터를 효과적으로 분석하고 예측할 수 있는 머신러닝 모델을 구축하기 위해 다양한 결측치 처리 방법을 비교 분석하였다. 이를 위해 PSMF(Predictive State Model Filtering), MissForest, IBFI(Imputation By Feature Importance) 방법을 적용하였으며, 이후 LightGBM, XGBoost, EBM(Explainable Boosting Machines) 머신러닝 모델을 사용하여 예측 성능을 평가하였다. 연구 결과, 결측치 처리 방법 중에서는 MissForest와 IBFI가 비선형적 데이터 패턴을 잘 반영하여 가장 높은 성능을 나타냈으며, 머신러닝 모델 중에서는 XGBoost와 EBM 모델이 LightGBM 모델보다 더 높은 성능을 보였다. 본 연구는 결측치 비율이 높은 시계열 데이터의 분석 및 예측에 있어 비선형적 결측치 처리 방법과 머신러닝 모델의 조합이 중요함을 강조하며, 실무적으로 유용한 방법론을 제시하였다.

일반국토 상시 교통량자료를 이용한 교통량 결측자료 추정 (Missing Data Imputation Using Permanent Traffic Counts on National Highways)

  • 하정아;박재화;김성현
    • 대한교통학회지
    • /
    • 제25권1호
    • /
    • pp.121-132
    • /
    • 2007
  • 일반국도의 상시조사 자료는 교통량 조사 장비를 통해 수집되며, 수집된 자료가 누락되거나 불량일 경우 통계자료의 객관성을 유지하기 위해서 보정을 해야 한다. 교통량 결측 자료의 보정을 통계적인 방법으로 접근하여 신뢰성을 높이고자 본 연구에서는 보정 대상 시간과 동일시간의 자료를 적용할 수 있는 자기회귀분석과 보정 대상 지점과 동일 지점의 자료를 적용할 수 있는 계절 시계열 분석을 이용하여 보정하는 방안을 제시하였다. 계절 시계열 분석을 적용하여 결측 자료를 보정한 결과, 결측 기간이 길어질수록 오차가 커지는 것으로 분석되었다. 이것은 단기예측의 경우 실제자료를 이용하여 예측 값을 제시하지만, 장기예측의 경우 예측된 자료를 이용하여 예측값을 제시하기 때문에 신뢰성이 떨어지기 때문이라 판단된다. 자기회귀분석을 적용하여 결측 자료를 보정한 결과, 시계열분석에 비해서 오차가 적은 것으로 분석되었다. 이것은 교통량자료는 과거 패턴보다 현재 시점의 영향을 더 많이 받는 것이기 때문이라 판단된다 하지만 자기회귀분석은 인근에 패턴이 유사한 지점이 있어야 가능하며, 인근에 유사한 지점이 있더라도 그 지점의 자료가 불량일 경우 보정이 불가능하다는 단점이 있다. 이러한 경우에는 과거자료를 이용해서 보정할 수밖에 없으며, 단기 결측의 경우에는 시계열분석을 이용할 수 있다.

Filling in Water Temperature Data of Aquatic Environments using a Pre-constructed Relationship

  • Lee, Khil-Ha
    • 한국환경과학회지
    • /
    • 제26권10호
    • /
    • pp.1125-1133
    • /
    • 2017
  • In this study a method for filling in missing data of river water temperature using a pre-constructed mathematical relationship between air and water temperatures is presented. A regression between water temperatures at individual stations and ambient air temperatures at nearby weather stations can provide a practical method for representing missing water temperature data for an entire region. Air and water temperature data that were collected from two test sites (one coastal and, one inland) were individually fitted to a nonlinear regression model. To consider seasonal hysteresis effects, separate functions were fitted to the data in the rising and falling limbs. A single-criterion, multi-parameter optimization technique was used to determine the optimal parameter sets. This method minimizes the differences between the time series of the measured and estimated data. The constructed air-water temperature relationship was subsequently applied to represent missing water temperature data. It was found that the RMSEs(MBEs) were in the range of $1.843-1.976^{\circ}C(-0.329-0.201^{\circ}C)$ and the coefficient of determination were in the range of 0.92-0.96. The results demonstrate that the predicted water temperatures using the regression equations were reasonably accurate.

태양광 발전량 데이터의 시계열 모델 적용을 위한 결측치 보간 방법 연구 (A Research for Imputation Method of Photovoltaic Power Missing Data to Apply Time Series Models)

  • 정하영;홍석훈;전재성;임수창;김종찬;박철영
    • 한국멀티미디어학회논문지
    • /
    • 제24권9호
    • /
    • pp.1251-1260
    • /
    • 2021
  • This paper discusses missing data processing using simple moving average (SMA) and kalman filter. Also SMA and kalman predictive value are made a comparative study. Time series analysis is a generally method to deals with time series data in photovoltaic field. Photovoltaic system records data irregularly whenever the power value changes. Irregularly recorded data must be transferred into a consistent format to get accurate results. Missing data results from the process having same intervals. For the reason, it was imputed using SMA and kalman filter. The kalman filter has better performance to observed data than SMA. SMA graph is stepped line graph and kalman filter graph is a smoothing line graph. MAPE of SMA prediction is 0.00737%, MAPE of kalman prediction is 0.00078%. But time complexity of SMA is O(N) and time complexity of kalman filter is O(D2) about D-dimensional object. Accordingly we suggest that you pick the best way considering computational power.

Bridge Health Monitoring with Consideration of Environmental Effects

  • Kim, Yuhee;Kim, Hyunsoo;Shin, Soobong;Park, Jong-Chil
    • 비파괴검사학회지
    • /
    • 제32권6호
    • /
    • pp.648-660
    • /
    • 2012
  • Reliable response measurements are extremely important for proper bridge health monitoring but incomplete and unreliable data may be acquired due to sensor problems and environmental effects. In the case of a sensor malfunction, parts of the measured data can be missing so that the structural health condition cannot be monitored reliably. This means that the dynamic characteristics of natural frequencies can change as if the structure is damaged due to environmental effects, such as temperature variations. To overcome these problems, this paper proposes a systematic procedure of data analysis to recover missing data and eliminate the environmental effects from the measured data. It also proposes a health index calculated statistically using revised data to evaluate the health condition of a bridge. The proposed method was examined using numerically simulated data with a truss structure and then applied to a set of field data measured from a cable-stayed bridge.

Developing a Method to Define Mountain Search Priority Areas Based on Behavioral Characteristics of Missing Persons

  • Yoo, Ho Jin;Lee, Jiyeong
    • 한국측량학회지
    • /
    • 제37권5호
    • /
    • pp.293-302
    • /
    • 2019
  • In mountain accident events, it is important for the search team commander to determine the search area in order to secure the Golden Time. Within this period, assistance and treatment to the concerned individual will most likely prevent further injuries and harm. This paper proposes a method to determine the search priority area based on missing persons behavior and missing persons incidents statistics. GIS (Geographic Information System) and MCDM (Multi Criteria Decision Making) are integrated by applying WLC (Weighted Linear Combination) techniques. Missing persons were classified into five types, and their behavioral characteristics were analyzed to extract seven geographic analysis factors. Next, index values were set up for each missing person and element according to the behavioral characteristics, and the raster data generated by multiplying the weight of each element are superimposed to define models to select search priority areas, where each weight is calculated from the AHP (Analytical Hierarchy Process) through a pairwise comparison method obtained from search operation experts. Finally, the model generated in this study was applied to a missing person case through a virtual missing scenario, the priority area was selected, and the behavioral characteristics and topographical characteristics of the missing persons were compared with the selected area. The resulting analysis results were verified by mountain rescue experts as 'appropriate' in terms of the behavior analysis, analysis factor extraction, experimental process, and results for the missing persons.

MODIS 손실 자료 복원을 위한 통계적 방법 개발: 평균 편차 방법, 회귀 분석 방법과 지역 변동 방법 (The development of statistical methods for retrieving MODIS missing data: Mean bias, regressions analysis and local variation method)

  • 김민욱;이종혁;박연구;송정현
    • 한국위성정보통신학회논문지
    • /
    • 제11권4호
    • /
    • pp.94-101
    • /
    • 2016
  • 원격 관측 자료인 위성 자료는 한계점이 있으며, 특히 광학 관측기를 활용하면 구름이나 기타 요인에 의해 손실 자료가 발생한다. 본 연구에서는 MODerate resolution Imaging Spectrometer(MODIS)의 관측 자료 중, 지표면 온도 자료를 대상으로 손실 자료를 복원하기 위한 방법인 평균 편차 방법, 회귀 분석 방법, 지역 변동 방법의 세 가지 복원 방법을 개발하였다. 검증을 위해 2014년과 2015년의 위성 자료에서 관측 비율을 근거로 사례를 선택하였다. 검증 자료에서 확인된 지역 변동 방법의 평균 제곱근 편차(RMSE)는 일부 사례에서 약 2 K 이상으로 다른 복원 방법에 비해 낮은 정확도를 보였으며, 회귀 분석 방법의 RMSE는 평균 약 1.13 K으로 대부분의 사례에서 가장 좋은 결과를 보였다. 평균 편차 방법 사용 시, RMSE는 회귀 분석 방법 시와 유사하게 약 1.32 K으로 나타났다.