• 제목/요약/키워드: Outlier & Missing Value

검색결과 13건 처리시간 0.024초

데이터 저장소를 이용한 이상치 및 결측치 보정 시스템 (Adjustment System for Outlier and Missing Value using Data Storage)

  • 김광호;김능회
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권5호
    • /
    • pp.47-53
    • /
    • 2023
  • 현재 4차 산업혁명 시대에 오면서 다양하고 많은 데이터가 쌓여왔다. 농업사회도 스마트팜이나 노지에서 작물의 성장에 영향을 주는 환경 데이터를 센서로 수집해왔다. 환경 데이터는 측정하는 지역에 따라 특징을 가지고, 측정하는 시기에 따라서도 특징을 보이는 데이터이다. 수집된 농업 데이터를 활용해 통계, 인공지능을 사용하여 성장을 예측하거나 수확량을 예측하는 연구가 진행되어왔다. 이러한 연구는 기반이 되는 데이터에 따라 결과가 크게 차이난다. 이에 성능 향상을 위해서 데이터의 품질을 개선하기 위한 연구 또한 지속해서 진행되어왔다. 높은 성능을 위하여 많은 양의 데이터가 필요하고, 양이 충분하여도 데이터의 이상치나 결측치가 있을 경우 결과에 큰 영향을 미친다. 따라서 이상치와 결측치 값의 보정은 데이터 전처리 과정에서 필수이다. 이에 본 논문에서는 실제 농가에서 수집된 데이터를 통합하고 이를 기반으로 이상치와 결측치 보정 시스템을 제안한다.

Weighted k-Nearest Neighbors를 이용한 결측치 대치 (On the Use of Weighted k-Nearest Neighbors for Missing Value Imputation)

  • 임찬희;김동재
    • 응용통계연구
    • /
    • 제28권1호
    • /
    • pp.23-31
    • /
    • 2015
  • 통계적 분석을 할 때 결측치가 발생하는 것은 매우 통상적이다. 이러한 결측치를 대치하는 방법은 여러가지가 있으며, 기존에 사용되는 단일대치법으로 k-nearest neighbor(KNN) 방법이 있다. 하지만 KNN 방법은 k개의 최근접 이웃들 중 극단치나 이상치가 있을 때 편의를 일으킬 수 있다. 본 논문에서는 KNN 방법의 단점을 보완하여 가중 k-최근접이웃(Weighted k-Nearest Neighbors; WKNN) 대치법을 제안하였다. 또한 모의실험을 통해서 기존의 방법과 비교하였다.

서울시 고밀도 지상강우자료 품질관리방안 도출 (Deduction of Data Quality Control Strategy for High Density Rain Gauge Network in Seoul Area)

  • 윤성심;이병주;최영진
    • 한국수자원학회논문집
    • /
    • 제48권4호
    • /
    • pp.245-255
    • /
    • 2015
  • 고해상도의 정량적 실황강우장을 산정하기 위해서는 양질의 고밀도 강우관측망 정보가 필요하다. 이를 위해 본 연구에서 정량적 실황강우장 산정을 위한 입력자료로 SK 플래닛의 고밀도 복합기상센서 관측망과 기존 기상청 관측망을 이용하고자 하였다. 이를 위해 서울지역에 위치한 SK 플래닛의 복합기상센서 관측망을 소개하고, 2013년 7~9월 3개월 동안의 관측자료의 품질을 분석하였다. 품질분석 결과, SK 플래닛 관측소가 일부 관측소를 제외하고 대부분 기존 관측망과 유사하게 강우를 관측하는 것을 확인할 수 있었다. 다만, 일시적인 기계 및 자료 전송 오류로 인해 발생할 수 있는 결측치 및 이상치가 미치는 영향을 최대한 저감하기 위해서 오자료를 실시간으로 보정할 수 있는 품질보정 기법을 개발하였으며, 개발된 기법이 적절히 강우를 보정하는 것을 확인하였다. 이를 통해 결측률이 20% 미만이면서 오자료의 영향이 최소가 되는 190개소(기상청 34개소, SK 플래닛 156 개소)를 정량적 실황강우장 산정에 활용하였다. 또한, 약 $3km^2$의 밀도를 갖는 고해상도 관측망을 이용하여 산정된 강우분포장의 재현성을 기존 기상청 관측망의 결과비교를 통해 평가한 결과, 고밀도 관측망을 통해 산정된 강우분포장의 빈도곡선이 레이더 공간분포장과 유사하며, 기존 기상청 관측망의 공백을 보완할 수 있음을 확인하였다. 특히, 이 결과를 통해 고밀도의 강우관측 결과를 활용한다면 레이더 참강우장에 근사한 공간분포된 강우를 산정할 수 있다는 것을 확인할 수 있었다.

RAM 분석 정확도 향상을 위한 야전운용 데이터의 이상값과 결측값 처리 방안 (Method of Processing the Outliers and Missing Values of Field Data to Improve RAM Analysis Accuracy)

  • 김인석;정원
    • 한국신뢰성학회지:신뢰성응용연구
    • /
    • 제17권3호
    • /
    • pp.264-271
    • /
    • 2017
  • Purpose: Field operation data contains missing values or outliers due to various causes of the data collection process, so caution is required when utilizing RAM analysis results by field operation data. The purpose of this study is to present a method to minimize the RAM analysis error of the field data to improve the accuracy. Methods: Statistical methods are presented for processing of the outliers and the missing values of the field operating data, and after analyzing the RAM, the differences between before and after applying the technique are discussed. Results: The availability is estimated to be lower by 6.8 to 23.5% than that before processing, and it is judged that the processing of the missing values and outliers greatly affect the RAM analysis result. Conclusion: RAM analysis of OO weapon system was performed and suggestions for improvement of RAM analysis were presented through comparison with the new and current method. Data analysis results without appropriate treatment of error values may result in incorrect conclusions leading to inappropriate decisions and actions.

가중 적응 최근접 이웃을 이용한 결측치 대치 (On the use of weighted adaptive nearest neighbors for missing value imputation)

  • 염윤진;김동재
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.507-516
    • /
    • 2018
  • 결측치를 대치하는 여러가지 단일대치법 중에서 다변량 정규성 등의 모수적 모형이 만족되지 않을 때에도 강건성(robustness)을 지니는 k-최근접 이웃 대치법(k-nearest neighbors; KNN)이 널리 활용된다. KNN대치법에서 자료의 국소적 특징을 반영한 적응 최근접 이웃(adaptive nearest neighbors; ANN) 대치법과 k개의 최근접 이웃들 중 극단값이나 이상값이 있는 경우 이들의 영향에 덜 민감한 가중 k-최근접 이웃(weighted KNN; WKNN) 대치법의 장점을 결합한 가중 적응 최근접 이웃(weighted ANN; WANN) 대치법을 제안하였다. 또한 모의실험을 통하여 기존의 방법들과 제안한 방법을 비교하였다.

기계 학습을 이용한 항로표지 기상 자료의 보간에 관한 연구 (Study on Weather Data Interpolation of a Buoy Based on Machine Learning Techniques)

  • 정성훈;마준익;조성현;임기륜;이준우;한준희
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2022년도 춘계학술대회
    • /
    • pp.72-74
    • /
    • 2022
  • 해상에 설치된 항로표지 부표의 발달로 다양한 자료가 수집된다. 그러나 원시 관측자료는 기계 결함 및 기상환경에 따라 결측과 이상치를 포함한 오류로 인하여 곧바로 사용되기 어렵다. 따라서 본 연구에서는 항로표지에서 수집된 미흡한 기상 관측 자료를 기계학습이 가능하도록 누락된 시각의 자료를 추가하여 선형 보간을 실시했다. 이후 XGBoost기법과 KNN-regressor을 이용하여, 오류가 발생한 시점의 자료를 보간하는 기법을 연구하고자 한다.

  • PDF

한계와 이상치가 있는 결측치의 로버스트 다중대체 방법 (Robust multiple imputation method for missings with boundary and outliers)

  • 박유성;오도영;권태연
    • 응용통계연구
    • /
    • 제32권6호
    • /
    • pp.889-898
    • /
    • 2019
  • 항목 무응답(item missing)이 발생한 설문조사에서 결측이 포함된 변수에 이상치(outlier)의 존재와 다른 설문문항 항목과의 논리적 한계(boundary) 조건들이 유의미하다면 결측치 대체문제는 매우 복잡해진다. 한계가 있는 결측값들을 포함한 변수에 이상치가 존재하는 경우, 기존의 회귀분석에 근거한 결측치 대체방법은 편향된 대체값 그리고 한계를 만족하지 않은 대체값을 제시할 가능성이 있다. 이에 본 논문은 회귀모형에 기반을 두고 결측치들을 대체를 함에 있어 이상치와 논리적 한계조건이 자료에 존재하는 경우, 다양한 로버스트 회귀모형과 다중대체 방법의 조합을 통해 해결점을 모색하고자 한다. 이를 위해 이들 방법들의 최적의 조합을 다양한 시나리오별로 모의실험을 통하여 찾아보고 이에 대하여 논의하였다.

평균필터 조합을 통한 최대수요전력 예측기법 (A Maximum Power Demand Prediction Method by Average Filter Combination)

  • 유찬직;김재성;노경우;조완섭
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.227-239
    • /
    • 2020
  • 본 논문에서는 산업현장에서 통신 오류에도 불구하고 최대전력수요를 예측하는 방법을 소개한다. 최근 국내의 탈원전 정책으로 전력가격상승은 불가피하며, 이에 따른 전력수요 관리를 위한 전력사용량과 최대부하관리는 중요한 문제로 부상하고 있다. 이에 따라, 피크전력을 예측하고 관리하는 것이 중요하다. 하지만 실제 산업현장에서는 각종 설비 및 센서에서 발생하는 노이즈 등으로 인해 측정된 전력데이터의 손실 및 변조 등의 문제가 발생한다. 측정된 유효전력 데이터가 손실된 경우 정확한 값을 예측하기 어렵다. 이 연구는 측정된 유효전력 데이터가 손실될 경우 이상 징후와 결측값을 예측하고 수정하는 모델을 제시한다. 본 연구에 사용된 모델은 산업현장에서 통신 오류가 발생할 경우 최대 전력수요를 예측하는 데 유용할 것으로 예상한다.

A Big Data-Driven Business Data Analysis System: Applications of Artificial Intelligence Techniques in Problem Solving

  • Donggeun Kim;Sangjin Kim;Juyong Ko;Jai Woo Lee
    • 한국빅데이터학회지
    • /
    • 제8권1호
    • /
    • pp.35-47
    • /
    • 2023
  • It is crucial to develop effective and efficient big data analytics methods for problem-solving in the field of business in order to improve the performance of data analytics and reduce costs and risks in the analysis of customer data. In this study, a big data-driven data analysis system using artificial intelligence techniques is designed to increase the accuracy of big data analytics along with the rapid growth of the field of data science. We present a key direction for big data analysis systems through missing value imputation, outlier detection, feature extraction, utilization of explainable artificial intelligence techniques, and exploratory data analysis. Our objective is not only to develop big data analysis techniques with complex structures of business data but also to bridge the gap between the theoretical ideas in artificial intelligence methods and the analysis of real-world data in the field of business.

인간 지식을 이용한 경험적 의사결정트리의 설계 (Design of Heuristic Decision Tree (HDT) Using Human Knowledge)

  • 윤태복;이지형
    • 한국지능시스템학회논문지
    • /
    • 제19권4호
    • /
    • pp.525-531
    • /
    • 2009
  • 데이터 마이닝(Data Mining)은 수집된 데이터로 부터 감춰진 패턴을 찾는 작업이다. 여기에서 수집된 데이터는 예측 및 추천을 위한 기반 정보로 중요한 역할을 하며, 분석 결과의 성능을 향상시키기 위해 잘못된(Missing value) 데이터를 선별하는 과정을 필요로 한다. 수집한 데이터에서 의도하지 못한 데이터를 선별하기 위한 기존의 방법은 주로 통계적이거나 단순 거리(Distance)에 기반을 둔 방법을 이용하였다. 하지만 환경 및 데이터의 특성을 고려하지 못하여, 의미 있는 데이터도 함께 분석에서 제외 될 수 있는 문제점을 가지고 있다. 본 논문은 인간의 경험적 지식을 수집된 데이터와 비교하여 가중치로 변환하고, 의사결정트리(Decision Tree)의 생성에 이용한다. 생성된 트리는 인간의 지식이 반영되어 기존의 분석 방법보다 신뢰성이 높다고 할 수 있으며, 실험을 통하여 제안하는 방법의 유효성을 확인하였다.