• Title/Summary/Keyword: 이상치 및 결측치

Search Result 15, Processing Time 0.028 seconds

Development of quality control techniques for global climate observations (글로벌 기후 관측자료 품질관리 기법 개발)

  • Lee, Jae-Seung;Kim, Seon-Ho;Bae, Deg-Hyo
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2019.05a
    • /
    • pp.104-104
    • /
    • 2019
  • 기후 관측자료의 경우 관측, 가공, 전송 중에 오류가 발생할 수 있으며, 특히 글로벌 기후자료는 다양한 조건을 가지고 있는 자료를 수집하였기 때문에 일반적으로 해당 국가 관측자료보다 품질이 낮다. 본 연구에서는 글로벌 기후 관측자료의 품질을 개선할 수 있는 품질관리 기법을 개발하고 국내 지역에 적용해보고자 한다. 연구대상지역으로 국내 대표도시 7 곳을 선정하였으며, 글로벌 기후자료는 NCDC (National Climatic Data Center)의 일 단위 GSOD (Global Surface Summary of the Day) 자료를 수집하였다. 품질관리는 강수와 기온에 대해서 실시하였으며 과정은 크게 이상치 검사, 이상치 및 결측치 보정, 연, 월 단위 기후 자료 산정으로 구분된다. 이상치 검사는 중복성 검사, 내적일치성 검사, 기후범위 검사, 공간동질성 검사를 기반으로 구성되어 있다. 이상치 및 결측치 보정은 인접 관측소의 자료를 보간하여 수행하였으며, 보간기법은 4 방향 역거리 가중법을 활용하였다. 연, 월 단위 자료 산정은 자료의 결측률을 고려하여 일 단위 자료를 연, 월 단위 자료로 변환하는 과정이다. 이상치 검사 결과 대부분의 이상치는 기후범위와 공간동질성 검사에서 발견되는 것으로 나타났으며, 중복성 및 내적일치성 검사는 이상치 검출 효과가 적은 것으로 나타났다. 결측치 및 이상치 보간 결과 추정된 자료와 관측값 간의 상관관계가 있는 것으로 나타나 활용성이 있었다. 본 연구는 글로벌 자료의 품질관리 기법을 제시하였다는 점에서 활용성이 있으며, 향후 품질관리 기법의 검증에 관한 연구를 수행할 필요가 있다.

  • PDF

Adjustment System for Outlier and Missing Value using Data Storage (데이터 저장소를 이용한 이상치 및 결측치 보정 시스템)

  • Gwangho Kim;Neunghoe Kim
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.23 no.5
    • /
    • pp.47-53
    • /
    • 2023
  • With the advent of the 4th Industrial Revolution, diverse and a large amount of data has been accumulated now. The agricultural community has also collected environmental data that affects the growth of crops in smart farms or open fields with sensors. Environmental data has different features depending on where and when they are measured. Studies have been conducted using collected agricultural data to predict growth and yield with statistics and artificial intelligence. The results of these studies vary greatly depending on the data on which they are based. So, studies to enhance data quality have also been continuously conducted for performance improvement. A lot of data is required for high performance, but if there are outlier or missing values in the data, it can greatly affect the results even if the amount is sufficient. So, adjustment of outlier and missing values is essential in the data preprocessing. Therefore, this paper integrates data collected from actual farms and proposes a adjustment system for outlier and missing values based on it.

Assessment of National Quality Control System for the Hydrological Data (국가 수문자료 품질관리시스템 운영성과)

  • Kim, Hyoung-Seop;Cho, Chang-Hun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2012.05a
    • /
    • pp.634-634
    • /
    • 2012
  • 국가 차원에서 일관된 수문자료 품질관리기준을 제시하고, 현업에서 활용 가능한 시스템을 구축하기 위해 개발된 국가 수문자료 품질관리시스템은 2007년부터 한강, 낙동강, 금강, 영산강홍수통제소에서 적극 활용하여 수문자료 신뢰도 향상에 기여하고 있다. 본 연구에서는 기 구축된 국가 수문자료 품질관리시스템을 한강, 낙동강, 금강, 영산강홍수통제소에서 관할하는 수문관측소 및 수문자료에 적용, 운영 실적을 지속적으로 분석하고 수문자료의 이상률, 결측률 등의 통계분석을 통해 수문자료 품질 및 신뢰도를 정량적, 정성적으로 나타내고 품질관리 업무 실시 후의 개선 효과를 제시하였다. 이를 통해 국가 수자원을 적극적으로 관리하여 신뢰성 있는 수문자료를 확보하고 품질 수준 향상을 위한 개선작업을 꾸준히 수행함으로써 수문자료의 신뢰도 제고와 국가 수문자료 관리업무의 효율성을 증대시키고자 한다.

  • PDF

Behavior Recognition of Moving Object based on Multi-Fusion Network (다중 융합 네트워크 기반 이동 객체 행동 인식)

  • Kim, Jinah;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.641-642
    • /
    • 2022
  • 단일 데이터로부터의 이동 객체에 대한 행동 인식 연구는 데이터 수집 과정에서 발생하는 노이즈의 영향을 크게 받는다. 본 논문은 영상 데이터와 센서 데이터를 이용하여 다중 융합 네트워크 기반 이동 객체 행동 인식 방법을 제안한다. 영상으로부터 객체가 감지된 영역의 추출과 센서 데이터의 이상치 제거 및 결측치 보간을 통해 전처리된 데이터들을 융합하여 시퀀스를 생성한다. 생성된 시퀀스는 CNN(Convolutional Neural Networks)과 LSTM(Long Short Term Memory)기반 다중 융합 네트워크 모델을 통해 시계열에 따른 행동 특징들을 추출하고, 깊은 FC(Fully Connected) 계층을 통해 특징들을 융합하여 행동을 예측한다. 본 연구에서 제시된 방법은 사람을 포함한 동물, 로봇 등의 다양한 객체에 적용될 수 있다.

Analyzing depression data in Seoul to study ways to improve mental health. (서울시 우울증 데이터 분석을 통한 정신건강 개선 방안 연구)

  • Jieun Kim;Uijun Kim;Gwanbin Kim;GaYoung Kim;Byung-Jin Song
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.565-566
    • /
    • 2024
  • 본 연구는 서울시의 우울증 진단 경험률 통계 데이터를 분석하여 지역별 우울증 발생 패턴과 인구 통계적 특성을 파악하고자 하였습니다. 결측치 처리와 이상치 조정을 통한 데이터 전처리 후, 연령대와 성별, 교육 수준 등 다양한 변수에 따른 우울증 진단률의 분포를 탐색적 데이터 분석을 통해 시각화하였습니다. 특히 여성과 고령 인구에서 높은 우울증 경험률을 관찰하였으며, 이를 통해 맞춤형 정신건강 개선 방안을 제시하고자 하였습니다. 본 연구는 정책 입안자와 보건 전문가들에게 유용한 인사이트를 제공하고, 효과적인 우울증 관리 및 예방 전략 개발에 조금이라도 기여할 것으로 기대됩니다.

Pairwise fusion approach to cluster analysis with applications to movie data (영화 데이터를 위한 쌍별 규합 접근방식의 군집화 기법)

  • Kim, Hui Jin;Park, Seyoung
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.2
    • /
    • pp.265-283
    • /
    • 2022
  • MovieLens data consists of recorded movie evaluations that was often used to measure the evaluation score in the recommendation system research field. In this paper, we provide additional information obtained by clustering user-specific genre preference information through movie evaluation data and movie genre data. Because the number of movie ratings per user is very low compared to the total number of movies, the missing rate in this data is very high. For this reason, there are limitations in applying the existing clustering methods. In this paper, we propose a convex clustering-based method using the pairwise fused penalty motivated by the analysis of MovieLens data. In particular, the proposed clustering method execute missing imputation, and at the same time uses movie evaluation and genre weights for each movie to cluster genre preference information possessed by each individual. We compute the proposed optimization using alternating direction method of multipliers algorithm. It is shown that the proposed clustering method is less sensitive to noise and outliers than the existing method through simulation and MovieLens data application.

A Maximum Power Demand Prediction Method by Average Filter Combination (평균필터 조합을 통한 최대수요전력 예측기법)

  • Yu, Chan-Jik;Kim, Jae-Sung;Roh, Kyung-Woo;Cho, Wan-Sup
    • The Journal of Bigdata
    • /
    • v.5 no.1
    • /
    • pp.227-239
    • /
    • 2020
  • This paper introduces a method for predicting the maximum power demand despite communication errors in industrial sites. Due to the recent policy of de-nuclearization in Korea, the price of electricity is inevitable, and the amount of electricity used and maximum load management for the management of power demand are becoming important issues. Accordingly, it is important to predict and manage peak power. However, problems such as loss and modulation of measured power data occur at industrial sites due to noise generated by various facilities and sensors. It is difficult to predict the exact value when measured effective power data are lost. The study presents a model for predicting and correcting anomalies and missing values when measured effective power data are lost. The models used in this study are expected to be useful in predicting peak power demand in the event of communication errors at industrial sites.

A Strategy on Integrated Data Base Construction and Management of Global Water Resource Information System (글로벌 수자원 정보 시스템 통합 DB 구축 및 관리방안 연구)

  • Gwon, Yong Hyeon;Lee, Kyoung Do;Lee, Byong Ju
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2018.05a
    • /
    • pp.375-375
    • /
    • 2018
  • 세계 수자원 시장은 연평균 6.5%씩 증가하고 있으며, 2025년 기준 1,038조원까지 급성장할 것으로 전문가들은 예상하고 있으나, 기후변화의 가속화로 인해 가뭄 및 홍수피해가 증가하여 수자원 관리가 더욱 어려워져지고 있다. 급속도로 변화는 환경에 대비하기 위해 국내에서는 수자원 및 기후변화에 대한 다양한 연구가 진행되고 있으나, 해외사업 진출 시에는 수자원 기초자료 수집에 대한 어려움을 겪고 있다. 이를 해결하기 위해 글로벌 수문기상자료 제공과 함께 GIS정보, 댐 및 저수지 관련 자료, 인문사회 자료, 물관련 통계자료, 물관련 재해자료 등을 웹으로 제공하는 글로벌 수자원 정보 시스템(GWB, Global World Bank)을 개발하고자 한다. 본 연구에서는 시스템의 통합 DB를 구축하고 관리방안을 도출하기 위해 수집된 메타데이터 속성 및 데이터구조를 파악하고, 세부항목별 자료 포맷을 분석 후 GIS기반 관측소 정보와 자료를 매칭하여 최종적으로 시스템 컨텐츠별로 DB를 맵핑하였다. 강수량과 기상자료는 33개국의 관측소 6,531개소의 일/월/연단위 관측자료와 10,977격자의 격자분석자료를 구축하였다. 수문자료는 33개국의 수문관측소 2,242개의 월/연단위 유량관측자료와 10,977격자의 월/연단위 직접유출, 기저유출, 잠재증발산의 격자분석자료를 구축하였다. 그리고, 수집된 강우와 기상자료는 기계 오작동, 자료 전송 오류 등으로 인한 결측치 및 이상치에 대해 자료품질분석을 통해 오자료에 대한 보정을 진행하였다. 해당자료는 MySQL를 활용하여 DB를 구축하였으며, GIS정보는 GeoServer를 활용하여 운영서버에 구축된 정보를 최종적으로 사용자에게 Web Browser로 표출하였다. 해당 시스템은 추후 전지구 수자원관련 정보를 제공하여 해외사업지역의 댐이나 보 등의 구조물 설계, 수자원산업의 해외 진출시 데이터 수집의 한계점 및 시간단축을 해결할 수 있어 수자원 분야에 기여 할 수 있을 것으로 판단된다.

  • PDF

Estimation of Freeway Accident Likelihood using Real-time Traffic Data (실시간 교통자료 기반 고속도로 교통사고 발생 가능성 추정 모형)

  • Park, Joon-Hyung;Oh, Cheol;NamKoong, Seong
    • Journal of Korean Society of Transportation
    • /
    • v.26 no.2
    • /
    • pp.157-166
    • /
    • 2008
  • This study proposed a model to estimate traffic accident likelihood using real-time traffic data obtained from freeway traffic surveillance systems. Traffic variables representing spatio-temporal variations of traffic conditions were utilized as independent variables in the proposed models. Binary logistics regression modelings were conducted to correlate traffic variables and accident data that were collected from the Seohaean freeway during recent three years, from 2004 to 2006. To apply more reliable traffic variables, outlier filtering and data imputation were also performed. The outcomes of the model that are actually probabilistic measures of accident occurrence would be effectively utilized not only in designing warning information systems but also in evaluating the effectiveness of various traffic operations strategies in terms of traffic safety.

Travel Time Forecasting in an Interrupted Traffic Flow by adopting Historical Profile and Time-Space Data Fusion (히스토리컬 프로파일 구축과 시.공간 자료합성에 의한 단속류 통행시간 예측)

  • Yeo, Tae-Dong;Han, Gyeong-Su;Bae, Sang-Hun
    • Journal of Korean Society of Transportation
    • /
    • v.27 no.2
    • /
    • pp.133-144
    • /
    • 2009
  • In Korea, the ITS project has been progressed to improve traffic mobility and safety. Further, it is to relieve traffic jam by supply real time travel information for drivers and to promote traffic convenience and safety. It is important that the traffic information is provided accurately. This study was conducted outlier elimination and missing data adjustment to improve accuracy of raw data. A method for raise reliability of travel time prediction information was presented. We developed Historical Profile model and adjustment formula to reflect quality of interrupted flow. We predicted travel time by developed Historical Profile model and adjustment formula and verified by comparison between developed model and existing model such as Neural Network model and Kalman Filter model. The results of comparative analysis clarified that developed model and Karlman Filter model similarity predicted in general situation but developed model was more accurate than other models in incident situation.