DOI QR코드

DOI QR Code

Analysis of the Optimal Window Size of Hampel Filter for Calibration of Real-time Water Level in Agricultural Reservoirs

농업용저수지의 실시간 수위 보정을 위한 Hampel Filter의 최적 Window Size 분석

  • Joo, Dong-Hyuk (Department of Rural and Bio-Systems Engineering & BK21 Education and Research Unit for Climate-smart ReclaimedTideland Agriculture, Chonnam National University) ;
  • Na, Ra (Department of Rural and Bio-Systems Engineering & BK21 Education and Research Unit for Climate-smart ReclaimedTideland Agriculture, Chonnam National University) ;
  • Kim, Ha-Young (Department of Rural and Bio-Systems Engineering & BK21 Education and Research Unit for Climate-smart ReclaimedTideland Agriculture, Chonnam National University) ;
  • Choi, Gyu-Hoon (WeDB company) ;
  • Kwon, Jae-Hwan (Agricultural Infrastructure Project Office, Korea Rural Community Corporation (KRC)) ;
  • Yoo, Seung-Hwan (Department of Rural and Bio-Systems Engineering & BK21 Education and Research Unit for Climate-smart ReclaimedTideland Agriculture, Chonnam National University)
  • Received : 2021.12.16
  • Accepted : 2022.03.28
  • Published : 2022.05.31

Abstract

Currently, a vast amount of hydrologic data is accumulated in real-time through automatic water level measuring instruments in agricultural reservoirs. At the same time, false and missing data points are also increasing. The applicability and reliability of quality control of hydrological data must be secured for efficient agricultural water management through calculation of water supply and disaster management. Considering the characteristics of irregularities in hydrological data caused by irrigation water usage and rainfall pattern, the Korea Rural Community Corporation is currently applying the Hampel filter as a water level data quality management method. This method uses window size as a key parameter, and if window size is large, distortion of data may occur and if window size is small, many outliers are not removed which reduces the reliability of the corrected data. Thus, selection of the optimal window size for individual reservoir is required. To ensure reliability, we compared and analyzed the RMSE (Root Mean Square Error) and NSE (Nash-Sutcliffe model efficiency coefficient) of the corrected data and the daily water level of the RIMS (Rural Infrastructure Management System) data, and the automatic outlier detection standards used by the Ministry of Environment. To select the optimal window size, we used the classification performance evaluation index of the error matrix and the rainfall data of the irrigation period, showing the optimal values at 3 h. The efficient reservoir automatic calibration technique can reduce manpower and time required for manual calibration, and is expected to improve the reliability of water level data and the value of water resources.

Keywords

Ⅰ. 서론

현재 한국농어촌공사에서는 농업용 저수지 및 수로부 시점부에 자동수위측정기를 설치⋅확대하고 있다. 1시간 주기에서 10분 단위 데이터 축적으로 인한 데이터양이 급격히 증가하고 있으며, 오⋅결측 데이터의 양 또한 증가하는 추세에 있다. 이러한 상황에서 수문자료의 품질관리 적용성 및 신뢰도가 미확보될 시 효율적인 농업용수 관리에서 공급량 산정, 재난 관리 등에 연계에 한계가 있으며, 수문자료는 다양한 연구 분야에 있어 기초자료로 활용되고 있기에 대국민에게 공개하는 요구 수준 또한 높아지고 있다 (Kim et al., 2019). 현재 한국농어촌공사의 저수지는 초음파 및 압력식 자동수위계를 통해 실시간으로 모니터링을 수행하고 있으며, 일단위 수위 값은 현장 검측 방법으로 농업기반시설관리시스템 (Rural Infrastructure Management System, RIMS)으로 관리하고 있다. 자동수위계의 이상치 및 결측치의 발생 원인으로는 센서 및 통신장비의 결함이 있으며, 압력식의 경우 사통 내부로의 토사물 유입 및 퇴적 토사 등, 초음파식의 경우 기온, 습도 등이 존재한다 (Bang et al., 2017). 또한 이상치 및 결측치의 보정시 실제 거동이 난해하고 복잡한 수문자료의 특성상 객관적인 판단이 어려운 경우가 많으며, 자동보정 후 수동보정은 개인의 역량 및 판단으로 인하여 보정값이 크게 달라지는 경우가 있다 (Choi et al., 2020).

Kim et al. (2021)에 의하면 일단위에 비해 10분 단위 수문 자료에서는 시계열이 촘촘하면서 진폭이 큰 특징을 지니므로, Hampel filter 기법이 타 기법에 비해 실시간 수문자료에 있어 적용성이 높다고 기술하고 있다. 이 기법은 원시데이터 보정에 있어 window size를 주요매개변수로 사용하고 있으며, window size가 클 경우 정상데이터를 왜곡하고 작은 경우 이상치가 많이 반영되어 보정데이터의 신뢰성을 낮추기 때문에 최적 window size의 선정이 필요하다.

국내에서는 저수지 수문자료의 이상치 및 결측치 보정을 위한 품질관리에 대한 다양한 연구들이 2000년 이후 진행되고 있으며, 기존 연구는 실시간이 아닌 과거 수문자료를 대상으로 한 안정적인 데이터베이스 구축을 위한 시스템 개발 및 품질관리 절차에 대한 체계 구축에 중점을 두고 있지만 (Kim et al., 2003; Kim et al., 2006), 현재는 컴퓨팅 파워와 빅데이터 분석기술의 발전으로 실시간으로 전송되는 수위데이터를 대상으로 하는 이상치 및 결측치에 대한 탐지, 보정기술의 개발에 중점을 두고 있다.

결측치 보정 방안으로 한국건설기술연구원의 국가 수문자료 품질관리시스템 (2018) 품질관리 단계별 내용에서는 선형 보간법, 운형자법, 사칙연산을 이용한 수정, 로거 자료 기준을 이용한 수정 등을 활용하고 있다. 환경부의 수질 TMS 운영 업무편람 (2018) 자동측정자료의 관리에서는 3시간 동안의 시간자료를 이동평균하는 방법을 사용하고 있으며, 한국농어촌공사 (2018)는 단기간 누락 시 가장 가까운 값, 선형보간, 이동평균값, 동일데이터 보간 시 이전 및 다음값을 적용하였다. Oh et al. (2002)은 강우의 결측값 추정 시 신경망 기법을 이용하였으며, Shin et al. (2020)은 결측치 보완 및 예측에 있어 적응형 뉴로-퍼지 기법을 활용하여 단시간 수문자료의 예측을 위한 모형을 제시하였다.

이상치 탐지 및 보정 방안으로는 국가 수문자료 품질관리시스템 구축 운영 (7차)에서는 이동평균 및 이동표준편차를 이용하였으나, 이 기법에서는 계절적인 특성이 많은 자료에서 이상치 자료와 정상 자료의 주기적 특성 간 빈번한 오차 발생 가능성이 존재한다. Kim et al. (2019)는 저수지 수위자료의 이상치 탐지에 있어 임계치 모형과 인공신경망 모형을 활용하였다. 인공신경망 모형에서는 저수지 제원을 기준으로 한 수위자료의 상하한을 설정한 뒤, 수위변화량을 정규분포로 가정하고 표준편차의 3배를 초과하거나 미달하는 값에 대해 이상치로 분류하였으며, 이동평균을 이용한 band 형성 시 시행착오법을 적용하여 이상치 탐지 성능이 뛰어난 폭을 결정하였다. 또한 한국농어촌공사에서 제공하는 일 단위 수위 자료를 이용하여 R2, MAE, RMSE와 같은 통계치를 비교⋅분석하여 신뢰성을 검증하였다. Lee at al. (2018)은 함수적 종속성이 없는 물 정보 데이터의 오⋅결측 데이터 정제를 위해 분위수 패턴 방법과 LSTM (Long-Short-Term Memory) 알고리즘으로 동작하는 시스템을 모델링하였으며, Keras, Theano, Tensorflow 등의 오픈소스라이브러리로 구현하여 오⋅결측 데이터의 예측 방법을 제안하였다. 또한 Yang et al. (2021)은 입력변수 및 시계열성을 고려하여 RNN (Recurrent Neural Network) 모델을 적용하였으며, RNN의 한계를 보완하기 위해 LSTM을 적용하여 이상치 탐지 알고리즘을 제시하였다.

품질관리에 대해 선제적인 연구를 진행한 국외의 사례를 살펴보면 미국 지질조사국 (United States Geological Survey, USGS)은 ADAPS (Automated Data Processing System)을 운영하여 수위자료의 수집 및 유량 계산을 하고 USGS Bulletin No.17을 계측자료의 이상치를 점검하고 보정 가능성을 검토하였다 (Choi, 2018). 또한 미국 환경보호청 (Environmental Protection Agency, EPA)은 Extreme value test, Rosner’s test, Walsh’s test, Discordance test를 이상치 탐지 방법론으로 추천하고 있다 (Kim et al., 2019). 또한 Ranjan at al. (2020)은 전력 시스템 계획 및 운영 중 과거 데이터를 고려한 실시간 품질관리에 있어 슬라이딩 윈도우 예측 기반 전처리 방법을 통해 최적의 window size 선정과 이상치 수정에 대한 방법론을 제시하고 있다.

기존 연구에서는 이상치 및 결측치의 탐지, 보정 기술 등에 초점을 두었지만, 기관에서 배포된 공인자료와 계측된 수위 자료와의 신뢰성 검증과 Hampel filter의 수위보정에 대한 정확도 검증 및 최적 매개변수 선정에 대한 연구는 미비하였다. 본 연구에서는 한국농어촌공사에서 관리하는 3개의 농업용 저수지 (고풍, 길정 및 마지저수지)를 대상으로 Hampel filter를 활용한 실시간 자동수위 계측자료의 보정을 수행하고, Hampel filter의 window size 설정에 따른 보정데이터의 신뢰성 분석을 수행하여 최적 window size를 선정하고자 한다.

Ⅱ. 재료 및 방법

본 연구에서는 한국농어촌공사의 저수지 수위자료 데이터 품질관리 기법 중 Hampel filter를 적용하여 저수용량 100만 m3이상의 저수지 중 오⋅결측치가 두드러진 고풍, 길정, 마지 저수지를 대상으로 결측치 및 이상치를 보정하였고, 보정된 데이터의 신뢰성 검증과 Hampel filter 기법의 주요 매개변수인 window size의 최적 구간을 도출하였다. 대상 저수지의 수위 자료는 한국농어촌공사에서 제공하는 10분 단위 계측 자료로 2018. 01. 01. 00:00∼2020. 12. 31. 11:50의 자료를 사용하였고, 기준 자료로 한국농어촌공사의 RIMS 일 단위 수위자료 중 2018. 01. 01∼2020. 12. 31 기간의 자료를 사용하였다. 최적 window size 도출을 위해 대상 저수지의 기상관측소에서 2018∼2020년의 관개기 (4월 중순∼9월 중순) 강우자료 및 분류성능평가지표를 활용하였다. 신뢰성 검증에서는 기준 자료와 10분 단위 계측 자료의 RMSE, NSE를 비교 및 산정하였고, 환경부에서 사용하고 있는 이상치 자동점검기준을 적용하였다. 본 연구의 전체적인 흐름은 Fig. 1과 같다.

NGHHCI_2022_v64n3_9_f0001.png 이미지

Fig. 1 Flow chart of this study

1. 대상 저수지 및 수위, 강우자료

본 연구는 한국농어촌공사의 관리 저수지 중 수위데이터의 오⋅결측치가 시각적으로 두드러진 고풍, 길정, 마지 저수지를 대상으로 하였다. Table 1에 각 저수지의 제원을 나타내었다.

Table 1 Target reservoirs in this study

NGHHCI_2022_v64n3_9_t0001.png 이미지

본 연구에서는 자동수위계측기를 통해 입력된 수위자료의 결측치 및 이상치를 보정하였으며, 농업기반시설관리시스템(RIMS) 자료인 일 1회 수기입력 자료를 이용하여 검증하였다. 10분 단위 수위자료는 압력식 및 초음파 센서를 통해 계측되었으며, 측정기간은 2018. 01. 01 0:00∼2020. 12. 31. 23:50이다. 수기입력 자료는 RIMS를 통해 일 1회 관리자가 현장점검을 시행하고, 결측치에 대해 수동보정한 후 입력하게 되어 있다. Table 2는 본 연구에 활용한 수위자료의 정보를 나타내었다.

Table 2 Properties of water level data

NGHHCI_2022_v64n3_9_t0002.png 이미지

본 연구는 Hampel filter 기법의 주요 매개변수인 window size를 좌우 1.5 hr, 3 hr, 6 hr, 12 hr, 24 hr, 36 hr 6개의 경우로 분류하여 10분 수위데이터를 보정하였으며, 보정된 데이터를 농업용수 공급 시기 (4월 중순∼9월)의 강우 자료와 비교하여 정상데이터를 가장 적게 왜곡하는 최적 window size를 선정하였다. 강우 자료는 기상청에서 제공하는 2018. 1. 1.∼2020. 12. 31. 기간의 일별 자료를 이용하였다. Table 3은 각 저수지의 지배관측소를 나타내었다.

Table 3 Weather stations in each reservoir

NGHHCI_2022_v64n3_9_t0003.png 이미지

2. 결측치 및 이상치 보정 방안

가. 결측치 보정 방안

결측치 보정 방안으로는 한국농어촌공사에서 활용하고 있는 선형보간법, 이동평균값, 동일데이터 보간 시 이전 및 다음 값 등을 적용하여 결측 형태에 따라 보정하였다. 선형보간법은 양 끝점이 주어진 경우, 중앙에 위치한 값의 추정을 위해 비례식을 구성하여 계산하는 방법으로 수위곡선의 형태가 직선으로 가정할 수 있는 경우 적용하며, 자료 구간이 감소할수록 직선에 근사한 연속함수로써 수위의 경향을 간단하게 파악할 수 있다. 이동평균법은 시계열 자료를 대상으로 일정기간별 이동평균을 계산하고 이들의 추세를 파악하여 결측치를 예측하는 방법으로, 자료의 수가 많고 안정된 패턴을 보이는 경우에 예측의 품질이 높다. 또한 수위 자료에 뚜렷한 추세가 있거나 불규칙변동이 심하지 않은 경우에는 짧은 기간의 평균을 사용하여 적용이 가능하다. 동일 데이터 보간 시 이전 및 다음값을 적용하는 방법은 수위계측기간 중 양 끝단 부분의 결측치가 존재하는 경우와 비관개기동안 동일수위가 지속되는 경향을 보이는 구간의 보정에 있어 용이하다. Fig. 2는 수위 결측 데이터 오류형별 보정방법을 나타내었다.

NGHHCI_2022_v64n3_9_f0002.png 이미지

Fig. 2 Calibration method by water level missing data error

나. 이상치 보정 방안

1) Hampel filter

본 연구에서는 이상치 보정 방안으로 Hampel filter 기법을 적용하였다. 이 기법은 각 샘플의 주변 슬라이딩 윈도우 크기와 이상치를 식별하는 표준편차 수를 매개변수로 하여 이상치를 수정한다. 또한 결정된 윈도우 내에서 중앙값을 계산하고, 중앙값 절대편차를 사용하여 각 샘플의 윈도우 중앙값에 대한 샘플 표준편차를 추정한다. 그 다음 고려된 관측치가 윈도우 중앙값과 3×표준편차를 초과하는 값이 발생하면 그 샘플을 중앙값으로 대체하는 방법이다 (Pearson, 2016). 장점으로는 파라미터 튜닝을 통한 시뮬레이션이 용이하며, 가중치 개념의 적용으로 수위 경계부분에 있어 평활화 강도의 조절과 중앙값 필터로의 적용이 가능하다. 이에 더하여 데이터 품질관리에 있어 중요한 검정 방법으로 사용되는 3 sigma rule을 적용하였다. 3 sigma rule은 통계학에서 정규 분포를 나타내는 규칙으로, 평균에서 양쪽으로 3×표준편차의 범위에 거의 모든 값 (99.7 %)이 들어간다는 것을 나타낸다 (Friedrich, 1992). Fig. 3, 4는 각각 Hampel filter 기법의 이상치 보정 방식과 3 sigma rule을 나타내었다.

NGHHCI_2022_v64n3_9_f0003.png 이미지

Fig. 3 How to correct outliers from the Hampel filter

NGHHCI_2022_v64n3_9_f0004.png 이미지

Fig. 4 3 sigma rule

2) 만수위/사수위 초과값 추출

저수지 수위자료의 신뢰성을 제고하기 위해서는 수위자료가 저수지의 만수위/사수위에 대해 그 값이 초과하지 않아야 한다. 자동수위계측기의 경우 일시적 계측이상, 배터리 노후화로 인한 전력 부족, 통신 장애 등, RIMS 일별 수위자료의 경우 개인의 숙련도 및 측량 장비의 이상 등에 의해 만수위/사수위를 초과하는 값이 발생한다. 제원을 초과한 값에 대해서는 Table 1의 저수지별 제원에 해당하는 만수위/사수위로 대체하여 보정하였다. Fig. 5는 저수지 제원을 초과한 값의 보정을 도식화하였다.

NGHHCI_2022_v64n3_9_f0005.png 이미지

Fig. 5 Remove normal high water level/storage level excess

3. 보정데이터 신뢰성 분석

본 연구에서는 보정된 저수지 수위데이터의 신뢰성을 분석하기 위해 한국농어촌공사에서 제공하는 RIMS 일별 수위자료를 활용하여 RMSE, NSE를 산정 및 분석하였고, 환경부의 이상치 자동점검기준을 활용하였다. 검증자료인 RIMS 일별 수위자료의 경우 관리자가 센서의 자동입력값을 확인한 후 이상치 및 결측치가 있을 시에 목측을 통해 수동보정하고 있으며, 보정된 데이터는 주관적인 판단이 크지만, 지속적인 보정이 이루어지고 있기 때문에 검증 자료로 적합하다고 판단하였다. 환경부의 이상치 자동점검기준은 단위시간별 수위, 단위시간당 수위변화량, 단위시간당 수위변화량의 변화량, 이전시간 수위변화량 대비 현재 수위변화량의 비율, 현재 수위지속시간 등 다섯 가지의 변수를 사용하는 방법으로써, 각각의 변수에 임계점을 설정하고 이에 어떠한 값이 초과하거나 미달할 경우 이상치로 분류하는 방법이다. 국가수문자료 품질관리시스템 (5차)에서는 기존 10분당 수위변화 5 cm를 20 cm로 전환하였을 때 실제 기울기가 급변한 이상치만 주로 추출되었다. 이를 바탕으로 본 연구는 임계점 기준을 20 cm로 정하였으며, Fig. 6은 환경부의 이상치 자동점검기준을 나타내었다.

NGHHCI_2022_v64n3_9_f0006.png 이미지

Fig. 6 Priciple of outlier detection standards

4. Hampel filter의 최적 window size 선정

본 연구에서는 Hampel filter의 최적 window size를 선정하기 위해 경험적으로 적용하고 있는 좌우 2.5시간의 window size를 참고하여 Fig. 7과 같이 6개의 경우로 구분하였으며, 각 저수지별 기상관측소의 관개기 강우 자료를 보정된 데이터와 비교하여 수위상승에 영향을 미치는 강우기간의 수위데이터를 분석하였다. 또한 오차행렬의 분류성능평가지표를 활용하여 정량적인 결과를 나타내었다.

NGHHCI_2022_v64n3_9_f0007.png 이미지

Fig. 7 Window size case classification

가. 오차행렬과 분류성능평가지표

오차행렬은 이진 분류 평가 결과를 나타낼 때 가장 널리 사용하는 방법 중 하나로서 분류기 모델의 예측 오류와 어떠한 유형의 오류가 발생하고 있는지를 보여주는 지표이다. 최적 window size 도출을 위해 만수위/사수위를 초과한 값을 제외하고 수위변화량이 존재하는 구간을 대상으로 분류성능평가지표 중 가장 통계적 신뢰성이 높은 F1 score를 기준으로 case별 성능을 비교⋅분석하였다. 오차행렬 항목 및 분류성능 평가지표의 식은 각각 Table 4, (1), (2), (3), (4)와 같으며, 분류 성능평가지표의 각 지표는다음과 같다. Accuracy (정확도)는 전체 예측 건수 중 정답을 맞힌 건수로서, 정답이 각각 True, False인 경우 전체를 포함하는 지표이다. 이 지표는 실제 데이터에 False 비율이 높을 경우, 값이 커지는 통계적 오류가 발생하기 때문에 오⋅결측 데이터가 많고, 불확실성이 높은 수위자료의 최적 window size 선정에 부적합한 지표이다. Recall(재현율)은 실제로 정답이 True인 경우를 True로 예측한 비율로서, 정답으로 True가 발생한 확률이 작은 경우에 사용하는 지표이다. 단점으로는 TN이 없으며, 예측을 모두 True라고 할 경우 FN이 없어져 재현율이 1이 되는 통계적 오류가 발생한다. Precision (정밀도)는 예측을 True로 한 데이터 중 실제값이 True로 일치한 비율이며, 재현율과는 역의 관계를 가지고 있다. 단점으로는 TN이 없으며, 예측을 모두 False라고 할 경우 FP가 없어져 정밀도가 1이 되는 통계적 오류가 발생한다. F1 score는 정밀도와 재현율을 조화평균한 값으로 정밀도와 재현율에 동일한 가중치를 주어 각 지표에서 발생하는 통계적 오류를 최소화한 지표이다. 자료의 분포가 고르지 않은 경우에 정확도보다 더 유용한 결과를 나타내기 때문에 최적 window size 선정에 유용하다고 판단하였다.

Table 4 Meaning of confusion matrix item

NGHHCI_2022_v64n3_9_t0004.png 이미지

\(\begin{aligned}Accuracy=\frac{T P+T N}{T P+T N+F P+F N}\end{aligned}\)       (1)

\(\begin{aligned}Recall=\frac{T P}{T P+F N}\end{aligned}\)       (2)

\(\begin{aligned}Precision=\frac{T P}{T P+F P}\end{aligned}\)       (3)

\(\begin{aligned}F1 score=2*\frac{Precision*Recall}{Precision+Recall}\end{aligned}\)       (4)

나. 관개기 강우자료 비교

본 연구에서는 window size별로 보정된 데이터를 농업용수 공급 시기 (4월 중순∼9월)의 강우자료와 비교하여 정상데이터를 가장 적게 왜곡하는 최적 window size를 확인하기 위해 2018. 1. 1.∼2020. 12. 31. 기간의 일별 강우 자료를 이용하였다. 해당 기간의 관개기 강수량 중 50 mm 이상을 저수지 수위 상승에 영향을 주는 구간이라 가정하였으며, 인위적인 수위 조작의 영향은 한국농어촌공사에서 제공하는 급수예고의 불확실성으로 인해 명확한 판단에 어려움이 있어 제외하였다. 또한 10분 수위데이터의 변화량이 0인 값과 농업용수 공급으로 인해 변화량이 음의 값을 가지는 부분과 관개기 중 만수위/사수위에 해당하는 구간은 강우로 인한 수위변동의 불확실성이 있으므로 제외하였다. 해당 관개기 강우자료 (50 mm 이상)와 보정된 수위데이터의 개별 비교를 통해 정상 수위데이터를 가장 적게 평활화시키는 경우를 최적 window size라고 판단하였다. Fig. 8은 관개기 강우자료와 보정된 수위의 단순 비교 방식을 나타내었다.

NGHHCI_2022_v64n3_9_f0008.png 이미지

Fig. 8 Comparison method between irrigation season rainfall data and calibrated water level

Ⅲ. 결과 및 고찰

1. 신뢰성 검증

Table 5는 대상저수지의 검증기간에 대해 보정된 10분 수위자료와 RIMS 일별 수위자료의 RMSE, NSE 계수의 통계치를 정리한 것이다. RMSE는 고풍, 마지저수지에서는 0.67∼0.82 m로 길정저수지 0.18∼0.20 m의 범위보다 다소 큰값을 보였지만, NSE 계수는 모든 저수지에서 0.92∼0.99 범위의 값을 가져 Hampel filter 기법의 신뢰성을 확인하였다. 하지만 각 window size에 따른 RMSE, NSE 계수의 경향성은 보이지 않았다. Fig. 9, 10, 11은 검증 기간의 원시 데이터와 좌우 1.5 hr, 3 hr, 6 hr, 12 hr, 24 hr, 36 hr에 대한 이상치 자동점검기준을 도식화한 것이다. 각 저수지의 원시데이터와 6가지 경우를 비교⋅분석한 결과 모든 경우에서 dh (단위시간당 수위변화), d2h (단위시간당 수위변화량의 변화량)의 임계점을 벗어나는 점을 제외하고 임계점 기준 (음영된 부분)인 20 cm 내로 모든 데이터가 포함되는 것을 확인하였다. 임계점 밖의 점들은 자동수위계측기로부터 들어오는 데이터의 오류 (수위 급상승 및 급하강, 통신 장비의 오류 등)에 의한 것이며, 고풍저수지의 경우 2019년 7월, 길정저수지의 경우는 2019년 3월, 2020년 3∼4월, 마지저수지는 2019년 5월에 농업용저수지의 정상 거동과는 다른 양상인 수위 급상승 및 급하강 구간으로 인하여 발생하였다. 특히, window size가 커짐에 따라 임계점 내로 들어오는 점이 많아지는 것은 Hampel filter의 특성에 의해 평활화되는 것을 의미하며, 그에 따른 정상데이터의 왜곡 정도가 큰 것으로 판단된다.

Table 5 RMSE, NSE coefficient by window size

NGHHCI_2022_v64n3_9_t0005.png 이미지

NGHHCI_2022_v64n3_9_f0009.png 이미지

Fig. 9 Automatic outlier detection standards by window size of Gopung

NGHHCI_2022_v64n3_9_f0010.png 이미지

Fig. 10 Automatic outlier detection standards by window size of Gil-jeong

NGHHCI_2022_v64n3_9_f0011.png 이미지

Fig. 11 Automatic outlier detection standards by window size of Maji

2. 최적 window size 선정

Table 6은 각 저수지의 관개기 10분 수위자료와 RIMS 일별 자료의 분류성능평가지표 결과이다. 지표 중 가장 통계적 신뢰성이 높은 F1 score를 통해 최적 window size를 선정하였다. Table 6의 Window size별 F1 score는 근소한 차이를 보이지만 개별저수지의 총 데이터 개수는 157,680개 (3년×10분 수위데이터)로 실측값과 근사하게 보정된 데이터 개수의 차이는 고풍저수지의 3 hr (0.943), 36 hr (0.927)의 경우, 약 3,000개 이상 발생할 수 있다. F1 score는 3개 저수지의 각 3 hr에서 0.943, 0.930, 0.987의 최댓값을 가져 좌우 3 hr 구간이 최적 window size로 판단되었다. Fig. 12, 13, 14는 대상 저수지의 window size에 따른 수위 보정 결과를 나타낸 그래프이다. 전반적으로 원시 데이터의 이상치를 근사하게 보정하였지만, 고풍저수지의 경우 2019년 7월 짧은 구간 반복되는 이상치와 2020년 1∼5월에 장기간 결측된 부분이 있었으며, 길정저수지의 경우 2019년 3월, 2020년 4월 구간에서는 짧은 간격에 반복적인 이상치가 있었으며, 마지저수지의 경우 2019년 5월에 수위가 급상승한 구간이 장기간 지속되어 실제 수위거동과는 다르게 보정되었다. 또한 강수량이 많으며, 빈도가 높은 기간에 36 hr로 window size가 커질수록 정상데이터의 왜곡 정도가 심해지며, 많은 데이터가 평활화되는 것을 확인하였으며, 실제 수위와 가장 근사한 값을 가지고 있는 경우는 3 hr로 판단되었다.

Table 6 Classification performance evaluation index by window size

NGHHCI_2022_v64n3_9_t0006.png 이미지

NGHHCI_2022_v64n3_9_f0012.png 이미지

Fig. 12 Calibration result by window size of Gopung

NGHHCI_2022_v64n3_9_f0013.png 이미지

Fig. 13 Calibration result by window size of Gil-jeong

NGHHCI_2022_v64n3_9_f0014.png 이미지

Fig. 14 Calibration result by window size of Maji

Ⅳ. 결론

본 연구에서는 한국농어촌공사의 자동수위계측기에서 측정한 10분 단위 저수지 수위자료를 대상으로 Hampel filter 기법을 적용하여 이상치를 보정하고, 분류성능평가지표를 적용하여 최적 window size를 선정하였다. 분석 기법의 신뢰성을 위해 한국농어촌공사의 RIMS 일별 수위 자료를 검증 자료로 이용하였으며, 보정된 자료와 일별 수위 자료를 비교하기 위해 결측데이터를 제외하고, 자료의 간격을 일치시켜 비교하였다.

원시 데이터와 window size별로 RMSE, NSE 계수를 비교ㆍ분석한 결과, RMSE 는 고풍, 마지 저수지에서 0.62∼0.82 m로 길정 저수지 0.18∼0.20 m에 비해 큰 값을 보였지만 NSE 계수는 0.92∼0.99 범위의 값을 가져 Hampel filter의 신뢰성을 검증하였다. 하지만 window size에 따른 RMSE, NSE계수의 상관성의 도출에는 한계점을 보였다. 이상치 자동점검기준에서는 원시데이터와 6가지 case를 비교ㆍ분석한 결과 모든 경우에서 dh (단위시간당 수위변화), d2h (단위시간당 수위변화량의 변화량)의 임계점을 벗어나는 점을 제외하고 임계점 기준인 20 cm 내로 모든 데이터가 포함되어 품질이 개선된 것을 확인하였다.

Hampel filter의 주요 매개변수인 window size를 선정하기 위한 분류성능평가지표는 통계적 신뢰성이 높은 F1 score를 통해 선정하였으며, 고풍, 길정, 마지저수지에서 각각 0.943, 0.930, 0.987 로 좌우 3 hr의 경우에서 최댓값을 가져 최적 window size로 3 hr 구간을 도출하였다. 또한 관개기 강수량과 보정된 수위데이터를 비교ㆍ분석한 결과 평활화 정도가 가장 작아 정상데이터를 최소로 왜곡시키는 최적구간이 3 hr으로 판단되었다. 하지만 window size가 변화함에도 대상저수지의 단기간 반복되는 이상치 및 장기간의 결측 등으로 인해 자동 보정이 되지 않는 구간이 발생하였으며, 이에 대해서는 숙련된 관리자의 수동보정이 필요할 것으로 판단된다. 추후 수위 데이터의 축적 및 자동수위계측기의 개선을 통해 Hampel filter 자동보정방법의 성능을 향상시킬수 있을 것이라 기대된다.

저수지 수위 자료를 보정하는 데 있어 Hampel filter 기법은 수동 보정 방법에 의한 인력 및 시간을 절감할 수 있으며, 최적 window size의 도출을 통해 저수지 수위 자료의 신뢰성을 확보할 수 있다. 특히, 신속한 보정 시간 및 높은 정확도를 통해 실시간 수위 보정이 가능할 것으로 판단되며, 추후 공급량 산정, 재난 관리 등에 있어 현장의 적용성을 크게 높일 수 있을 것으로 사료된다.

감사의 글

본 연구는 한국농어촌공사 농어촌연구원의 지원을 받아 수행된 “저수지 수위 측정 데이터 품질관리 고도화 연구 용역”의 일환으로 수행되었음.

References

  1. Bang, J. H., Y. H. Lee, S. Y. Jeong, and J. Y. Choi, 2017. A study of outlier detection on time series of water-level in agricultural reservoir. In Proceedings of the Korean Society of Agricultural Engineers Coneference 60 (in Korean). Environmental Protection Agency, Athens, GA.
  2. Choi, J. Y., 2018. Development of quality control methods for water level data and irrigation water supply estimation, 4-10. Korea Rural Community Corporation (in Korean).
  3. Choi, G. H., K. H. Kim, S. Y. Lim, S. H. Yoo, E. H. Choi, and M. S. Kang, 2020. Quality control on water-level in irrigation canal using filter techniques. In Proceedings of the Korean Society of Agricultural Engineers Conference 107 (in Korean).
  4. Hyndman, Rob J. Koehler, and Anne B, 2006. "Another look at measures of forecast accuracy". International Journal of Forecasting 22(4): 679-688. doi:10.1016/j.ijforecast.2006.03.001.
  5. Kim, H. K., S. W. Park, S., and M. Kim, 2006. Development of hydrologic data management system based on relational database. Korean Journal of Hydrosciences 39(10): 855-866 (in Korean). doi:10.3741/JKWRA.2006.39.10.855.
  6. Kim, H. S., and C. S. Kim, 2003. Hydrological data quality control system for monitoring and improving the data quality. Korean Society of Civil Engineers Conference 2032-2036. (in Korean).
  7. Kim, M. G., J. Y. Choi, J. H. Bang, and J. J. Lee, 2019. Outlier detection of real-time reservoir water level data using threshold model and artificial neural network model. Journal of the Korean Society of Agricultural Engineers 61(1): 107-120. (in Korean). doi:10.5389/KSAE.2019.61.1.107.
  8. Korea Rural Community Corporation (KRC). 2018. Development of technology for securing reliability of water level measurement data and estimating water supply. (in Korean)
  9. Korea Rural Community Corporation (KRC). 2019. A Study on the establishment of quality control standards for hydrologic data in agricultural reservoirs and waterways. (in Korean).
  10. Korea Rural Community Corporation (KRC). 2020. Advanced quality management study of reservoir water level measurement data. (in Korean).
  11. K-water. 2018. K-water Data Quality Management Guidelines (Water Information). (in Korean).
  12. Lee, J. W, H. S. Kim, C. H. Hwang, I. S. Kang, and H. K. Jeong, 2018. Data cleansing algorithm for reducing outlier. In Proceedings of the Korean Institute of Information and Communication Sciences Conference 342-344. (in Korean).
  13. MathWorks. https://kr.mathworks.com
  14. Ministry of Agriculture, Food and Rural Affairs, 2016. Development of information analysis technology for abnormal behavior of agricultural reservoirs using big data related to weather information and water levels. (in Korean).
  15. Ministry of Environment. 2018. Environment and maintenance and management of hydrologic research facilities and standards for quality management of hydrologic data. (in Korean).
  16. Ministry of Land, Infrastructure and Transport, 2018. Establishment and operation of the national hydrologic data quality management system (7th). (in Korean).
  17. Ministry of Land, Transport and Maritime Affairs. 2008. Establishment of a basic plan for hydrologic investigation (2010-2019). (in Korean).
  18. Ministry of Land, Transport and Maritime Affairs. 2011. The 4th Comprehensive Plan for Water Resources 2nd Amendment (2011-2020). (in Korean).
  19. Ministry of the Interior and Safety. 2018. Public Data Quality Management Manual ver 2.0. (in Korean).
  20. Nash, J. E., and Sutcliffe, J. V, 1970. "River flow forecasting through conceptual models part I - A discussion of principles". Journal of Hydrology 10(3): 282-290. doi:10.1016/0022-1694(70)90255-6.
  21. Oh, C. R., S. C. Park, H. M. Lee, and Y. P. Pyo, 2002. A forecasting of water quality in the Youngsan river using neural network. Journal of The Korean Society of Civil Engineers 22(3B): 372-382. (in Korean).
  22. Pearson, R. K., Neuvo, Y., Astola, J., and Gabbouj, M, 2016. Generalized Hampel filters. EURASIP Journal on Advances in Signal Processing 2016(1): 1-18. doi:10.1186/s13634-016-0383-6.
  23. Press, W. H., Flannery, B. P., Teukolsky, S. A., and Vetterling, W. T, 1987. Numerical recipes : the art of scientific computing, Cambridge University Press. doi:10.1063/1.2820230.
  24. Pukelsheim, Friedrich, 1994. "The three sigma rule." The American Statistician 48(2): 88-91. doi:10.2307/2684253.
  25. Ranjan, K. G., Tripathy, D. S., Prusty, B. R., and Jena, D, 2021. An improved sliding window prediction-based outlier detection and correction for volatile time-series. International Journal of Numerical Modelling: Electronic Networks, Devices and Fields 34(1), e2816. doi:10.1002/jnm.2816.
  26. Shin, H. J., and T. H. Lee, 2020. A study on the estimation of missing hydrological data using adaptive network-based fuzzy inference system (anfis). In Proceedings of the Korea Water Resources Association Conference 264. (in Korean).
  27. United States Geological Survey, 2012. Computing discharge using the index velocity method. South Carolina:United States Geological Survey 35-59.
  28. Yang, M. H, W. H. Nam, H. J. Kim, T. G. Kim, A. K. Shin, and M. S. Kang, 2021. Anomaly detection in reservoir water level data using the LSTM model based on deep learning. Journal of the Korean Society of Hazard Mitigation 21(1): 71-81 (in Korean). doi:10.9798/KOSHAM.2021.21.1.71.