DOI QR코드

DOI QR Code

Comparative Assessment of Linear Regression and Machine Learning for Analyzing the Spatial Distribution of Ground-level NO2 Concentrations: A Case Study for Seoul, Korea

서울 지역 지상 NO2 농도 공간 분포 분석을 위한 회귀 모델 및 기계학습 기법 비교

  • Kang, Eunjin (Department of Urban and Environmental Engineering, Ulsan National Institute of Science and Technology) ;
  • Yoo, Cheolhee (Department of Urban and Environmental Engineering, Ulsan National Institute of Science and Technology) ;
  • Shin, Yeji (Department of Urban and Environmental Engineering, Ulsan National Institute of Science and Technology) ;
  • Cho, Dongjin (Department of Urban and Environmental Engineering, Ulsan National Institute of Science and Technology) ;
  • Im, Jungho (Department of Urban and Environmental Engineering, Ulsan National Institute of Science and Technology)
  • 강은진 (울산과학기술원 도시환경공학과) ;
  • 유철희 (울산과학기술원 도시환경공학과) ;
  • 신예지 (울산과학기술원 도시환경공학과) ;
  • 조동진 (울산과학기술원 도시환경공학과) ;
  • 임정호 (울산과학기술원 도시환경공학과)
  • Received : 2021.12.02
  • Accepted : 2021.12.26
  • Published : 2021.12.31

Abstract

Atmospheric nitrogen dioxide (NO2) is mainly caused by anthropogenic emissions. It contributes to the formation of secondary pollutants and ozone through chemical reactions, and adversely affects human health. Although ground stations to monitor NO2 concentrations in real time are operated in Korea, they have a limitation that it is difficult to analyze the spatial distribution of NO2 concentrations, especially over the areas with no stations. Therefore, this study conducted a comparative experiment of spatial interpolation of NO2 concentrations based on two linear-regression methods(i.e., multi linear regression (MLR), and regression kriging (RK)), and two machine learning approaches (i.e., random forest (RF), and support vector regression (SVR)) for the year of 2020. Four approaches were compared using leave-one-out-cross validation (LOOCV). The daily LOOCV results showed that MLR, RK, and SVR produced the average daily index of agreement (IOA) of 0.57, which was higher than that of RF (0.50). The average daily normalized root mean square error of RK was 0.9483%, which was slightly lower than those of the other models. MLR, RK and SVR showed similar seasonal distribution patterns, and the dynamic range of the resultant NO2 concentrations from these three models was similar while that from RF was relatively small. The multivariate linear regression approaches are expected to be a promising method for spatial interpolation of ground-level NO2 concentrations and other parameters in urban areas.

대기 중 이산화질소(NO2)는 주로 인위적인 배출요인으로 발생하며 화학 반응을 통해 이차오염 물질 및 오존 형성에 매개 역할을 하는 인체 건강에 악영향을 미치는 물질이다. 우리나라는 지상 관측소에 의한 실시간 NO2 모니터링을 수행하고 있지만, 이는 점 기반의 관측 값으로써 미관측 지역의 공간 분포 분석이 어렵다는 한계점을 지닌다. 본 연구에서는 선형 회귀 기반 모델인 다중 선형 회귀와 회귀 크리깅, 기계학습 알고리즘인 Random Forest (RF), Support Vector Regression (SVR)을 적용한 공간 내삽 모델링을 통해 서울 지역의 지상 NO2 농도 지도를 제작하였고, 일별 Leave-One-Out Cross Validation (LOOCV) 교차 검증을 시행하였다. 2020년 연구기간 내 일별 LOOCV에서 MLR, RK, SVR 모델의 일별 평균 Index of agreement (IOA)는 약 0.57로 유사한 성능을 보였으며, RF (0.50)보다 높은 성능이 확인되었다. RK의 일별 평균 nRMSE는 0.9483%으로 MLR (0.9501%)보다 상대적으로 낮은 오차를 나타냈다. MLR과 RK, RF 모델의 계절별 공간 분포는 비슷한 양상을 보였으며, RF는 다른 모델에 비해 좁은 NO2 농도 범위가 확인되었다. 본 연구에서 제안된 선형 회귀 기반 공간 내삽은 지상 NO2 뿐 아니라 다른 대기 오염 물질의 도시 지역 공간 내삽을 위해 활용 가능성이 높을 것으로 기대된다.

Keywords

1. 서론

대기 중 이산화질소(NO2)는 주요 가스상 오염 물질로써 일반적으로 인위적인 배출원으로부터 발생한다. NO2는 다른 물질과의 2차 생성과정을 통해 산성비, 스모그 등을 유발할 뿐만 아니라, 공장 및 자동차에서 배출되는 휘발성 유기화합물(VOCs)과 반응하여 지구 온 난화 요인 중 하나인 오존(O3)을 형성한다(WHO, 2005; Krotkov et al., 2016; US EPA, 2016). 특히, NO2에 대한 노출은 인체 건강에 악영향을 미쳐 뇌졸중, 피부 질환 및 호흡기 질환을 유발할 수 있다(Sun et al., 2019; Zúñiga et al., 2016). 지상 NO2 농도를 지속적으로 모니터링하기 위해 국내에서는 환경관리공단에서 관리하는 에어코리아(https://www.airkorea.or.kr/) 사이트를 통해 매시간 NO2 포함한 대기오염 물질 관측 값을 제공하고 있다. 하지만, 제한된 관측소 수와 미관측 지역으로 인해 공 간적으로 연속적인 대기오염 물질 노출량 산정에는 한계가 있다.

위성 기반 NO2 자료는 넓은 지역에 대해서 공간적으로 연속적인 오염 물질 정보를 제공할 수 있는 장점을 가진다(Boersma et al., 2007). 최근에 발사된 TROPOspheric Monitoring Instrument(TROPOMI)는 2018년 4월 이후부 터 기존 위성과 비교하여 고해상도(5.5 km×3.5 km) NO2 연직 농도를 제공하고 있다. 하지만 OMI Monitoring Instrument(OMI)와 TROPOMI를 포함한 여러 위성들 은 NO2 연직 컬럼 농도를 제공하기 때문에 인간 생활에 밀접하게 영향을 주는 지상 농도에 대한 직접적인 정보 산출은 어렵다(Choi et al., 2021). 이는, 에어로졸 산란과 대기 중 O3의 흡수에 의해 연직 NO2 농도와 지상 NO2 농도는 비선형적 관계를 갖고 있기 때문이다(Lin et al., 2012).

미관측 지점에 대한 NO2 공간 분석을 위해 기존의 연구는 다양한 접근법을 시도하고 있다. 정규크리깅(Ordinary kriging)과 역거리 가중치법(Inverse Distance Weighting, IDW)은 공간적으로 연속적인 대기오염 노출량 파악을 위해 전통적으로 많이 사용되었으며, 지상 관측 값만을 사용하여 미관측 지점의 농도를 계산할 수 있는 지리 통계학적 기법이다(Graler et al., 2012; Kim et al., 2014; Shukla et al., 2020). 지상 관측 값만을 이용할 경우 지형 및 기상 요인으로 인한 공간 변동을 반영하기 어렵기 때문에 위성 산출물, 지형적 자료를 융합한 다변량 공간 내삽법이 제안되고 있다. 대표적인 다변량 공간 내삽법 중 하나는 Multi-linear regression(MLR)으로써 종속 변수와 독립 변수간의 선형 관계를 모델링하며, 효율적인 계산과 구현의 용이성에 대한 장점을 가진다(Draper et al., 1998; Christensen et al., 2020). 최근 기계학습 분야의 여러 기법이 다양한 환경 변수의 비선형적인 관계를 반영하기 위해 적용되고 있다(Li et al., 2014).

이전 기계학습을 활용한 대기 오염 물질 공간 내삽 논문은 국가 단위로 이루어져 왔으며, 도시 지역의 NO2 공간 내삽을 위해 기계학습을 수행한 사례는 거의 존재하지 않는다. 국가 단위의 공간 내삽의 경우는 샘플의 개수가 많기 때문에 선형 회귀 모델과 비교하여 기계학습 모델에서 효과적인 학습이 가능하다(Chen et al., 2019; Ren et al., 2020). Markham et al. (1998)은 모델 학습에 대해 선형 회귀 기법은 “snapshot”, 기계 학습은 “understanding”을 통해 정확도를 향상할 수 있다고 주장하였다. 이는, 학습을 위한 샘플 수가 작은 도시 지역 공간 내삽을 위해 선형 회귀 모델의 적용 가능성을 함축한다.

따라서 본 연구에서는 (1) 위성 및 인구, 지형자료와 지상 관측 자료를 사용하여 기계학습과 선형회귀 기반의 NO2 지상농도 공간 내삽 모델을 개발하고, (2) 선형 회귀 모델과 기계학습 기반의 모델을 비교하여 성능평가한 후, (3) 구축된 서울 지역의 일별 지상 NO2 농도 지도를 계절별로 평균하여 네 개 모델에 대한 계절 공간 분포 모의 능력을 평가하였다.

2. 연구 지역 및 연구 자료

1) 연구 지역

본 연구의 대상지역인 서울은 인구 1000만 이상이 살고 있는 대한민국의 수도로써 2019년 기준 자치구별 1개씩 총 25개의 도시대기측정망과 15개의 도로변 대기 측정망을 보유하고 있다. 서울에는 NO2 배출량 대비 많은 관측소가 위치하여 오염물질의 공간 분포 분석이 용이하다. 코로나 바이러스 감염증(COVID-19) 전후로 국제적인 대기질 오염 유인이 줄어들었기 때문에(Ghahremanloo et al., 2021), 국내 NO2 배출원 요인에 따른 NO2의 공간적인 변동 패턴을 살펴보고자 연구 기간 은 2020년 1월부터 12월까지로 선정하였다.

OGCSBN_2021_v37n6_1_1739_f0001.png 이미지

Fig. 1. Study area with the distribution of the ground monitoring stations in red dots. Shuttle Radar Topography Mission (SRTM) Digital Elevation Model (DEM) with 30m was used as a background image.

2) NO2 지상농도 관측 자료

환경관리공단에서 운영하는 에어코리아는 전국적 인 대기오염실태, 변화추이를 효과적으로 파악하기 위해 관측소를 도시대기, 도로변대기, 교외대기, 국가배경 농도, 항만 측정망으로 분류하여 실시간 모니터링을 진행하고 있다. 본 연구에서는 서울시에 위치한 총 40개의 도시대기(25개), 도로변대기(15개) 측정망 자료를 사용하였으며, 공간 내삽 시 서울 외곽 지역의 정확도를 높이기 위해 서울을 둘러싸고 있는 경기도에 위치한 37개의 도시대기(33개), 도로변대기(4개) 측정망을 추가하여 사용하였다. 일별 평균 자료 구축 시, 국립환경과학원에서 제공하는 대기환경연보 통계처리 방법에 따라 관측 소별 75%의 시간 자료가 확보될 경우에만 일 평균하여 사용하였다.

3) 위성 기반 자료

본 연구의 기계학습에 사용되는 입력변수는 위성 기반 자료와 인구 및 지형학적 자료로 분류된다(Table 1). 먼저 위성 기반의 NO2 산출물에 대해 Sentinel-5P 위성의 TROPOMI 센서를 통해 일별 전구 영역으로 제공되는 연직 칼럼 농도가 사용되었다. 연직 칼럼 농도 내 기상 및 지표면의 영향으로부터 발생하는 결측 값은 주변 픽셀 값을 고려하여 Bilinear 내삽기법을 통해 대체해주었다(Ialongo et al., 2020; Wu et al., 2021).

Table 1. Summary of input 5 variables used to develop machine learning models in this study

OGCSBN_2021_v37n6_1_1739_t0001.png 이미지

NO2 지상 농도는 지표면의 특성에 따라 분포가 다를 수 있으므로 다중 위성에서 제공하는 다양한 표면 정보를 입력 변수로 사용하였다. 식생의 활력도를 나타내는 Normalized Difference Vegetation Index(NDVI)은 Terra, Aqua 위성에 탑재된 MODerate resolution Image Spectroradiometer(MODIS) 센서의 산출물(MOD13Q1, MYD13Q1)이 활용되었다. MOD13Q1과 MYD13Q1 NDVI 자료는 16일 주기의 250 m 공간 해상도로 제공되고 있으며, 자료 산출 시 8일간씩 일자가 겹치게 된다. 본 연구에서는 단기간의 식생 생장에 따른 토지 피복의 변화를 고려하기 위해 목표 일자를 기준으로 가장 가까운 앞뒤 일자의 산출물을 평균한 8일 주기 NDVI가 사용되었다(Park et al., 2017). 또한, 식생 생장에 따른 뚜렷한 사계절 변화를 반영하기 위해 계절 별 Maximum Value Composite(MVC) NDVI를 구축하였다(Holben et al., 1986).

Land Surface Temperature(LST)는 대기와 지표면 간의 상호작용과 에너지의 이동을 반영하며 도시화의 정도를 나타내는 지표로 사용되어 왔다(Chao et al., 2020; Guo et al., 2012). 본 연구는 낮밤의 지표면의 온도 특성과 공간적인 도시화 차이를 고려하기 위해 고해상도 산출물인 US Geological Survey(USGS)에서 제공하는 Landsat 위성의 낮 시간(11:00 AM) LST와 Advanced Spaceborne Thermal Emission Reflectance Radiometer(ASTER) 센서의 밤시간(10:30 PM) LST를 사용하였다. 고해상도의 산출물 사용시 구름으로 인한 결측값이 없는 맑은 날의 영상 수에 제약이 있다. 따라서, 연구기간 동안 충분한 LST 자료 취득이 어려웠기 때문에 가용 가능한 날짜의 영상자료를 이용하였다. 낮 시간 LST 경우, 2013년부터 2020년 동안의 여름 및 겨울철의 공간 분포 차이가 뚜렷했기 때문에 여름 및 겨울철 평균 LST을 각각 산출하였다. 또한, 일반적인 낮 시간 공간 패턴 차이를 고려하기 위해 전체 평균 LST를 사용하였다(Chao et al., 2020). 밤 시간 LST는 낮 시간 LST와 비교하여 시간의 변동보다 토지 피복 변화, 토양 수분과 같은 공간적인 변동 영 향을 주로 받는다. 연구기간 내 구름이 없는 밤 시간 LST 산출물이 존재하지 않았기 때문에 가장 가까운 일자인 2017년 3월 18일 ASTER LST가 사용되었다(LUINTEL et al., 2019).

그 이외의 위성 산출물로써 야간 불빛지수(Nighttime Light, NTL), DEM, 토지 피복 산출물이 사용되었다. NTL은 도시 및 산업화 분포와 NO2의 관계를 고려할 수 있는 도시 발달의 지표 중 하나이다(Cui et al., 2019). 본 연구는 미국 항공 Defense Meteorological Satellite Program(DMSP)의 Operational Linescan System(OLS)에서 제공하는 연평균 NTL을 활용하였다. 또한 지형의 고도를 반영하기 위해 SRTM DEM을 사용하였으며, 토지 피복 산출물에 대해서 MODIS의 MCD12Q1을 이용하여 중심 픽셀과 인접한 픽셀(7×7 윈도우) 내의 도시 지역 비율을 계산하였다.

4) 인구 및 지형학적 자료

대기 중 NO2와 기후학적 요인 간 상호작용을 파악하기 위해 장기간 풍속 자료가 사용되어 왔다(Goldberg et al., 2020; Wanninkhof et al., 2014). 본 연구는 Global Wind Atlas(https://globalwindatlas.info)에서 제공하는 10년 동안의 평균 바람 속도장을 이용하여 NO2와 지표 간의 관계를 고려하였다. NO2의 인위적 배출에 따른 인구사회학적 요인을 반영하기 위하여 인구, 건물 및 도로 밀도 자료를 사용하였다. 인구, 건물 밀도 자료는 Global Human Settlement에서 제공하는 공간해상도 250 m의 GHSPOP(인구밀도), GHS-BUILTUP(건물밀도) 격자 자료를 사용하였으며(https://ghsl.jrc.ec.europa.eu/download. php), 도로밀도는 Global Roads Inventory Project(GRIP)에서 벡터로 된 도로 자료를 제공받아 ArcGIS Line Density 툴을 통해 산출되었다. 총 5 종류의 도로 분류 중 자동차 이동량이 상대적으로 많은 highways, primary roads, secondary roads에 대한 도로밀도와, 모든 도로를 사용한 도로밀도를 각각 산출하였다. 또한, DEM으로부터 ArcGIS Slope 툴을 통해 경사(Slope)를 구축하였으며, 위도와 경도 자료를 보조자료로 함께 사용하였다(Table 1).

3. 연구 방법

본 연구의 최종 산출물의 공간해상도는 250 m이며, 관측소의 분포와 다변량 모델의 입력 변수 공간해상도를 고려하였다(Table 1). 본 연구는 다중 선형 회귀 기법인 MLR, Regression Kriging(RK)과 기계학습 알고리즘인 RF와 SVR을 통해 공간 내삽을 수행하였다. 구축된 모델들의 독립 변수는 위성 기반 자료와 인구 및 사회학적 자료, 종속변수는 일별 지상 NO2 관측 값이 사용 되었다. 연구 기간인 2020년 1월부터 12월까지 일별 공간 내삽 검증 시 관측소별 LOOCV를 수행하였다. 전체적인 연구 흐름도는 Fig. 2와 같다.

OGCSBN_2021_v37n6_1_1739_f0002.png 이미지

Fig. 2. Process flow of the NO2 gap filling using data-driven machine learning models (RF and SVR) and the linear regression models (MLR and RK) in this study.

1) 자료 전처리

모델링시 훈련자료로 사용되는 독립 변수는 공간 해상도가 다양하기 때문에 최종 산출물의 공간해상도 250 m에 따라 Bilinear 내삽 기법을 통해 리샘플링(resampling)하였다. 종속 변수인 일평균 NO2 관측소 자료는 점 기반의 형태이기 때문에 격자 형태의 독립변수와 가장 가까운 픽셀에서 매칭되었다.

2) 개발된 모델

(1) Multi Linear Regression

MLR은 두개 이상의 독립 변수와 종속 변수 간의 관 계를 선형 방정식을 통해 모델링하는 기법이며, MLR 방정식은 식 (1)과 같다.

\(Y=\beta_{0}+\beta_{1} X_{1}+\beta_{2} X_{2}+\ldots+\beta_{n} X_{n}+\varepsilon\)       (1)

여기서 Y는 종속변수, X1, X2, …, Xn은 독립 변수를 의미한다. 이때, n은 독립 변수의 개수이며 β0는 상수 계수, β1, β2, …, βn은 회귀 계수이다. ε는 MLR을 통해 추정되는 예측값과 관측값 사이의 확률 오차를 의미한다.

(2) Regression Kriging

RK는 대표적인 단변량 공간 내삽 기법인 정규 크리깅(ordinary kriging)에 대해 다변량의 변수를 반영하기 위해 MLR과 크리깅을 결합한 기법이다(Hengl et al., 2007). RK는 MLR을 통해 독립 변수와 종속 변수 간의 선형 관계를 모델링 한 후, 다중 선형 회귀식을 통해 설명되지 않은 ε을 크리깅을 통해 내삽한다. 이때, ε에 대하여 기댓값이 0인 단순 크리깅(simple kriging)을 적용한다. MLR과 단순 크리깅이 결합한 형태는 식 (2)와 같다.

\(Y=\beta_{0}+\beta_{1} X_{1}+\beta_{2} X_{2}+\ldots+\beta_{n} X_{n}+\sum_{i}^{p} w_{i} \cdot e\)       (2)

\(\varepsilon=\sum_{i}^{p} w_{i} \cdot e\)       (3)

여기서 wi는 i번째 샘플의 오차 weight, e는 i번째 샘플의 오차 벡터를 의미한다. 그 이외 변수는 식 (1)의 설명과 같다.

(3) Random Forest

RF는 데이터에 존재하는 규칙을 이진 분류(binary splitting) 과정을 통해 반복적으로 학습하여 최종적인 목표 값에 도달하는 의사결정나무(Classification and Regression Trees,CART)에 기반한 알고리즘이다(Breiman et al., 2001). RF는 복원 추출이 허용된 표본 추출 방법인 bootstrapping을 활용하여 무작위 복원 추출을 시행하며, 이는 기존 의사결정나무에 존재하였던 과적합(overfitting) 문제를 해결하는 것으로 알려져 있다. 입력 자료의 형식이 Regression인 경우 다수의 의사결정나무에서 나온 결과를 평균하여 최종적인 결과를 산출한다.

RF는 이진 분류를 통하여 최종적으로 편차가 작고 평균적으로 정확도가 높은 예측값을 산출한다. 이 과정에서 노드(node)의 불순도(impurity)를 최대한 낮추기 위해 입력 변수 별 Mean Decrease Impurity(MDI)를 계산하여 변수 중요도를 산출한다. 대기질 연구 분야에서 기계학습 모델의 변수 중요도를 계산하기 위해 RF의 변수 중요도 산출 방식이 주로 사용되어 왔다(Kamińska et al., 2019; Zhu et al., 2019).

본 연구는 Python 기반의 scikit-learn에서 제공하는 기계학습 library(Random Forest Regressor)을 사용하였으며, 파라미터 최적화 과정을 위해 나무의 개수(ntree)와 분류시 반영되는 변수의 개수(mtry)를 주요하게 고려하였다(Houborg and McCave et al., 2018). 연구기간 전체 동안 일별 RandomSearch를 수행하여 ntree와 mtry에 대한 최적화 파라미터 튜닝을 확인하였다. 따라서, n_estimators 는 800, criterion는 auto, 그 이외 파라미터는 default로 설정하여 수행하였다.

(4) Support Vector Regression

SVR은 불규칙적인 분포의 데이터를 학습하기 위하여 최적의 초평면(hyperplane)을 찾고 학습에 최적인 차원으로 데이터를 분리하는 알고리즘이다. SVR은 데이터와 초평면의 마진(margin)을 최대화하는 최적의 초평면을 찾기 위해 커널(kernel) 함수를 사용하며, 대표적으로 많이 사용되는 커널 함수 종류에는 Linear, Polynomial, Radial 등이 있다(Li et al., 2019; Wang et al., 2019). 본 연구는 Matlab 2020b의 fitrsvm 함수를 사용하였다. 이때, 전체 연구기간 동안 fitrsvm에서 제공하는 Linear, Polynomial, RBF 커널 함수에 대해 공간 내삽을 수행하여 높은 정확도를 보인 Linear 커널 함수를 사용하였다. 그 이외, SVR 모델링시 고려되는 Kernelscale에 대하여 auto로 설정하여 파라미터 최적화를 수행하였다(Boardman and Trappenberg et al., 2006).

3) 모델 평가

본 연구는 개발된 모델을 검증하기 위해 관측소별 LOOCV를 수행하였으며, 가능한 날짜의 40개 관측소의 예측 값이 평가되었다. LOOCV는 충분한 수의 샘플이 존재하지 않을 경우 기계 학습 모델의 타당성을 입증하기 위해 사용되는 검증 방법이다. 기존의 공간 내삽 모델 검증 시 개발된 모델을 평가하기 위해 주로 사용되어 왔다(Cho et al., 2020; Wu et al., 2018).

공간 내삽 모델 평가 시 상관계수(R), Root-MeanSquare-Error(RMSE), normalized RMSE (nRMSE)가 사용되었다. 또한, Index Of Agreement(IOA) 지표를 사용하여 모델의 예측 오차 및 모델의 예측값과 관측값 간 분산의 유사성을 함께 평가하였다(4). IOA는 [0, 1] 범위 내에서 모델의 성능을 평가하며, IOA의 1의 값은 모델의 예측 값과 관측 값이 완벽히 일치함을, 0의 값은 유사 성이 없음을 나타낸다(Willmott et al., 2012). nRMSE 사용시 관측 값의 표준 편차로 나눔으로써(5), RMSE내에서 설명되지 않았던 관측값 분산 대비 예측값의 오차를 평가할 수 있다. nRMSE를 사용하여 관측소 위치 차이에 따라 발생할 수 있는 NO2 농도의 변동으로 인한 오차를 고려하였다.

\(I O A=1-\frac{\sum_{i=1}^{n}\left(O_{i}-P_{i}\right)^{2}}{\sum_{i=1}^{n}\left(\left|P_{i}-\bar{O}\right|+\left|O_{i}-\bar{O}\right|\right)^{2}}, 0 \leq I O A \leq 1\)       (4)

\(n R M S E=\frac{1}{\sigma(O)} \sqrt{\frac{\sum_{i=1}^{n}\left(O_{i}-P_{i}\right)^{2}}{n}}\)       (5)

수식에서 Oi와 Pi는 각각 관측 값과 모델의 예측값을 의미하며, \(\bar{O}\)는 고려하는 기간의 NO2 관측값의 평균을 의미한다. σ(O)는 고려하는 기간의 NO2 관측값의 표준 편차를 의미한다.

4. 연구 결과 및 토의

1) 모델 성능 결과 및 비교

Fig. 3과 Table 2는 연구기간동안 전체 11016개 샘플에 대하여 MLR, RK와 RF, SVR 모델의 일별 LOOCV 검증 결과를 나타낸다. 구축된 네 개의 모델은 모두 0.88의 R를 보였으며, MLR과 RK의 IOA값은 0.94, RF와 SVR은 0.93으로 유사한 성능을 보였다. RK의 nRMSE는 0.4793%으로 MLR(0.4802%), RF(0.4825%), SVR(0.4876%)보다 상대적으로 낮은 오차를 나타냈다. 이는 MLR로부터 산출된 잔차 모델링 시, 잔차와 NO2 공간 분포가 자기 상관성을 보였기 때문에, RK가 MLR보다 낮은 오차를 보였다고 판단된다(Hengl et al., 2004; Harris et al., 2010).

OGCSBN_2021_v37n6_1_1739_f0003.png 이미지

Fig. 3. Density scatter plots between the predicted and observed NO2 concentrations from LOOCV results using the (a) MLR, (b) RK, (c) RF and (d) SVR during the study period.

Table 2. The daily LOOCV results of the MLR, RK, RF, and SVR models during the study period

OGCSBN_2021_v37n6_1_1739_t0003.png 이미지

Table 3과 Appendix S1-S3은 연구기간 동안 관측소 별 NO2 농도의 (95%) 구간 별 통계 값과 산점도를 나타낸다. 전체 지상 NO2 농도 샘플의 90%가 분포되어 있는(5%, 95%) 구간에서 MLR과 RK, RF와 SVR은 약 0.84의 동일한 성능을 보였다(Table 3). 반면에, (>95%)극댓값 구간에서 RF는 0.45의 R과 0.0082 ppm의 RMSE를 나타내며, MLR, RK, SVR보다 상대적으로 높은 오차를 나타냈다. 이는, RF에서 다수의 의사결정나무로부터 산출되는 결과를 단순평균 앙상블 평균하기 때문에 극댓값 구간에서 이러한 한계점이 나타났다고 판단된다(Horning et al., 2013). SVR은 0.72의 IOA와 0.9980%의 nRMSE 값으로 RF보다 낮은 오차를 보였다. 또한, (< 5%)의 극솟값 구간에서 SVR의 IOA값은 0.60으로 RF, MLR, RK와 비교하여 높았으며, 0.0039 ppm의 RMSE를 보이며 상대적으로 낮은 오차를 나타냈다. 이는, SVR은 관측값 전체 구간의 오차 범위를 줄이기 위해 모델링되기 때문에 극값 모의 정확도가 높은 것으로 판단된다(Wang et al., 2015).

Table 3. The daily LOOCV results of MLR, RK, RF, and SVR by NO2 concentration ranges (i.e., lower than 5 %, 5 % - 95 %, and higher than 95 % per station) between January and December 2020

OGCSBN_2021_v37n6_1_1739_t0002.png 이미지

Fig. 4는 연구기간동안 두 선형회귀 모델(MLR, RK)과 두 기계학습 모델(RF, SVR)의 일별 LOOCV에 대한 일별 통계 boxplot결과이다. MLR, RK, SVR의 IOA 평균 값은 0.57, 0.58, 0.57로 RF(0.50)에 비해 높은 수치를 보인다(Fig. 4(a)). 또한, RF의 R 평균값은 0.31로 MLR(0.36), RK(0.37), SVR(0.35)보다 낮은 상관성을 보였다. MLR, RK, SVR의 IOA와 R 평균값은 유사한 결과를 보였지만, MLR와 RK의 IOA 표준 편차는 0.12로 SVR(0.13) 대비 안정된 성능을 나타낸다. MLR과 RK를 비교하였을 때, 모두 0.0062 ppm의 RMSE 값과 0.57, 0.58의 IOA로 유사한 성능을 나타냈지만, nRMSE 값에서 RK(0.9483%)이 MLR(0.9501%)과 비교하여 상대적으로 낮은 오차를 보 였다. 이는, RK 모델은 MLR의 잔차 크리깅을 통한 오차 개선이라고 생각된다.

OGCSBN_2021_v37n6_1_1739_f0004.png 이미지

Fig. 4. Boxplots of (a) IOA, (b) RMSE, (c) nRMSE, and (d) R from daily LOOCV results based on MLR, RK, RF, and SVR for NO2 gap filling during the study period of January, 2020 December, 2020.

2) 모델 변수 중요도 분석

본 연구는 일별 기계학습 모델링을 진행하였기 때문 에 일별 모델의 차이가 존재할 수 있다. 또한, NO2의 공간 분포에 영향을 끼치는 주요 변수들이 일별로 다르기 때문에 boxplot을 통해서 변수 중요도를 분석하였다(Fig 5.). 변수별 MDI를 평균했을 때, 상위 5개의 변수는 위도(0.169), 위성 기반 NO2(0.091), NTL(0.084), 밤 시간 LST(0.075), 계절성 NDVI(0.070)가 있었다. NO2는 동풍 및 서풍으로 인해 서울 중심으로 집중된다. 도시 중심으로 모인 NO2는 도시풍과 곡풍의 순환으로 인해 서울 남부 및 북부 지역 간의 이류가 발생으로 경도보다 위도의 기여도가 높았다고 생각된다(Ryu et al., 2013). 또한, NTL, 밤 시간 LST는 도시화로 인한 지표면의 인위적 배출 요인을 반영하기 때문에 NO2 지도 표출 시 높은 기여도를 보였음이 판단된다(Cui et al., 2019).

OGCSBN_2021_v37n6_1_1739_f0005.png 이미지

Fig. 5. Relative variable importance identified by RF for daily NO2 gap filling during the study period. X axis denotes Mean Decrease Impurity (MDI) in RF.

토지 식생 활력도 증가에 따른 대기 오염물질의 감소는 입증되어 왔으며, 이는 NDVI와 NO2 농도 간의 음의 상관성을 의미한다(Cui et al., 2019). 이로 인해, 본 연구에서 계절성 NDVI의 기여도가 높았음을 판단된다. 8일 주기 NDVI가 계절성 NDVI보다 낮은 변수 중요도를 나타냈다. 이는, 단기간의 NDVI 변동성 보다는 계절 변동성이 NO2와 관련이 높기 때문으로 생각된다. 위성 기반 NO2는 지상 농도를 포함한 대기 전층의 NO2 농도를 나타내지만, 기존 NO2 기계학습 모델링 연구 결과와 같이 지상 NO2의 농도를 공간적으로 반영할 수 있다고 판단된다(Kang et al., 2021; Kim et al., 2021)

3) 공간 분포 분석

Fig. 6은 연구기간동안 MLR, RK와 RF, SVR의 일별 LOOCV에 의한 RMSE, nRMSE 결과를 지상관측소 별 로 나타내었다. 0.01 ppm과 0.8% 이상의 높은 RMSE, nRMSE 값을 나타낸 7, 24, 28, 35번 관측소는 기계학습 모델과 비교하여 선형 회귀 모델에서 낮은 오차를 보였다. 31번 관측소는 RF의 nRMSE 값이 0.34%로 MLR(0.66%), RK(0.67%), SVR(0.57%)과 비교하여 낮은 오차를 나타냈다. 하지만, 높은 오차를 보인 관측소 이외의 다수의 관측소에서 MLR, RK와 RF, SVR의 유사한 RMSE와 nRMSE 분포를 확인하였다.

OGCSBN_2021_v37n6_1_1739_f0006.png 이미지

Fig. 6. (a) RMSE maps using time-series daily LOOCV results for each station based on MLR, RK, RF, and SVR during the study period. (b) nRMSE maps using time-series daily LOOCV results for each station based on MLR, RK, RF, and SVR during the study period. In both (a) and (b), station numbers were labeled by latitude (i.e., the higher the latitude, the smaller the number).

개발된 모델 중 0.01 ppm 이상의 높은 RMSE 값이 관 측된 7, 24, 37번 관측소는 도로변대기측정소로 분류되 었다(Table 4). 이는, 도로변 대기 측정시 일자별 관측값 변동과 그에 따른 높은 NO2 농도가 반영되었다고 판단 된다. 또한, 7, 24, 37번 관측소는 높은 nRMSE 값이 산출 되었으며, 추가적으로 28번 관측소에서 RF(0.82%), 35번 관측소에서 SVR(0.81%)로 0.8% 이상의 높은 nRMSE 값이 나타났다(Table 4). 이는, 28번, 35번 관측소의 표준 편차는 0.0115 ppm, 0.0113 ppm으로 7번(0.0177 ppm), 24번(0.0137 ppm), 37번(0.014 ppm) 관측소 대비 NO2 농도의 표준 편차가 더 작았기 때문이다. RMSE, nRMSE에서 낮은 정확도를 보인 관측소는 모두 도로변 대기측정망으로 분류되었으며, 인위적 배출원의 요인이 잦은 지역에서는 모델링의 오차가 큰 것을 보여준다.

Table 4. Accuracy metrics for the five selected stations that showed relatively high RMSE and nRMSE values

OGCSBN_2021_v37n6_1_1739_t0004.png 이미지

Fig. 7은 MLR, RK와 RF, SVR이 적용된 일별 NO2 공간 내삽 지도를 계절별 평균하여 나타낸다. RF가 적용된 사계절 지도는 선형 회귀 모델과 SVR을 사용한 공간 내삽 모델 지도보다 스무딩(smoothing)된 양상을 보인다(Fig. 7). 이는, RF 모델이 앙상블 기반으로 좁은 예측 범위를 가지기 때문에 극값 예측의 어려움이 나타났다고 판단된다(Horning et al., 2013; Kühnlein et al., 2014; Cho et al., 2020). 선형 회귀 모델인 MLR, RK와 SVR의 공간 분포는 유사한 양상을 보였으며, 동적인 NO2 공간 분포를 확인하였다(Fig. 7). 네 모델의 계절별 공간 분포는 서울 외곽 지역을 제외하고 유사한 NO2 농도 범위를 보이며, 겨울철 가장 높은 NO2 분포를 나타낸다(Fig. 7(d)). NO2는 주로 화석 연료 배출을 통해 발생되며, 감소된 강수와 대기순환으로 인해 안정된 대기상태로 겨울철 더 높은 농도 값이 관측된다(Nguyen et al., 2015; Gupta et al., 2008). 또한, 네 모델에서 여름철에 가장 낮은 NO2 분포가 나타난다(Fig. 7(b)). 이는, 아시안 몬순과 태풍으로 인한 폭우에 의해 대기 중 오염 물질의 유실(washout)되고, 기온 상승으로 인한 NO2 광화학 산화율 증가했기 때문이라고 판단된다(Yoo et al., 2014; Caballero et al., 2012).

OGCSBN_2021_v37n6_1_1739_f0007.png 이미지

Fig. 7. Maps of the averaged spatial distribution of daily gap filled NO2 for (a) spring (March, April, May), (b) summer (June, July, August), (c) fall (September, October, November), and (d) winter (December, January, February) by model (i.e., MLR, RK, RF, and SVR). Han-river is masked and is shown as dark blue color.

5. 결론

본 연구는 서울 지역의 일별 지상 NO2 농도 지도 제작을 위해 선형 회귀 기법인 MLR, RF와 기계학습 알고리즘인 RF, SVR 모델을 비교하였다. 네 모델 모두 다변량 모델로 위성 기반 자료인 TROPOMI NO2 연직 농도, 밤낮 시간대의 LST, NDVI, NTL, DEM과 인구 및 지형 학적 자료를 포함한 총 17개의 변수가 활용되었다. 구축된 네 모델의 일별 LOOCV 검증 결과, MLR, RK, SVR 의 IOA 평균값은 약 0.57로 유사한 성능을 보였으며, RF(0.50)보다 상대적으로 높은 성능을 나타냈다. RK의 nRMSE 값이 0.9483 %으로 MLR(0.9501 %)에 비해 상대적으로 낮은 오차가 확인되었다. 이는, MLR로부터 산출된 잔차가 공간 내삽을 통해 보완되었음을 의미한다. 계절별 NO2 농도 지도는 네 모델 모두 유사한 농도 양상을 나타냈지만, MLR, RK, SVR 모델에서 RF에 비해 더 넓은 NO2 구간이 표출되었다. 반면, RF모델은 세 모델과 비교하여 계절별 공간 분포와 산점도에서 극값 범위 예측에 한계점을 확인하였다. 기존 대기 오염 물질에 대한 공간 내삽 연구는 국가 단위로 수행되었으며, 많은 데이터가 모델링을 위해 학습된다. 본 연구는 서울을 연구 지역으로 수행하였으며 국가 단위의 공간 내삽 모델보다 적은 샘플을 사용하였다. MLR, RK와 SVR의 유사한 성능을 확인하였으며, 도시지역의 대기 오염 물질 공간 내삽 시 선형 회귀 모델 적용이 가능함이 판단된다. 향후 연구에서 기상학적 입력변수인 재분석장과 주요 인위적인 배출원인 교통량 자료를 활용 시 더 향상된 결과를 산출할 것을 기대한다.

6. Supplementary Information

Appendix S1. Density scatter plots based on the daily LOOCV results of the (a) MLR, (b) RK, (c) RF and (d) SVR models for the extremely low NO2 concentration range (i.e., lower than 5% per station) during the study period.

Appendix S2. Density scatter plots based on the daily LOOCV results of the (a) MLR, (b) RK, (c) RF and (d) SVR models from the low to high NO2 concentration range (i.e., between 5% and 95% per station) during the study period.

Appendix S3. Density scatter plots based on the daily LOOCV results of the (a) MLR, (b) RK, (c) RF and (d) SVR models for the extremely high NO2 concentration range (i.e., higher than 95% per station) during the study period.

사사

본 결과물은 환경부의 재원으로 한국환경산업기술원의 환경보건디지털 조사기반 구축기술개발사업의 지원을 받아 연구되었습니다(2021003330001(NTIS: 148 5017948)

References

  1. Boardman, M. and T. Trappenberg, 2006. A heuristic for free parameter optimization with support vector machines, Proc. of In the 2006 IEEE International Joint Conference on Neural Network, Vancouver, BC, CAN, Jul. 16-21, pp. 610-617.
  2. Boersma, K.F., H.J. Eskes, J.P. Veefkind, E.J. Brinksma, R.J. van der A, M. Sneep, G.H.J. van den Oord, P.F. Levelt, P. Stammes, J.F. Gleason, and E.J. Bucsela, 2007. Near-real time retrieval of tropospheric NO2 from OMI, Atmospheric Chemistry and Physics, 7(8): 2103-2118. https://doi.org/10.5194/acp-7-2103-2007
  3. Breiman, L., 2001. Random forests, Machine Learning, 45(1): 5-32. https://doi.org/10.1023/A:1010933404324
  4. Caballero, S., R. Esclapez, N. Galindo, E. Mantilla, and J. Crespo, 2012. Use of a passive sampling network for the determination of urban NO2 spatiotemporal variations, Atmospheric Environment, 63: 148-155. https://doi.org/10.1016/j.atmosenv.2012.08.071
  5. Chao, Z., L. Wang, M. Che, and S. Hou, 2020. Effects of different urbanization levels on land surface temperature change: taking tokyo and shanghai for example, Remote Sensing, 12(12): 2022. https://doi.org/10.3390/rs12122022
  6. Chen, J., K. de Hoogh, J. Gulliver, B. Hoffmann, O. Hertel, M. Ketzel, M. Bauwelinck, A. van Donkelaar, U.A. Hvidtfeldt, K. Katsouyanni, N.A.H. Janssen, R.V. Martin, E. Samoli, P.E. Schwartz, M. Stafoggia, T. Bellander, M. Strak, K. Wolf, D. Vienneau, R. Vermeulen, B. Brunekreef, and G. Hoek, 2019. A comparison of linear regression, regularization, and machine learning algorithms to develop Europe-wide spatial models of fine particles and nitrogen dioxide, Environment International, 130: 104934. https://doi.org/10.1016/j.envint.2019.104934
  7. Cho, D., C. Yoo, J. Im, Y. Lee, and J. Lee, 2020. Improvement of spatial interpolation accuracy of daily maximum air temperature in urban areas using a stacking ensemble technique, GIScience and Remote Sensing, 57(5): 633-649. https://doi.org/10.1080/15481603.2020.1766768
  8. Choi, H., Y. Kang, and J. Im, 2021. Estimation of TROPOMI-derived Ground-level SO2 Concentrations Using Machine Learning Over East Asia, Korean Journal of Remote Sensing, 37(2): 275-290 (in Korean with English abstract). https://doi.org/10.7780/KJRS.2021.37.2.8
  9. Christensen, R., 2020. Plane answers to complex questions: the theory of linear models, Springer Science and Business Media, Berlin, GER.
  10. Cui, Y., L. Jiang, W. Zhang, H. Bao, B. Geng, Q. He, L. Zhang, and D.G. Streets, 2019. Evaluation of China's environmental pressures based on satellite NO2 observation and the extended STIRPAT model, International Journal of Environmental Research and Public Health, 16(9): 1487. https://doi.org/10.3390/ijerph16091487
  11. Cui, Y., W. Zhang, H. Bao, C. Wang, W. Cai, J. Yu, and D.G. Streets, 2019. Spatiotemporal dynamics of nitrogen dioxide pollution and urban development: Satellite observations over China, 2005-2016, Resources, Conservation and Recycling, 142: 59-68. https://doi.org/10.1016/j.resconrec.2018.11.015
  12. Draper, N.R. and H. Smith, 1998. Applied regression analysis, Third Edition (Vol. 326), John Wiley and Sons, Hoboken, NJ, USA.
  13. Ghahremanloo, M., Y. Lops, Y. Choi, and S. Mousavinezhad, 2021. Impact of the COVID-19 outbreak on air pollution levels in East Asia, Science of the Total Environment, 754: 142226. https://doi.org/10.1016/j.scitotenv.2020.142226
  14. Goldberg, D.L., S.C. Anenberg, D. Griffin, C.A. McLinden, Z. Lu, and D.G. Streets, 2020. Disentangling the impact of the COVID-19 lockdowns on urban NO2 from natural variability, Geophysical Research Letters, 47(17): e2020GL089269.
  15. Graler, B., M. Rehr, L. Gerharz, and E. Pebesma, 2012. Spatio-temporal analysis and interpolation of PM10 measurements in Europe for 2009, ETC/ACM Technical Paper, 8: 1-29.
  16. Guo, Z., S.D. Wang, M.M. Cheng, and Y. Shu, 2012. Assess the effect of different degrees of urbanization on land surface temperature using remote sensing images, Procedia Environmental Sciences, 13: 935-942. https://doi.org/10.1016/j.proenv.2012.01.087
  17. Gupta, A.K., K. Karar, S. Ayoob, and K. John, 2008. Spatio-temporal characteristics of gaseous and particulate pollutants in an urban region of Kolkata, India, Atmospheric Research, 87(2): 103-115. https://doi.org/10.1016/j.atmosres.2007.07.008
  18. Harris, P., A.S. Fotheringham, R. Crespo, and M. Charlton, 2010. The use of geographically weighted regression for spatial prediction: an evaluation of models using simulated data sets, Mathematical Geosciences, 42(6): 657-680. https://doi.org/10.1007/s11004-010-9284-7
  19. Hengl, T., G.B. Heuvelink, and A. Stein, 2004. A generic framework for spatial prediction of soil variables based on regression-kriging, Geoderma, 120(1-2): 75-93.
  20. Hengl, T., G.B. Heuvelink, and D.G. Rossiter, 2007. About regression-kriging: From equations to case studies, Computers and Geosciences, 33(10): 1301-1315. https://doi.org/10.1016/j.cageo.2007.05.001
  21. Holben, B.N., 1986. Characteristics of maximum-value composite images from temporal AVHRR data, International Journal of Remote Sensing, 7(11): 1417-1434. https://doi.org/10.1080/01431168608948945
  22. Horning, N., 2013. Introduction to decision trees and random forests, American Museum of Natural History, Manhattan, NY, USA.
  23. Ialongo, I., H. Virta, H. Eskes, J. Hovila, and J. Douros, 2020. Comparison of TROPOMI/Sentinel-5 Precursor NO2 observations with ground-based measurements in Helsinki, Atmospheric Measurement Techniques, 13(1): 205-218. https://doi.org/10.5194/amt-13-205-2020
  24. Houborg, R. and M.F. McCabe, 2018. A hybrid training approach for leaf area index estimation via Cubist and random forests machine-learning, ISPRS Journal of Photogrammetry and Remote Sensing, 135: 173-188. https://doi.org/10.1016/j.isprsjprs.2017.10.004
  25. Kaminska, J.A., 2019. A random forest partition model for predicting NO2 concentrations from traffic flow and meteorological conditions, Science of the Total Environment, 651: 475-483. https://doi.org/10.1016/j.scitotenv.2018.09.196
  26. Kang, Y., H. Choi, J. Im, S. Park, M. Shin, C.K. Song, and S. Kim, 2021. Estimation of surface-level NO2 and O3 concentrations using TROPOMI data and machine learning over East Asia, Environmental Pollution, 288: 117711. https://doi.org/10.1016/j.envpol.2021.117711
  27. Kim, M., D. Brunner, and G. Kuhlmann, 2021. Importance of satellite observations for high-resolution mapping of near-surface NO2 by machine learning, Remote Sensing of Environment, 264: 112573. https://doi.org/10.1016/j.rse.2021.112573
  28. Kim, S. Y., S.J. Yi, Y.S. Eum, H.J. Choi, H. Shin, H.G. Ryou, and H. Kim, 2014. Ordinary kriging approach to predicting long-term particulate matter concentrations in seven major Korean cities, Environmental Health and Toxicology, 29: e2014012. https://doi.org/10.5620/eht.e2014012
  29. Krotkov, N.A., C.A. McLinden, C. Li, L.N. Lamsal, E.A. Celarier, S.V. Marchenko, W.H. Swartz, E.J. Bucsela, J. Joiner, B.N. Duncan, K.F. Boersma, J.P. V, Pieternel F. Levelt, V.E. Fioletov, R.R. Dickerson, H. He, Z. Lu, and D.G. Streets, 2016. Aura OMI observations of regional SO2 and NO2 pollution changes from 2005 to 2015, Atmospheric Chemistry and Physics, 16(7): 4605-4629. https://doi.org/10.5194/acp-16-4605-2016
  30. Kuhnlein, M., T. Appelhans, B. Thies, and T. Nauss, 2014. Improving the accuracy of rainfall rates from optical satellite sensors with machine learning-A random forests-based approach applied to MSG SEVIRI, Remote Sensing of Environment, 141: 129-143. https://doi.org/10.1016/j.rse.2013.10.026
  31. Li, J. and A.D. Heap, 2014. Spatial interpolation methods applied in the environmental sciences: A review, Environmental Modelling and Software, 53: 173-189. https://doi.org/10.1016/j.envsoft.2013.12.008
  32. Li, X., A. Luo, J. Li, and Y. Li, 2019. Air pollutant concentration forecast based on support vector regression and quantum-behaved particle swarm optimization, Environmental Modeling and Assessment, 24(2): 205-222. https://doi.org/10.1007/s10666-018-9633-3
  33. Lin, J.T., Z. Liu, Q. Zhang, H. Liu, J. Mao, and G. Zhuang, 2012. Modeling uncertainties for tropospheric nitrogen dioxide columns affecting satellite-based inverse modeling of nitrogen oxides emissions, Atmospheric Chemistry and Physics, 12(24): 12255-12275. https://doi.org/10.5194/acp-12-12255-2012
  34. LUINTEL, N., W. Ma, Y. Ma, B. Wang, and S. SUBBA, 2019. Spatial and temporal variation of daytime and nighttime MODIS land surface temperature across Nepal, Atmospheric and Oceanic Science Letters, 12(5): 305-312. https://doi.org/10.1080/16742834.2019.1625701
  35. Nguyen, H.T., K.H. Kim, and C. Park, 2015. Long-term trend of NO2 in major urban areas of Korea and possible consequences for health, Atmospheric Environment, 106: 347-357. https://doi.org/10.1016/j.atmosenv.2015.02.003
  36. Oliver, M.A. and R. Webster, 2014. A tutorial guide to geostatistics: Computing and modelling variograms and kriging, Catena, 113: 56-69. https://doi.org/10.1016/j.catena.2013.09.006
  37. Park, S., J. Im, S. Park, and J. Rhee, 2017. Drought monitoring using high resolution soil moisture through multi-sensor satellite data fusion over the Korean peninsula, Agricultural and Forest Meteorology, 237: 257-269. https://doi.org/10.1016/j.agrformet.2017.02.022
  38. Park, S., M. Kim, and J. Im, 2021. Estimation of Ground-level PM10 and PM2.5 Concentrations Using Boosting-based Machine Learning from Satellite and Numerical Weather Prediction Data, Korean Journal of Remote Sensing, 37(2): 321-335 (in Korean with English Abstract). https://doi.org/10.7780/KJRS.2021.37.2.11
  39. Ren, X., Z. Mi, and P.G. Georgopoulos, 2020. Comparison of Machine Learning and Land Use Regression for fine scale spatiotemporal estimation of ambient air pollution: Modeling ozone concentrations across the contiguous United States, Environment International, 142: 105827. https://doi.org/10.1016/j.envint.2020.105827
  40. Ryu, Y.H., J.J. Baik, K.H. Kwak, S. Kim, and N. Moon, 2013. Impacts of urban land-surface forcing on ozone air quality in the Seoul metropolitan area, Atmospheric Chemistry and Physics, 13(4): 2177-2194. https://doi.org/10.5194/acp-13-2177-2013
  41. Shukla, K., P. Kumar, G.S. Mann, and M. Khare, 2020. Mapping spatial distribution of particulate matter using Kriging and Inverse Distance Weighting at supersites of megacity Delhi, Sustainable Cities and Society, 54: 101997. https://doi.org/10.1016/j.scs.2019.101997
  42. Sun, S., J.D. Stewart, M.N. Eliot, J.D. Yanosky, D. Liao, L.F. Tinker, C.B. Eaton, E.A. Whitsel, G.A. Wellenius, 2019. Short-term exposure to air pollution and incidence of stroke in the Women's Health Initiative, Environment International, 132: 105065. https://doi.org/10.1016/j.envint.2019.105065
  43. EPA (United States Environmental Protection Agency), 2013. Integrated Science Assessment (ISA) of Ozone and Related Photochemical Oxidants Final Report, EPA, Washington, DC, USA.
  44. Vienneau, D., K. de Hoogh, M.J. Bechle, R. Beelen, A. van Donkelaar, R.V. Martin, D.B. Millet, G. Hoek, and J.D. Marshall, 2013. Western European land use regression incorporating satellite-and ground-based measurements of NO2 and PM10, Environmental Science and Technology, 47(23): 13555-13564. https://doi.org/10.1021/es403089q
  45. Wang, J., S. Qin, Q. Zhou, and H. Jiang, 2015. Medium-term wind speeds forecasting utilizing hybrid models for three different sites in Xinjiang, China, Renewable Energy, 76: 91-101. https://doi.org/10.1016/j.renene.2014.11.011
  46. Wang, L., H. Liu, H. Su, and J. Wang, 2019. Bathymetry retrieval from optical images with spatially distributed support vector machines, GIScience and Remote Sensing, 56(3): 323-337. https://doi.org/10.1080/15481603.2018.1538620
  47. Willmott, C.J., S.M. Robeson, and K. Matsuura, 2012. A refined index of model performance, International Journal of Climatology, 32(13): 2088-2094. https://doi.org/10.1002/joc.2419
  48. Wanninkhof, R., 2014. Relationship between wind speed and gas exchange over the ocean revisited, Limnology and Oceanography: Methods, 12(6): 351-362. https://doi.org/10.4319/lom.2014.12.351
  49. WHO (World Health Organizations), 2005. Particulate matter, ozone, nitrogen dioxide and sulfur dioxide. In Air Quality Guidelines: Global Update, 2005. http://www.euro.who.int/__data/assets/pdf_file/0005/78638/E90038.pdf, Accessed Aug. 15, 2016.
  50. Wu, C.D., Y.T. Zeng, and S.C.C. Lung, 2018. A hybrid kriging/land-use regression model to assess PM2.5 spatial-temporal variability, Science of the Total Environment, 645: 1456-1464. https://doi.org/10.1016/j.scitotenv.2018.07.073
  51. Wu, S., B. Huang, J. Wang, L. He, Z. Wang, Z. Yan, X. Lao, F. Zhang, R. Liu, and Z. Du 2021. Spatiotemporal mapping and assessment of daily ground NO2 concentrations in China using high-resolution TROPOMI retrievals, Environmental Pollution, 273: 116456. https://doi.org/10.1016/j.envpol.2021.116456
  52. Yoo, J.M., Y.-R. Lee, D. Kim, M.-J. Jeong, W.R. Stockwell, P.K. Kundu, S.-M. Oh, D.-B. Shin, and S.-J. Lee, 2014. New indices for wet scavenging of air pollutants (O3, CO, NO2, SO2, and PM10) by summertime rain, Atmospheric Environment, 82: 226-237. https://doi.org/10.1016/j.atmosenv.2013.10.022
  53. Zhan, Y., Y. Luo, X. Deng, K. Zhang, M. Zhang, M.L. Grieneisen, and B. Di, 2018. Satellite-based estimates of daily NO2 exposure in China using hybrid random forest and spatiotemporal kriging model, Environmental Science and Technology, 52(7): 4180-4189. https://doi.org/10.1021/acs.est.7b05669
  54. Zhu, Y., Y. Zhan, B. Wang, Z. Li, Y. Qin, and K. Zhang, 2019. Spatiotemporally mapping of the relationship between NO2 pollution and urbanization for a megacity in Southwest China during 2005-2016, Chemosphere, 220: 155-162. https://doi.org/10.1016/j.chemosphere.2018.12.095
  55. Zuniga, J., M. Tarajia, V. Herrera, W. Urriola, B. Gomez, and J. Motta, 2016. Assessment of the possible association of air pollutants PM10, O3, NO2 with an increase in cardiovascular, respiratory, and diabetes mortality in Panama City: a 2003 to 2013 data analysis, Medicine, 95(2): e2464. https://doi.org/10.1097/md.0000000000002464