Abstract
Since Google launched a prediction service for influenza-like illness(ILI), studies on ILI prediction based on web search data have proliferated worldwide. In this regard, this study aims to build short-term predictive models for ILI in Korea using ILI and web search data and measure the performance of the said models. In these proposed ILI predictive models specific to Korea, ILI surveillance data of Korea CDC and Korean web search data of Google and Naver were used along with the ARIMA model. Model 1 used only ILI data. Models 2 and 3 added Google and Naver search data to the data of Model 1, respectively. Model 4 included a common query used in Models 2 and 3 in addition to the data used in Model 1. In the training period, the goodness of fit of all predictive models was higher than 95% ($R^2$). In predictive periods 1 and 2, Model 1 yielded the best predictions (99.98% and 96.94%, respectively). Models 3(a), 4(b), and 4(c) achieved stable predictability higher than 90% in all predictive periods, but their performances were not better than that of Model 1. The proposed models that yielded accurate and stable predictions can be applied to early warning systems for the influenza pandemic in Korea, with supplementary studies on improving their performance.
구글의 인플루엔자 의사환자(ILI) 예측 서비스 시작 이래로 웹 검색 정보를 활용한 ILI 예측 연구들이 급속도로 확산되고 있는 가운데, 본 연구는 ILI 자료와 웹 검색 정보를 활용한 한국 ILI 단기 예측 모형을 개발해 성능을 평가해 보고자 한다. 한국에 특화된 ILI 예측 모형 개발을 위해 한국질병관리본부의 ILI 감시 자료와 구글 및 네이버의 한국어 검색정보를 ARIMA 모형과 함께 사용하였다. 모형1은 ILI 자료만 사용하였으며, 모형 2와 3은 모형1에 구글과 네이버의 검색자료를 각각 추가하였다. 모형4는 모형 2와 3의 공통 검색어를 모형1에 추가하였다. 모형 훈련기간 동안 모든 예측모형들이 95%($R^2$) 이상의 높은 적합도를 보였으며, 예측기간 1과 2에서 모형1이 가장 우수한 예측력(99.98%, 96.94%)을 보였다. 모형 3(a)와 4(b, c)는 전체 예측기간에서 90% 이상의 안정적인 예측력을 보였지만, 모형1의 성능에는 미치지 못하였다. 본 연구에서 정확하고 안정적인 예측력을 보인 모형들은 성능개선에 관한 보완적 연구와 더불어 국내 인플루엔자 유행 조기경보시스템에 활용 가능하다.