DOI QR코드

DOI QR Code

Development and Verification of an AI Model for Melon Import Prediction

  • KHOEURN SAKSONITA (Bigdata Interdisciplinary Program, Chungbuk National University) ;
  • Jungsung Ha (MIS Department, Chungbuk National University) ;
  • Wan-Sup Cho (MIS Department, Chungbuk National University) ;
  • Phyoungjung Kim (Dept. of Computer Drone, Chungbuk Provincial University)
  • 투고 : 2023.06.19
  • 심사 : 2023.07.19
  • 발행 : 2023.07.31

초록

기후변화로 인해 농작물 생산과 유통에 관한 관심이 증대되고 있고, 빅데이터와 AI를 활용한 생산량 예측을 통해 농가의 출하량 조절과 유통단계의 조절에 활용하는 시도가 이루어지고 있다. 농산물 반입량 예측은 가격에 영향을 미칠 뿐 아니라 농가의 출하량과 유통회사의 유통량 조절을 할 수 있으므로 마케팅 전략을 수립하는데 중요한 정보이다. 본 연구에서는 농업 통계 정보 시스템에서 공개한 도매시장 참외 반입량 데이터를 기반으로 미래의 반입량을 예측하는 인공지능 예측 모델을 생성하고 정확도를 평가한다. 우리는 Neural Prophet 기법과 Ensembled Neural Prophet 모델 그리고 GRU 모델 등 세 가지 모델을 사용하여 예측 모델을 생성한다. 모델의 성능은 MAE와 RMSE라는 두 가지 주요 지표를 비교하여 평가한 결과 Ensembled Neural Prophet 모델이 가장 정확하게 예측하였으며, GRU 모델도 앙상블 모델과 유사한 성능을 보여주고 있다. 본 연구에서 개발된 모형은 웹에 publish 되어 현장에서 1년 6개월 동안 사용하고 있으며, 가까운 미래의 참외 생산량을 예측하고, 마케팅 및 유통전략을 수립하는 데 활용되고 있다.

Due to climate change, interest in crop production and distribution is increasing, and attempts are being made to use bigdata and AI to predict production volume and control shipments and distribution stages. Prediction of agricultural product imports not only affects prices, but also controls shipments of farms and distributions of distribution companies, so it is important information for establishing marketing strategies. In this paper, we create an artificial intelligence prediction model that predicts the future import volume based on the wholesale market melon import volume data disclosed by the agricultural statistics information system and evaluate its accuracy. We create prediction models using three models: the Neural Prophet technique, the Ensembled Neural Prophet model, and the GRU model. As a result of evaluating the performance of the model by comparing two major indicators, MAE and RMSE, the Ensembled Neural Prophet model predicted the most accurately, and the GRU model also showed similar performance to the ensemble model. The model developed in this study is published on the web and used in the field for 1 year and 6 months, and is used to predict melon production in the near future and to establish marketing and distribution strategies.

키워드

I. Introduction

기후변화로 인해 농작물 생산과 유통에 관한 관심이 증대되고 있다[1, 2]. 농작물 생산과 유통은 농업 부문에서 중요한 역할을 한다. 농작물 생산은 식량 공급, 식품 산업 및 수출 등 다양한 목적을 가지고 이루어진다. 이러한 생산 과정에서는 작물의 재배, 수확, 가공 등의 단계가 포함된다. 작물 생산의 첫 번째 단계는 씨앗의 선별과 재배 환경의 조성이다. 농부들은 토양의 품질을 확인하고 작물에 적합한 영양분을 공급하기 위해 비료를 사용할 수 있다. 이후에는 씨앗을 심고 작물을 재배하며, 적절한 관리를 통해 생육과 수확을 도모한다. 작물의 성장에는 물, 태양광 및 기타 자연조건들도 영향을 미치며, 이러한 요소들을 관리하는 것이 중요하다. 농작물이 수확되면, 보관 및 가공이 이루어진다. 신선한 작물은 식품 소비자에게 직접 공급되거나, 유통 과정을 거쳐 소비자에게 도달한다. 농산물 유통은 수많은 단계를 거쳐 이루어지며, 농산물의 수집, 가공, 패키징, 유통망을 통한 운송 및 보관 등이 포함된다. 농작물 유통은 농업 생산자와 소비자 간의 중요한 연결고리이다. 다양한 유통 채널이 있으며, 대규모 유통 업체, 도매상, 소매상, 농산물 시장 등을 통해 농작물이 유통된다. 농산물 유통 과정에서는 품질 검사, 가격 협상, 계약 체결 등의 작업이 이루어지며, 신선도 유지 및 안전한 식품을 제공하는 것이 중요하다. 한편으로는 ICT 기술을 접목한 스마트팜의 작물 생산량을 최적화하기 위한 연구도 활발하게 이루어지고 있다[3].

최근 들어 빅데이터 및 AI를 활용한 생산량 예측을 통해 농가의 출하량 조절과 유통단계의 조절에 활용하는 시도가 이루어지고 있다[4, 5, 6]. 빅데이터와 AI 기술을 활용하여 농가의 생산량 예측을 수행하고 이를 출하량과 유통단계 조절에 활용하는 것은 효과적인 농업 경영 전략이다. 이를 통해 농가는 생산과 유통 과정에서 예측 가능성과 효율성을 향상시킬 수 있다. 빅데이터는 다양한 출처에서 수집된 대량의 데이터를 의미한다. 농업 분야에서는 기상 데이터, 토양 조건, 작물 종류 및 생육 데이터, 시장 동향 등 다양한 정보를 수집할 수 있다. 이러한 데이터는 농작물의 생육과 생산에 영향을 미치는 요인들을 포착하고 분석하는 데 도움을 줄 수 있고, 인공지능 기술은 수집된 데이터를 분석하고 패턴을 식별하여 예측 모델을 구축하는 데 사용될 수 있다. 예를 들어, 과거의 작물 생산 데이터와 기상 데이터를 분석하여 특정 작물의 생산량과 기상 조건 사이의 상관관계를 찾을 수 있다. 이를 통해 향후 기상 예측에 따른 생산량 예측을 수행할 수 있다.

생산량 예측을 통해 농가는 출하량을 조절할 수 있다. 예상 생산량이 많을 경우, 농가는 시장 수요에 맞추어 생산량을 조절하여 과잉 생산으로 인한 낭비를 줄일 수 있고, 반대로 예상 생산량이 적을 경우, 농가는 추가 생산을 계획하거나 다른 작물로 전환함으로써 수요에 충족시킬 수 있다. 또한, 예측 모델은 유통단계에서도 활용될 수 있다. 생산량 예측을 통해 작물의 공급 시기와 수요 사이의 균형을 맞출 수 있고, 이를 통해 농가는 생산된 작물을 효과적으로 유통하여 재고 관리와 가격 조절 등을 수행할 수 있다. 빅데이터와 AI를 활용한 생산량 예측은 농가의 수익성과 경영 효율성을 향상할 수 있는 중요한 도구이다. 그러나 품목별로 특성이 다르므로 각 품목의 특성이 맞는 접근방식이 요구되고 있다.

농산물의 품목별 생산량과 가격 정보는 농넷[6]에서 제공되고 있다. 성주농협은 특화 농산물인 참외 판매로 연간 6,000억 원 정도의 매출을 올리고 있으며, 대한민국 참외 생산량의 80%를 차지하고 있다. 최근 들어 기후변화 등으로 참외 출하량의 변동이 커지고 있어 수급 조절에 어려움을 겪고 있다[4]. 데이터 기반으로 참외 출하량(생산량)을 예측할 수 있으면 수급 조절 및 가격 급등락에 효과적으로 대처할 수 있으며 유통량 조절 등에 도움이 된다.

본 연구에서는 과거 참외 출하량 데이터와 머신러닝 모델, 특히 Neural Prophet과 앙상블 기법을 사용하여 가까운 미래의 참외 출하량을 예측하는 AI 모형을 개발하고 정확도를 평가한다. 앙상블 모델이 Neural Prophet 모델보다 정확한 것으로 나타났으며, MAE 및 RMSE는 각각 31,474 와 74,524로 예측된다. 개발된 모형은 웹에 publish 되어 성주농협 등의 현장에서 유용하게 활용되고 있다.

II. Related Work

최근 들어 빅데이터 및 인공지능 기술을 활용한 농산물 예측 기법이 제시되고 있다. 농산물 예측 기법은 농작물의 생산량, 수확 시기, 가격 등을 예측하는 기법으로, 기상 정보, 작물 생육 정보, 경작 정보 등을 종합적으로 분석하여 농작물의 생산성을 높이고 농가의 수익 향상을 도모하는 것이 목적이다.

시계열 분석 기법은 작물의 생산량 예측에 많이 활용되어 온 기법이다. 농산물 시계열 분석은 농산물 가격, 생산량, 수요 등과 같은 데이터의 시간적 변동성을 분석하는 방법이다. 이 분석은 농산물 시장의 동향과 패턴을 이해하고 예측하는 데 활용되고, 생산량에 영향을 미치는 환경정보를 활용하는 다변량 시계열 기법을 통해 예측의 정확성을 높이려는 방향으로 발전해 왔다. 국내 쌀 토지 생산성 예측에서 정대희 등[6]은 환경정보를 활용한 연구 결과를 발표하였다. 1946년에서 2017년까지의 데이터를 이용하였고 예측 대상은 전국의 연간 면적당 쌀 생산량이었다. 온도, 강수량, CO2 농도의 환경변수를 이용하였는데 온도와 강수량은 벼 생장 시기인 4월에서 10월까지의 전국 평균을 사용하였다. ARIMA, ARIMA-X, ARDL, GARCH-M 등의 모형을 비교하였으며 환경변수를 외생변수로 사용한 ARIMA-X가 가장 좋은 예측력을 보였다.

최근에는 딥러닝 모델을 활용하여 작물의 생산량을 예측하는 연구가 진행되고 있다. 특히 딥러닝 시계열 분석모델 RNN의 일종인 LSTM을 활용하였으며 LSTM의 경우 긴 시계열 데이터에도 적용하기 적합하고 통계적 시계열 기법을 이용한 연구에 비해 많은 외생변수를 사용하여 예측력을 높였다.

Oui 등[9]은 인공지능 기법을 사용하여 파프리카 소비량을 예측하였다. 특히, SNS와 뉴스 등 비정형 데이터를 사용하고, 다양한 인공지능 기법들로 모형을 만들어 비교하고 있다.

Naeun Kim 등[1]은 머신러닝 알고리즘을 사용하여 온실 딸기 생산량을 예측하였다. 이 연구에서는 2019년 09월 23일부터 2020년 01월 07일까지 일주일에 한 번씩 16주 동안 한 농가당 6개체의 작물 생체 자료를 수집하였으며, 매 30초 단위로 실시간으로 환경정보와 제어 정보를 수집하여 분석 및 예측에 사용하였다. 작물의 엽수, 꽃수, 과실수를 직접 측정하였으며, 한 작물에서 가장 긴초장과 짧은 초장, 한 작물에서 가장 긴엽폭과 짧은 엽폭은 줄자를 이용하여 측정한 데이터이다.

Kim Se-won, et. al[2]은 작물 생산량 예측을 위한 머신러닝 기법 활용에 관한 연구를 수행하였다. 여기서는 3가지의 머신러닝 알고리즘 (Ridge Regression, Random Forest, XGBoost)을 후보 알고리즘으로 선정하여 작물 생산량 예측의 적합도를 평가 분석하였다.

Jang Seok-hwan[5]은 기존 통계기법을 활용하여 주요 식량작물의 생산량 예측모형을 연구하였다. 주요 식량작물인 쌀, 보리, 콩, 감자를 대상으로 농수산 통계 연보와 기상자료를 사용하여 예측모형을 만들었다.

III. Import Volume Prediction Model

우리는 데이터셋과 전처리 및 인공지능 예측 모델에 관해 차례대로 설명한다.

2.1 Data Collection and Preprocessing

본 연구에 사용되는 데이터는 농업 통계 정보 시스템(OASIS) (통계정보시스템농업관측, 2023)에서 공개한 도매시장 참외 반입량 데이터이다. 이 시스템은 한국농촌경제연구원(KREI)에서 관리하며, <그림 1>과 같이 원시 데이터는 연간 판매량에 대한 일일 데이터로 구성되어 있다. 데이터의 기간은 2015년부터 2022년까지 8년간이고, 데이터 크기는 235,428건이다.

CPTSCQ_2023_v28n7_29_f0001.png 이미지

Fig. 1. Data Source (https://oasis.krei.re.kr/basicInfo/wholesale/qty.do)

다음 단계는 데이터 전처리를 포함하며, 특히 국내 참외생산의 80% 이상을 차지하는 성주산 참외에 대한 일일 거래량을 집계하여 사용한다. 이상치를 제거한 모델 개발과 검증을 위해 훈련 및 테스트 세트로 분할한다.

본 연구에서는 Neural Prophet (TriebeOskar, 외., 2021)과 EnsembledNeuralProphet 모델 두 가지 모델을 사용하여 예측 모델을 생성한다. 모델의 성능은 MAE와 RMSE라는 두 가지 주요 지표를 비교하여 평가한다. AI 모형 개발에 사용된 데이터셋의 구조는 <표 1>과 같다.

Table 1. Data set Structure

CPTSCQ_2023_v28n7_29_t0001.png 이미지

Neural Prophet 모델은 시계열 데이터를 예측하기 위한 딥러닝 모델 중 하나이다. Facebook에서 개발한 Prophet 모델을 기반으로 하며, LSTM(Long Short-Term Memory)과 같은 RNN(Recurrent Neural Network)을 사용하여 시계열 데이터의 패턴을 학습한다. 이 모델은 트렌드, 계절성 및 휴일과 같은 시계열 데이터의 중요한 요소들을 고려하여 예측을 수행한다.

Ensemble Neural Prophet 모델은 여러 개의 Neural Prophet 모델을 결합하여 예측 결과를 개선하는 앙상블 모델이다. 각각의 Neural Prophet 모델은 독립적으로 학습되며, 예측 결과를 산출한다. 이때 Ensemble Neural Prophet 모델은 이러한 예측 결과들을 조합하여 더욱 정확한 예측 결과를 도출한다. 따라서 각각의 Neural Prophet 모델은 서로 다른 학습데이터를 가지고 있을 수 있으며, 이에 따라 예측 결과도 다를 수 있다.

Ensemble Neural Prophet 모델의 예측 성능을 개선하는 방법은 여러 가지가 있다. 일반적으로 앙상블 방법을 사용하여 여러 모델의 예측 결과를 결합하면 성능이 향상될 수 있다. 예를 들어, 여러 개의 Neural Prophet 모델을 학습하고 그 결과를 평균 또는 가중 평균하여 최종 예측 결과를 도출할 수 있다. 또한 입력 데이터의 전처리 방법을 최적화하여 예측 성능을 향상할 수도 있다. 예를 들어, 시계열 데이터에서 이상치 제거 및 결측치 보간 등의 전처리를 수행할 수 있다. 마지막으로, 모델의 하이퍼파라미터를 조정하여 성능을 개선할 수도 있다. 이러한 방법들을 적절히 조합하여 Ensemble Neural Prophet 모델의 예측 성능을 개선할 수 있다.

결과적으로 Neural Prophet 모델은 단일 모델로 시간시리즈 데이터를 예측하는 반면, Ensembled Neural Prophet 모델은 여러 개의 Neural Prophet 모델을 앙상블하여 더 정확한 예측을 수행한다.

EDA 분석 결과 요일별, 월별, 년도별 출하량 데이터는 <그림 2>와 <그림 3>과 같이 분석된다. 토요일과 5월에 가장 많이 반입됨을 알 수 있다. 또한 연도별로 반입량 패턴이 유사한 형태를 가지고 있어 Prophet 알고리즘으로 예측모형을 만들기에 적합한 것으로 보인다.

CPTSCQ_2023_v28n7_29_f0002.png 이미지

Fig. 2. Shipment Trend by Day and Month

CPTSCQ_2023_v28n7_29_f0003.png 이미지

Fig. 3. Shipment Trend by Year

2.2 Import Volume Prediction using AI Model

본 연구에서는 두 가지 예측 모델을 생성한다. 첫 번째 모델인 Neural Prophet은 linear growth trend, 8개의 이전 시간 단계에 대한 자기회귀(auto regression), 가법적 계절성(additive seasonality), 경향 유연성을 위한 50개의 잠재적 변화점(potential change points), 그리고 세개의 은닉층으로 구성된 신경망 등에 대한 설정을 포함한다. 이 모델은 최솟값-최댓값 정규화를 사용하며, 각 은닉층에 64개의 은닉 유닛이 있고, 학습률이 0.03인 200 epoch 동안 학습한다. 이 모델은 데이터의 내재적인 패턴을 효과적으로 포착하여 정확한 예측을 제공한다.

두 번째 모델은 다양한 설정을 가진 다섯 개의 Neural Prophet 모델의 앙상블이다. 이 모델들은 200 epoch 동안 학습되며, 검증 데이터에 대한 예측은 각각의 평균 제곱 오차를 기준으로 가중치가 부여된다. 개별 모델의 예측 결과의 가중 평균을 사용하여 앙상블 예측을 생성하며, 다중 모델의 강점을 활용하여 전체적인 성능을 향상할 수 있다. <그림 4>는 두 가지 모델의 구축과정을 정리한 것이다.

CPTSCQ_2023_v28n7_29_f0004.png 이미지

Fig. 4. Construction Process of Artificial Intelligence Model: Neural Prophet Model and Ensemble Model

세 번째 모형은 <그림 5>와 같이 GRU (Gated Recurrent Unit) 기법을 사용한 모델이다. GRU 모델은 LSTM과 유사한 성능을 내지만 LSTM을 구성하는 Time-Step의 cell을 좀 더 간소화한 버전이다. GRU는 순환 신경망(RNN)의 한 종류로, 시퀀스 데이터를 처리하고 모형화하는데 사용되는 기법이다. GRU는 장기 의존성 문제를 해결하면서도 다른 RNN 구조인 LSTM과 비교했을 때 더 간단한 구조로 되어 있다. GRU는 LSTM과 유사하지만 잊어버리기 게이트가 없다는 점이다.

CPTSCQ_2023_v28n7_29_f0005.png 이미지

Fig. 5. GRU Model

그 대신 업데이트 게이트가 전체 은닉 상태를 제어하고, 업데이트 게이트의 출력 범위가 0과 1 사이에 더 가깝게 조절된다. 이는 GRU가 LSTM보다 더 간단하며 학습할 파라미터 수가 적다는 장점을 가지고 있다.

2.3 Verification and Utilization

훈련 후, 검증 데이터에 대하여 Neural Prophet 및 Ensemble Neural Prophet 모델의 성능을 평가하였다. 2015년부터 2020년까지의 데이터를 train 데이터로 하고, 2021년 데이터를 validation 데이터로 하여 세가지 모형을 개발하고, 2022년 출하량을 예측하였다. 예측 성능을 시각적으로 평가하기 위해 그림 6과 7에서 X축을 기간, Y축을 예측 및 실제 값으로 설정한 후, 예측값과 실제값을 비교하였다(파란색은 실제값, 주황색은 예측값). 세가지 모형 중에서 앙상블 모델이 가장 정확한 값을 예측하여 뛰어난 성능을 보인다. 그래프와 같은 시각적 표현만으로는 성능을 비교하는데 부족하므로, <표 2>와 같이 평균 절대 오차(MAE)와 평균 제곱근 오차(RMSE) 점수를 사용하여 모델을 평가하였다. test 데이터를 예측한 결과, 앙상블 모델은 MAE와 RMSE 점수 모두에서 Neural Prophet과 GRU 모델을 뛰어넘는 것을 명확히 보여주고 있다.

CPTSCQ_2023_v28n7_29_f0006.png 이미지

Fig. 6. Comparison of Predicted and Actual Values of Two Models (top: Neural Prophet, bottom: Ensemble Model)

CPTSCQ_2023_v28n7_29_f0007.png 이미지

Fig. 7. Comparison of Actual and Predicted Values in GRU Prediction

Table 2. Accuracy Comparison of 3 Models (단위:kg)​​​​​​​

CPTSCQ_2023_v28n7_29_t0002.png 이미지

IV. Conclusions

기후변화로 인해 농작물 생산과 유통에 관한 관심이 증대되고 있고, 빅데이터와 AI를 활용한 생산량 예측을 통해 농가의 출하량 조절과 유통단계의 조절에 활용하는 시도가 이루어지고 있다. 본 연구에서는 농업 통계 정보 시스템에서 공개한 도매시장 참외 반입량 데이터를 기반으로 미래의 반입량을 예측하는 인공지능 예측 모델을 생성하고 정확도를 평가한다. Neural Prophet 기법과 Ensembled Neural Prophet 모델, GRU 모델 등 세 가지 모델을 사용하여 예측 모델을 생성한다. 모델의 성능은 MAE와 RMSE라는 두 가지 주요 지표를 비교하여 평가한 결과 Ensembled Neural Prophet 모델이 가장 정확하게 예측하였으며, GRU 모델도 앙상블 모델과 유사한 성능을 보여주고 있다. 실제로 통계기법(시계열 분석)과 Prophet, LSTM 등 다양한 모형을 사용하여 예측해 보았으며, 본 논문에서 제안한 두가지 기법의 성능이 가장 우수한 것으로 나타났다. 본 연구에서 개발된 모형은 웹에 publish 되어 현업에서 가까운 미래의 참외생산량을 예측하고, 마케팅 및 유통전략을 수립하는 데 활용되고 있다. 향후 과제로는 과거 출하량과 기상 데이터 뿐 아니라 병충해, 스마트 온실 데이터, 파종시기, 농가 경작면적 변동 등 다양한 변수들을 추가하여 정확도는 높여 나가는 노력이 필요하다.

참고문헌

  1. Naeun Kim et al., "Prediction of Greenhouse Strawberry Yield Using Machine Learning Algorithm," Journal of Biological Environmental Control, Vol. 31, No. 1, 2022 
  2. Kim Se-won, Kim Young-hee. "A study on the application of machine learning techniques to predict crop production." Journal of the Korea Academia-Industrial cooperation Society, Vol. 22, No. 7 pp. 403-408, 2021  https://doi.org/10.5762/KAIS.2021.22.7.403
  3. Lee Seong-gwan Challenges the world's No. 1 with 99% accuracy, entry into the agricultural production prediction market, https://www.aitimes.com/news/ articleView.html?idxno=146790 
  4. Joongoo Lee, & Aekyung Moon, Yield Forecasting Method for Smart Agriculture. Korea Information and Communication Society, 619-622, 2015 
  5. Jang Seok-hwan, A study on production prediction models for Chinese food crops, Journal of the Korea Data & Information Science Society, 11(1), 2000 
  6. Jeong Dae-hee, Han Du-bong, Evaluation of predictive power of rice land productivity model considering climate change, Environmental Policy, 2018 
  7. Nongnet, https://www.nongnet.or.kr/front/index.do 
  8. Agricultural Observation Statistical Information System, https://oasis.krei.re.kr/index.do 
  9. Triebe Oskar et al., NeuralProphet: Explainable Forecasting at Scale. Machine Learning, https://arxiv.org/abs/2111.15397, 2021 
  10. VinuthaP.H. et al., Detection of Outliers Using Interquartile Range Technique from Intrusion Dataset. Information and Decision Sciences, Springer, pp. 511-518. 
  11. Sean J. Taylor and Benjamin Letham, Forecasting at Scale. https://peerj.com/preprints/3190v2/, 2017.