• 제목/요약/키워드: ensemble learning models

검색결과 195건 처리시간 0.055초

Development of AI-based Smart Agriculture Early Warning System

  • Hyun Sim;Hyunwook Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권12호
    • /
    • pp.67-77
    • /
    • 2023
  • 본 연구는 스마트팜 환경에서 진행된 혁신적인 연구로, 딥러닝을 기반으로 한 질병 및 해충 탐지 모델을 개발하고, 이를 지능형 사물인터넷(IoT) 플랫폼에 적용하여 디지털 농업 환경 구현의 새로운 가능성을 탐색하였다. 연구의 핵심은 Pseudo-Labeling, RegNet, EfficientNet 등 최신 ImageNet 모델과 전처리 방식을 통합하여, 복잡한 농업 환경에서 다양한 질병과 해충을 높은 정확도로 탐지하는 것이었다. 이를 위해 앙상블 학습 기법을 적용하여 모델의 정확도와 안정성을 극대화했으며, 평균 정밀도(mAP), 정밀도, 재현율, 정확도, 박스 손실 등의 다양한 성능 지표를 통해 모델을 평가하였다. 또한, SHAP 프레임워크를 활용하여 모델의 예측 기준에 대한 깊은 이해를 도모하였고, 이를 통해 모델의 결정 과정을 보다 투명하게 만들었다. 이러한 분석은 모델이 어떻게 다양한 변수들을 고려하여 질병 및 해충을 탐지하는지에 대한 중요한 통찰력을 제공하였다.

Development of a software framework for sequential data assimilation and its applications in Japan

  • Noh, Seong-Jin;Tachikawa, Yasuto;Shiiba, Michiharu;Kim, Sun-Min;Yorozu, Kazuaki
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2012년도 학술발표회
    • /
    • pp.39-39
    • /
    • 2012
  • Data assimilation techniques have received growing attention due to their capability to improve prediction in various areas. Despite of their potentials, applicable software frameworks to probabilistic approaches and data assimilation are still limited because the most of hydrologic modelling software are based on a deterministic approach. In this study, we developed a hydrological modelling framework for sequential data assimilation, namely MPI-OHyMoS. MPI-OHyMoS allows user to develop his/her own element models and to easily build a total simulation system model for hydrological simulations. Unlike process-based modelling framework, this software framework benefits from its object-oriented feature to flexibly represent hydrological processes without any change of the main library. In this software framework, sequential data assimilation based on the particle filters is available for any hydrologic models considering various sources of uncertainty originated from input forcing, parameters and observations. The particle filters are a Bayesian learning process in which the propagation of all uncertainties is carried out by a suitable selection of randomly generated particles without any assumptions about the nature of the distributions. In MPI-OHyMoS, ensemble simulations are parallelized, which can take advantage of high performance computing (HPC) system. We applied this software framework for several catchments in Japan using a distributed hydrologic model. Uncertainty of model parameters and radar rainfall estimates is assessed simultaneously in sequential data assimilation.

  • PDF

그래프 분류 기반 특징 선택을 활용한 작물 수확량 예측 (Crop Yield Estimation Utilizing Feature Selection Based on Graph Classification)

  • 옴마킨;이성근
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1269-1276
    • /
    • 2023
  • 작물 수확량 예측은 토양, 비, 기후, 대기 및 이들의 관계와 같은 다양한 측면으로 인해 다국적 식사와 강력한 수요에 필수적이며, 기후 변화는 농업 생산량에 영향을 미친다. 본 연구에서는 온도, 강수량, 습도 등의 데이터 세트를 운영한다. 현재 연구는 농부와 농업인을 지원하기 위해 다양한 분류기를 사용한 기능 선택에 중점을 두고 있다. 특징 선택 접근법을 활용한 작물 수확량 추정은 96% 정확도를 나타내었다. 특징 선택은 기계학습 모델의 성능에 영향을 미친다. 현재 그래프 분류기의 성능은 81.5%를 나타내며, 특징 선택이 없는 Random Forest 회귀 분석은 78%의 정확도를 나타냈다. 또한, 특징 선택이 없는 의사결정 트리 회귀 분석은 67%의 정확도를 유지하였다. 본 논문은 제시된 10가지 알고리즘을 대상으로 특징 선택 중요성에 대한 실험결과를 나타내었다. 이러한 결과는 작물 분류 연구에 적합한 모델을 선택하는 데 도움이 될 것으로 기대된다.

고차원 관측자료에서의 Q-학습 모형에 대한 이중강건성 연구 (Doubly-robust Q-estimation in observational studies with high-dimensional covariates)

  • 이효빈;김예지;조형준;최상범
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.309-327
    • /
    • 2021
  • 동적 치료 요법(dynamic treatment regimes; DTRs)은 다단계 무작위 시험에서 개인에 맞는 치료를 제공하도록 설계된 의사결정 규칙이다. 모든 개인이 동일한 유형의 치료를 처방받는 고전적인 방법과 달리 DTR은 시간이 지남에 따라 변할 수 있는 개별 특성을 고려한 환자 맞춤형 치료를 제공한다. 최적의 치료 규칙을 파악하기 위한 회귀 기반 알고리즘 중 하나인 Q-학습 방법은 쉽게 구현될 수 있기 때문에 더욱 인기를 끌고 있다. 그러나 Q-학습 알고리즘의 성능은 Q-함수를 제대로 설정했는지의 여부에 크게 의존한다. 본 논문에서는 고차원 데이터가 수집되는 DTRs 문제에 대한 다양한 이중강건 Q-학습 알고리즘을 연구하고 가중 최소제곱 추정 방법을 제안한다. 이중강건성(double-robustness)은 반응변수에 대한 모형 혹은 처리변수에 대한 모형 둘 중 하나만 제대로 설정되어도 불편추정량을 얻을 수 있음을 의미한다. 다양한 모의실험 연구를 통해 제안된 방법이 여러 시나리오 하에서도 잘 작동함을 확인하였으며 실제 데이터 예제를 통해 방법론에 대한 예시를 제시하였다.

효율적 수입식품 검사를 위한 머신러닝 기반 부적합 건강기능식품 탐지 방법 (A Method of Machine Learning-based Defective Health Functional Food Detection System for Efficient Inspection of Imported Food)

  • 이경수;박예린;신윤종;손권상;권오병
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.139-159
    • /
    • 2022
  • 코로나19 이후 건강기능식품의 관심이 높아짐에 따라 수입 식품 안전성 검사의 중요성도 더욱 커지고 있다. 그러나 매년 증가하는 건강기능식품 수입량과 반대로 식품 검사에 필요한 예산과 인력은 한계점에 다다르고 있다. 따라서 본 연구의 목적은 수출입 식품 중 건강기능식품을 대상으로 데이터의 특성을 살펴보고, 판별의 정확성과 결과의 설명 가능성을 고려하여 효율적으로 부적합 식품을 탐지할 수 있는 기계학습 모델 기반 자동화 시스템 설계 방안을 제시하는 것이다. 이를 위해 첫째, 부적합 판정에 영향을 미치는 식품 검사 데이터로부터 부적합 판정에 유의한 파생변수를 생성하며, 둘째, 건강기능식품 수출입 검사 데이터에 대한 탐색적 분석을 통해 클래스 불균형과 비선형성 등을 고려하여 영향변수를 선정하며, 셋째, 다양한 머신러닝 기법을 적용하여 모델 별 성능과 해석가능성에 대해 비교를 수행하고자 한다. 성능 분석 결과, 앙상블 모델이 가장 우수하였으며, 본 연구에서 제안하는 파생변수 및 모델이 수출입 식품 검사에서 활용하고 있는 시스템에 도움이 될 수 있음을 확인하였다.

기계학습을 이용한 수출신용보증 사고예측 (The Prediction of Export Credit Guarantee Accident using Machine Learning)

  • 조재영;주지환;한인구
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.83-102
    • /
    • 2021
  • 2020년 8월 정부는 한국판 뉴딜을 뒷받침하기 위한 공공기관의 역할 강화방안으로서 각 공공기관별 역량을 바탕으로 5대 분야에 걸쳐 총 20가지 과제를 선정하였다. 빅데이터(Big Data), 인공지능 등을 활용하여 대국민 서비스를 제고하고 공공기관이 보유한 양질의 데이터를 개방하는 등의 다양한 정책을 통해 한국판 뉴딜(New Deal)의 성과를 조기에 창출하고 이를 극대화하기 위한 다양한 노력을 기울이고 있다. 그중에서 한국무역보험공사(KSURE)는 정책금융 공공기관으로 국내 수출기업들을 지원하기 위해 여러 제도를 운영하고 있는데 아직까지는 본 기관이 가지고 있는 빅데이터를 적극적으로 활용하지 못하고 있는 실정이다. 본 연구는 한국무역보험공사의 수출신용보증 사고 발생을 사전에 예측하고자 공사가 보유한 내부 데이터에 기계학습 모형을 적용하였고 해당 모형 간에 예측성과를 비교하였다. 예측 모형으로는 로지스틱(Logit) 회귀모형, 랜덤 포레스트(Random Forest), XGBoost, LightGBM, 심층신경망을 사용하였고, 평가 기준으로는 전체 표본의 예측 정확도 이외에도 표본별 사고 확률을 구간으로 나누어 높은 확률로 예측된 표본과 낮은 확률로 예측된 경우의 정확도를 서로 비교하였다. 각 모형별 전체 표본의 예측 정확도는 70% 내외로 나타났고 개별 표본을 사고 확률 구간별로 세부 분석한 결과 양 극단의 확률구간(0~20%, 80~100%)에서 90~100%의 예측 정확도를 보여 모형의 현실적 활용 가능성을 보여주었다. 제2종 오류의 중요성 및 전체적 예측 정확도를 종합적으로 고려할 경우, XGBoost와 심층신경망이 가장 우수한 모형으로 평가되었다. 랜덤포레스트와 LightGBM은 그 다음으로 우수하며, 로지스틱 회귀모형은 가장 낮은 성과를 보였다. 본 연구는 한국무역보험공사의 빅데이터를 기계학습모형으로 분석해 업무의 효율성을 높이는 사례로서 향후 기계학습 등을 활용하여 실무 현장에서 빅데이터 분석 및 활용이 활발해지기를 기대한다.

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템 (A Korean Community-based Question Answering System Using Multiple Machine Learning Methods)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1085-1093
    • /
    • 2016
  • 커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.

Water Level Prediction on the Golok River Utilizing Machine Learning Technique to Evaluate Flood Situations

  • Pheeranat Dornpunya;Watanasak Supaking;Hanisah Musor;Oom Thaisawasdi;Wasukree Sae-tia;Theethut Khwankeerati;Watcharaporn Soyjumpa
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.31-31
    • /
    • 2023
  • During December 2022, the northeast monsoon, which dominates the south and the Gulf of Thailand, had significant rainfall that impacted the lower southern region, causing flash floods, landslides, blustery winds, and the river exceeding its bank. The Golok River, located in Narathiwat, divides the border between Thailand and Malaysia was also affected by rainfall. In flood management, instruments for measuring precipitation and water level have become important for assessing and forecasting the trend of situations and areas of risk. However, such regions are international borders, so the installed measuring telemetry system cannot measure the rainfall and water level of the entire area. This study aims to predict 72 hours of water level and evaluate the situation as information to support the government in making water management decisions, publicizing them to relevant agencies, and warning citizens during crisis events. This research is applied to machine learning (ML) for water level prediction of the Golok River, Lan Tu Bridge area, Sungai Golok Subdistrict, Su-ngai Golok District, Narathiwat Province, which is one of the major monitored rivers. The eXtreme Gradient Boosting (XGBoost) algorithm, a tree-based ensemble machine learning algorithm, was exploited to predict hourly water levels through the R programming language. Model training and testing were carried out utilizing observed hourly rainfall from the STH010 station and hourly water level data from the X.119A station between 2020 and 2022 as main prediction inputs. Furthermore, this model applies hourly spatial rainfall forecasting data from Weather Research and Forecasting and Regional Ocean Model System models (WRF-ROMs) provided by Hydro-Informatics Institute (HII) as input, allowing the model to predict the hourly water level in the Golok River. The evaluation of the predicted performances using the statistical performance metrics, delivering an R-square of 0.96 can validate the results as robust forecasting outcomes. The result shows that the predicted water level at the X.119A telemetry station (Golok River) is in a steady decline, which relates to the input data of predicted 72-hour rainfall from WRF-ROMs having decreased. In short, the relationship between input and result can be used to evaluate flood situations. Here, the data is contributed to the Operational support to the Special Water Resources Management Operation Center in Southern Thailand for flood preparedness and response to make intelligent decisions on water management during crisis occurrences, as well as to be prepared and prevent loss and harm to citizens.

  • PDF

기계학습 분류모델을 이용한 하천퇴적물의 중금속 오염원 식별 (Identifying sources of heavy metal contamination in stream sediments using machine learning classifiers)

  • 반민정;신상욱;이동훈;김정규;이호식;김영;박정훈;이순화;김선영;강주현
    • 한국습지학회지
    • /
    • 제25권4호
    • /
    • pp.306-314
    • /
    • 2023
  • 하천퇴적물은 유역내 다양한 오염원으로부터 발생하는 중금속, 유기물 등 오염물질의 수용체일 뿐만 아니라 수질 오염 및 수생태 악영향을 유발할 수 있는 2차적 오염원이기에 중요한 관리대상이라고 할 수 있다. 오염된 하천퇴적물의 효과적인 관리를 위해서는 오염원에 대한 식별과 이와 연계된 관리대책의 수립이 우선되어야 한다. 본 연구는 하천퇴적물내 측정된 다양한 이화학적 오염항목 분포 특성에 기반하여 퇴적물의 주요 오염원을 식별하기 위한 방법으로서 기계학습모델의 적용성을 평가하였다. 기계학습 모델의 성능 평가를 위해 전국 4대강 수계내 주요 폐금속광산 및 산업단지 인근에서 수집된 총 356개의 하천퇴적물에 대한 중금속 10개 항목(Cd, Cu, Pb, Ni, As, Zn, Cr, Hg, Li, Al)과 토양항목 3개(모래, 실트, 점토 비율) 수질항목 5개(함수율, 강열감량, 총유기탄소, 총질소, 총인)를 포함한 총 18개 오염항목에 대한 분석자료를 활용하였다. 기계학습 분류 모델로서 선형판별분석(linear discriminant analysis, LDA)과 서포트벡터머신(support vector machine, SVM) 분류기를 사용하여 폐금속광산('광산')과 산업단지('산단') 인근에서의 하천퇴적물 시료의 분류 성능을 평가한 결과, 채취 지점 및 시기별 4가지 경우(비강우시 광산, 강우시 광산, 비강우시 산단, 및 강우시 산단)에 대한 퇴적물 시료의 분류 성능이 우수하였으며, 특히 비선형 모델인 SVM(88.1%)이 선형모델인 LDA(79.5%) 보다 퇴적물을 분류하는데 있어 보다 우수한 성능을 나타냈다. SVM 앙상블 기반 비배타적 다중라벨분류기 모델을 이용하여 각 시료채취 지점 상류 유역 1km 반경 내 지배적인 토지이용 및 오염원을 다중 타겟값으로 다중분류 예측을 수행한 결과, 폐금속광산과 산업단지의 분류는 비교적 높은 정확도로 수행하였으나, 도시와 농업지역 등 다른 비점오염원에 대한 분류정확도는 56~60%범위로 비교적 낮게 나타났다. 이는 다중라벨 분류모델의 복잡성에 비해 데이터셋의 크기가 상대적으로 작아서 발생한 과적합에 기인한 것으로 향후 보다 많은 측정자료가 확보될 경우 기계학습 모델을 적용한 오염원 분류의 정확도를 보다 향상시킬 수 있을 것으로 판단된다.

다중모형조합기법을 이용한 상품추천시스템 (Product Recommender Systems using Multi-Model Ensemble Techniques)

  • 이연정;김경재
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.39-54
    • /
    • 2013
  • 전자상거래의 폭발적 증가는 소비자에게 더 유리한 많은 구매 선택의 기회를 제공한다. 이러한 상황에서 자신의 구매의사결정에 대한 확신이 부족한 소비자들은 의사결정 절차를 간소화하고 효과적인 의사결정을 위해 추천을 받아들인다. 온라인 상점의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로써의 가치를 인정받고 있다. 그러나 사용자의 기호를 제대로 반영하지 못하는 추천시스템은 사용자의 실망과 시간낭비를 발생시킨다. 본 연구에서는 정확한 사용자의 기호 반영을 통한 추천기법의 정교화를 위해 데이터마이닝과 다중모형조합기법을 이용한 상품추천시스템 모형을 제안하고자 한다. 본 연구에서 제안하는 모형은 크게 두 개의 단계로 이루어져 있으며, 첫 번째 단계에서는 상품군 별 우량고객 선정 규칙을 도출하기 위해서 로지스틱 회귀분석 모형, 의사결정나무 모형, 인공신경망 모형을 구축한 후 다중모형조합기법인 Bagging과 Bumping의 개념을 이용하여 세 가지 모형의 결과를 조합한다. 두 번째 단계에서는 상품군 별 연관관계에 관한 규칙을 추출하기 위하여 장바구니분석을 활용한다. 상기의 두 단계를 통하여 상품군 별로 구매가능성이 높은 우량고객을 선정하여 그 고객에게 관심을 가질만한 같은 상품군 또는 다른 상품군 내의 다른 상품을 추천하게 된다. 제안하는 상품추천시스템은 실제 운영 중인 온라인 상점인 'I아트샵'의 데이터를 이용하여 프로토타입을 구축하였고 실제 소비자에 대한 적용가능성을 확인하였다. 제안하는 모형의 유용성을 검증하기 위하여 제안 상품추천시스템의 추천과 임의 추천을 통한 추천의 결과를 사용자에게 제시하고 제안된 추천에 대한 만족도를 조사한 후 대응표본 T검정을 수행하였으며, 그 결과 사용자의 만족도를 유의하게 향상시키는 것으로 나타났다.