• 제목/요약/키워드: random forest model

검색결과 538건 처리시간 0.029초

딥러닝과 앙상블 머신러닝 모형의 하천 탁도 예측 특성 비교 연구 (Comparative characteristic of ensemble machine learning and deep learning models for turbidity prediction in a river)

  • 박정수
    • 상하수도학회지
    • /
    • 제35권1호
    • /
    • pp.83-91
    • /
    • 2021
  • The increased turbidity in rivers during flood events has various effects on water environmental management, including drinking water supply systems. Thus, prediction of turbid water is essential for water environmental management. Recently, various advanced machine learning algorithms have been increasingly used in water environmental management. Ensemble machine learning algorithms such as random forest (RF) and gradient boosting decision tree (GBDT) are some of the most popular machine learning algorithms used for water environmental management, along with deep learning algorithms such as recurrent neural networks. In this study GBDT, an ensemble machine learning algorithm, and gated recurrent unit (GRU), a recurrent neural networks algorithm, are used for model development to predict turbidity in a river. The observation frequencies of input data used for the model were 2, 4, 8, 24, 48, 120 and 168 h. The root-mean-square error-observations standard deviation ratio (RSR) of GRU and GBDT ranges between 0.182~0.766 and 0.400~0.683, respectively. Both models show similar prediction accuracy with RSR of 0.682 for GRU and 0.683 for GBDT. The GRU shows better prediction accuracy when the observation frequency is relatively short (i.e., 2, 4, and 8 h) where GBDT shows better prediction accuracy when the observation frequency is relatively long (i.e. 48, 120, 160 h). The results suggest that the characteristics of input data should be considered to develop an appropriate model to predict turbidity.

음성신호를 이용한 기계학습 기반 피로도 분류 모델 (Fatigue Classification Model Based On Machine Learning Using Speech Signals)

  • 이수화;권철홍
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.741-747
    • /
    • 2022
  • 피로는 개인의 능력을 저하되게 하여 업무 수행을 어렵게 하며, 피로가 누적되면 집중력이 저하되어 안전사고를 초래할 가능성이 증가하게 된다. 피로에 대한 자각은 주관적이나, 실제 현장에서는 피로의 수준을 정량적으로 측정할 필요가 있다. 기존 연구에서 피로 수준은 다원적 피로 척도와 같은 주관적 평가에, 생체신호 분석 등의 객관적지표를 추가하여 전문가의 판단으로 측정하는 방식이 제안되었으나, 이러한 방법은 일상생활에서 실시간으로 피로도를 평가하기 어렵다. 본 논문은 현장에서 녹음한 음성 데이터를 이용하여 실시간으로 작업자의 피로 수준을 판정하는 피로도 분류 모델에 관한 연구이다. 현장에서 수집한 음성 데이터를 이용하여 로지스틱 분류, 서포트 벡터 머신, 랜덤 포레스트 등의 기계학습 모델을 학습시킨다. 성능을 평가한 결과, 정확도가 0.677 ~ 0.758로 우수한 성능을 보여주었고, 이 중에서 로지스틱 분류가 가장 우수한 성능을 나타냈다. 실험 결과로부터 음성신호를 이용하여 피로도를 분류하는 것이 가능하다는 것을 알 수 있다.

SVM 기반 Bagging과 OoD 탐색을 활용한 제조공정의 불균형 Dataset에 대한 예측모델의 성능향상 (Boosting the Performance of the Predictive Model on the Imbalanced Dataset Using SVM Based Bagging and Out-of-Distribution Detection)

  • 김종훈;오하영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권11호
    • /
    • pp.455-464
    • /
    • 2022
  • 제조업의 공정에서 생성되는 데이터셋은 크게 두 가지 특징을 가진다. 타겟 클래스의 심각한 불균형과 지속적인 Out-of-Distribution(OoD) 샘플의 발생이다. 클래스 불균형은 SMOTE 및 다양한 샘플링 전략을 통해서 대응할 수 있다. 그러나, OoD 탐색은 현재까지 인공신경망 영역에서만 다뤄져 왔다. OoD 탐색의 적용이 가능한 인공신경망은 제조공정 데이터셋에 대해서 만족스러운 성능을 발현하지 못한다. 원인은 제조공정의 데이터셋이 인공신경망에서 일반적으로 다루는 이미지, 텍스트 데이터셋과 비교해서 크기가 매우 작고, 노이즈가 심하다는 것이다. 또한 인공신경망의 과적합(overfitting) 문제도 제조업 데이터셋에서 인공신경망의 성능을 저하하는 원인으로 지적된다. 이에 현재까지 시도된 바 없는 SVM 알고리즘과 OoD 탐색의 접목을 시도하였다. 또한 예측모델의 정밀도 향상을 위해 배깅(Bagging) 알고리즘을 모델링에 반영하였다.

머신러닝을 이용한 침수 깊이와 위치예측 모델 개발 (Development of Machine Learning based Flood Depth and Location Prediction Model)

  • 강지욱;박종혁;한수희;김경준
    • 한국전자통신학회논문지
    • /
    • 제18권1호
    • /
    • pp.91-98
    • /
    • 2023
  • 최근 국지성 폭우로 인한 침수 피해가 빈번하게 발생함에 따라 침수 피해를 사전 예방하기 위한 침수 예측 연구가 진행되고 있다. 본 논문에서는 머신 러닝 기반으로 강우 데이터를 이용해 침수 깊이와 침수 위치를 예측하는 모델을 개발하는 방법을 연구한다. 실시간 강우량을 입력으로 사용하여 다양한 강우 분포 패턴에 강건하게 구성하고 적은 메모리로 모델을 학습시킬 수 있는 2가지 데이터 셋(set) 구성 방법을 제시하였다. 침수에 유의미한 영향을 미치는 valid total 데이터는 침수 위치는 잘 예측했지만, 특정 강우 패턴에 대해 값이 다르게 나타나는 경향을 띠었다. 부분적이지만 침수에 영향을 미치는 영역을 valid local이라 한다. Valid local은 고정점 방법에 대해서는 잘 학습되었지만, 임의점 방법에 대해서는 침수 위치를 정확하게 나타내지 못했다. 본 연구를 통해 실시간으로 침수 깊이와 위치를 예측할 수 있게 되어 큰 피해를 예방할 수 있을 것으로 예상된다.

Projecting the spatial-temporal trends of extreme climatology in South Korea based on optimal multi-model ensemble members

  • Mirza Junaid Ahmad;Kyung-sook Choi
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.314-314
    • /
    • 2023
  • Extreme climate events can have a large impact on human life by hampering social, environmental, and economic development. Global circulation models (GCMs) are the widely used numerical models to understand the anticipated future climate change. However, different GCMs can project different future climates due to structural differences, varying initial boundary conditions and assumptions about the physical phenomena. The multi-model ensemble (MME) approach can improve the uncertainties associated with the different GCM outcomes. In this study, a comprehensive rating metric was used to select the best-performing GCMs out of 11 CMIP5 and 13 CMIP6 GCMs, according to their skills in terms of four temporal and five spatial performance indices, in replicating the 21 extreme climate indices during the baseline (1975-2017) in South Korea. The MME data were derived by averaging the simulations from all selected GCMs and three top-ranked GCMs. The random forest (RF) algorithm was also used to derive the MME data from the three top-ranked GCMs. The RF-derived MME data of the three top-ranked GCMs showed the highest performance in simulating the baseline extreme climate which was subsequently used to project the future extreme climate indices under both the representative concentration pathway (RCP) and the socioeconomic concentration pathway scenarios (SSP). The extreme cold and warming indices had declining and increasing trends, respectively, and most extreme precipitation indices had increasing trends over the period 2031-2100. Compared to all scenarios, RCP8.5 showed drastic changes in future extreme climate indices. The coasts in the east, south and west had stronger warming than the rest of the country, while mountain areas in the north experienced more extreme cold. While extreme cold climatology gradually declined from north to south, extreme warming climatology continuously grew from coastal to inland and northern mountainous regions. The results showed that the socially, environmentally and agriculturally important regions of South Korea were at increased risk of facing the detrimental impacts of extreme climatology.

  • PDF

실외공기측정기 자료를 이용한 도심 기상 예측 기계학습 모형 비교 (Comparison of Machine Learning Techniques in Urban Weather Prediction using Air Quality Sensor Data)

  • 박종찬;박헌진
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.39-49
    • /
    • 2021
  • 최근 국가 관측망, 기업 공기 측정기 등을 통해 많고 다양한 기상 데이터가 수집되고 있다. 기계학습 기법을 통해 기상 예측하려는 노력이 곳곳에서 이루어지고 있으며, 국내 미세먼지는 농도가 증가해오고 사람들의 관심이 높아 가장 관심있는 예측 대상 중 하나이다. 본 연구에서는 서울시 전역에 설치된 840여 개실외공기측정기 데이터를 사용하여 PM10·PM2.5 예측 모형을 비교하고자 한다. 5분 뒤 미세먼지 농도 예측을 통해 실시간으로 정보를 제공할 수 있으며, 이는 10분·30분·1시간 뒤 예측 모형 개발에 기반이 될 수 있다. 잡음 제거, 결측치 대체 등의 데이터 전처리를 진행하였고, 시·공간 변수를 고려할 수 있는 파생 변수를 생성하였다. 모형의 매개변수는 반응 표면 방법을 통해 선택하였다. XGBoost, 랜덤포레스트, 딥러닝(Multilayer Perceptron)을 예측 모형으로 사용하여, 미세먼지 농도와 예측값의 차이를 확인하고, 모형 간 성능을 비교하고자 한다.

차원축소를 활용한 해외제조업체 대상 사전점검 예측 모형에 관한 연구 (Preliminary Inspection Prediction Model to select the on-Site Inspected Foreign Food Facility using Multiple Correspondence Analysis)

  • 박혜진;최재석;조상구
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.121-142
    • /
    • 2023
  • 수입식품의 수입 건수와 수입 중량이 꾸준히 증가함에 따라 식품안전사고 방지를 위한 수입식품의 안전관리가 더욱 중요해지고 있다. 식품의약품안전처는 통관단계의 수입검사와 더불어 통관 전 단계인 해외제조업소에 대한 현지실사를 시행하고 있지만 시간과 비용이 많이 소요되고 한정된 자원 등의 제약으로 데이터 기반의 수입식품 안전관리 방안이 필요한 실정이다. 본 연구에서는 현지실사 전 부적합이 예상되는 업체를 사전에 선별하는 기계학습 예측 모형을 마련하여 현지실사의 효율성을 높이고자 하였다. 이를 위해 통합식품안전정보망에 수집된 총 303,272건의 해외제조가공업소 기본정보와 2019년도부터 2022년 4월까지의 현지실사 점검정보 데이터 1,689건을 수집하였다. 해외제조가공업소의 데이터 전처리 후 해외 제조업소_코드를 활용하여 현지실사 대상 데이터만 추출하였고, 총 1,689건의 데이터와 103개의 변수로 구성되었다. 103개의 변수를 테일유(Theil-U) 지표를 기준으로 '0'인 변수들을 제거하였고, 다중대응분석(Multiple Correspondence Analysis)을 적용해 축소 후 최종적으로 49개의 특성변수를 도출하였다. 서로 다른 8개의 모델을 생성하고, 모델 학습 과정에서는 5겹 교차검증으로 과적합을 방지하고, 하이퍼파라미터를 조정하여 비교 평가하였다. 현지실사 대상업체 선별의 연구목적은 부적합 업체를 부적합이라고 판정하는 확률인 검측률(recall)을 최대화하는 것이다. 머신러닝의 다양한 알고리즘을 적용한 결과 Recall_macro, AUROC, Average PR, F1-score, 균형정확도(Balanced Accuracy)가 가장 높은 랜덤포레스트(Random Forest)모델이 가장 우수한 모형으로 평가되었다. 마지막으로 모델에 의해서 평가된 개별 인스턴스의 부적합 업체 선정 근거를 제시하기 위해 SHAP(Shapley Additive exPlanations)을 적용하고 현지실사 업체 선정 시스템에의 적용 가능성을 제시하였다. 본 연구결과를 바탕으로 데이터에 기반한 과학적 위험관리 모델을 통해 수입식품 관리체계의 구축으로 인력·예산 등 한정된 자원의 효율적 운영방안 마련에 기여하길 기대한다.

머신러닝 기법을 이용한 납축전지 열화 예측 모델 개발 (Building battery deterioration prediction model using real field data)

  • 최근호;김건우
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.243-264
    • /
    • 2018
  • 현재 전세계 배터리 시장은 이차전지 개발에 박차를 가하고 있는 실정이지만, 실제로 소비되는 배터리 중 가격 대비 성능이 좋고 재충전을 통해 다시 재사용이 가능한 납축전지(이차전지)의 소비가 광범위하게 이루어지고 있다. 하지만 납축전지는 복합적 셀(cell)을 묶어 하나의 배터리를 구성하여 활용하는 배터리의 특성상 하나의 셀에서 열화가 발생하면 전체 배터리의 손상을 가져와 열화가 빨리 진행되는 문제가 존재한다. 이를 극복하기 위해 본 연구는 기계학습을 통한 배터리 상태 데이터를 학습하여 배터리 열화를 예측할 수 있는 모델을 개발하고자 한다. 이를 위해 실제 현장에서 배터리 상태를 지속적으로 모니터링 할 수 있는 센서를 골프장 카트에 부착하여 실시간으로 배터리 상태 데이터를 수집하고, 수집한 데이터를 이용하여 기계학습 기법을 적용한 분석을 통해 열화 전조 현상에 대한 예측 모델을 개발하였다. 총 16,883개의 샘플을 분석 데이터로 사용하였으며, 예측 모델을 만들기 위한 알고리즘으로 의사결정나무, 로지스틱, 베이지언, 배깅, 부스팅, RandomForest를 사용하였다. 실험 결과, 의사결정나무를 기본 알고리즘으로 사용한 배깅 모델이 89.3923%이 가장 높은 적중률을 보이는 것으로 나타났다. 본 연구는 날씨와 운전습관 등 배터리 열화에 영향을 줄 수 있는 추가적인 변수들을 고려하지 못했다는 한계점이 있으나, 이는 향후 연구에서 다루고자 한다. 본 연구에서 제안하는 배터리 열화 예측 모델은 배터리 열화의 전조현상을 사전에 예측함으로써 배터리 관리를 효율적으로 수행하고 이에 따른 비용을 획기적으로 줄일 수 있을 것으로 기대한다.

기계학습을 이용한 광학 위성 영상 기반의 도시 내 수목 피복률 추정 (Estimation of Fractional Urban Tree Canopy Cover through Machine Learning Using Optical Satellite Images)

  • 배세정;손보경;성태준;이연수;임정호;강유진
    • 대한원격탐사학회지
    • /
    • 제39권5_3호
    • /
    • pp.1009-1029
    • /
    • 2023
  • 도시 수목은 탄소를 저장하고 불투수면적을 감소시키는 도시 생태계의 중요 요소이며, 탄소 저장량 및 순환량 산정 시 주요 정보로 활용될 수 있다. 많은 선행 연구에서 항공 라이다 자료 및 인공지능 기법을 활용하여 고해상도 수목 정보를 산출하고 있으나, 항공 라이다 영상은 제공하는 플랫폼이 제한되어 있으며 비용적인 면에서도 한계가 다수 존재한다. 따라서 본 연구에서는 수원시를 대상으로 자료 취득이 용이한 고해상도 위성 영상인 Sentinel-2를 활용하여 기계학습 기반의 도시 내 수목 피복률(fractional tree canopy cover, FTC)을 추정하고자 하였다. Sentinel-2 시계열 영상으로부터 중앙값 합성을 수행하여 수원시 전역에 대한 단일 영상을 제작하여 활용하였다. 도시 내 토지 피복의 이질성을 반영하기 위하여, 30 m 격자내 10 m 해상도의 광학 지수의 평균 및 표준편차 값과 환경부 세분류 토지 피복 지도 기반 항목별 피복률을 계산하여 기계학습 모델의 입력 변수로 활용하였다. 총 4가지의 입력 변수 조합을 설정하여, 입력 변수 구성에 따른 FTC 추정 정확도를 비교 및 평가하였다. 광학 영상의 평균 정보만을 활용(Scheme 1)했을 때 보다 도시 내 이질적인 특성을 반영할 수 있는 표준 편차 및 피복률 정보를 모두 함께 고려(Scheme 4, S4)했을 때 향상된 성능을 나타낼 수 있었다. 검증용 자료에 대해 S4의 Random Forest (RF) 모델이 0.8196의 R2, 0.0749의 mean absolute error (MAE), 및 0.1022의 root mean squared error (RMSE)로 전체 기계학습 모델 중에서 성능이 가장 높게 나타났다. 변수 기여도 분석 결과 광학 지수의 표준 편차 정보는 도시 내 복잡한 토지 피복 지역에 대해 높은 기여도를 나타내었다. 훈련된 S4 구성의 RF 모델을 수원시 전역에 대해 확장 적용하였을 때, 참조 FTC 자료에 대해 0.8702의 R2, 0.0873의 MAE, 및 0.1335의 RMSE의 우수한 성능을 나타냈다. 본 연구의 FTC 추정 기법은 향후 다른 지역에 대한 적용성이 우수할 것으로 판단되며, 도시 생태계 탄소순환 파악의 기초자료로 활용될 수 있을 것으로 기대된다.

인공지능을 활용한 경관 지각반응 예측모델 개발 가능성 기초연구 - 머신러닝 기법을 중심으로 - (Basic Research on the Possibility of Developing a Landscape Perceptual Response Prediction Model Using Artificial Intelligence - Focusing on Machine Learning Techniques -)

  • 김진표;서주환
    • 한국조경학회지
    • /
    • 제51권3호
    • /
    • pp.70-82
    • /
    • 2023
  • 최근 IT 기술과 데이터의 범람으로 생활 전반적인 부분의 패러다임이 전환되고 있다. 이러한 기술의 발전과 변화는 학술영역에도 영향을 미치고 있다. 학문적 교류와 연계를 통해 연구주제나 연구 방법의 개선이 이루어지고 있다. 특히, 데이터 기반의 연구 방법이 다양한 학문분야에서 진행되고 있으며 조경학에서도 지속적인 연구가 필요한 시점이다. 따라서 본 연구에서는 이러한 시대적 상황을 반영하여 인공지능의 한 분야인 머신러닝을 활용한 경관 선호 평가 및 예측모델의 개발 가능성을 알아보는 것을 목표로 한다. 본 연구의 목표를 달성하기 위하여 경관 분야에 머신러닝 기법을 적용하여 경관 선호 평가 및 예측 모델을 구축하고, 구축된 모형의 모의정도를 검증하였다. 이를 위해 본 연구에서는 최근 신재생에너지 사업으로 주목받는 풍력발전시설 경관 이미지를 연구대상으로 선정하였다. 분석을 위하여 풍력발전시설 경관 이미지를 웹크롤링 기법을 활용하여 수집하고 분석 테이터셋을 구축하였다. 우수한 성능의 예측모델 도출을 위하여 머신러닝 분석에 활용되는 University of Ljubljana의 프로그램인 오렌지 버전 3.33을 활용하였다. 또, 머신러닝 학습데이터의 평가기준을 통합한 모델과 평가기준 별도 모델 구조를 활용하였으며, 머신러닝 분류모델에 적합한 kNN. SVM, Random Forest, Logistic Regression, Neural Network 알고리즘을 사용해 모델을 생성하였다. 생성된 모델을 성능 평가를 실시하여 본 연구에 가장 적합한 예측모델을 도출하였다. 본 연구에서 도출된 예측모델은 경관의 유형에 따른 분류, 경관과 대상의 시거리에 따른 분류, 선호에 따른 분류 등 3가지 평가기준을 별도로 평가 후 종합해 예측하여 결과를 도출하였다. 연구 결과 경관 유형에 따른 평가 기준 정확도 0.986, 시거리에 따른 평가 기준 정확도 0.973, 선호에 따른 평가 기준 정확도 0.952에 달하는 높은 정확도를 가진 예측모델을 개발하였으며, 평가데이터 예측 결과를 통한 검증과정을 보아도 모델의 성능 치를 상회하는 성과를 도출했음을 알 수 있다. 경관 관련 연구에서 머신러닝을 활용한 예측모델 개발 가능성을 알아본 실험적 시도로 이미지 데이터의 수집 및 정제를 통해 데이터 세트를 구축하여 높은 성능의 예측모델이 생성 가능하며, 이후 경관 관련 연구 분야에 활용될 수 있다는 가능성을 확인할 수 있었다. 본 연구의 결과와 시사점, 한계점을 반영한다면 풍력발전시설의 경관뿐만 아니라 자연경관이나 문화경관 등 다양한 형태의 경관 예측모델 개발이 가능할 것으로 생각되며, 경관 유형에 따라 이미지를 분류하는 모델의 연구를 통해 데이터 분류의 시간을 단축하거나 머신러닝을 활용한 경관예측 인자분석을 통해 경관계획 요소의 중요도 분석 등의 주제에 맞는 연구 방법을 탐색하고 적용하여 후속 연구를 진행한다면 조경학 분야에서도 머신러닝 기법을 보다 유용하고 가치 있게 활용할 수 있을 것으로 생각된다.