• 제목/요약/키워드: random forest (RF)

검색결과 182건 처리시간 0.026초

서울 지역 지상 NO2 농도 공간 분포 분석을 위한 회귀 모델 및 기계학습 기법 비교 (Comparative Assessment of Linear Regression and Machine Learning for Analyzing the Spatial Distribution of Ground-level NO2 Concentrations: A Case Study for Seoul, Korea)

  • 강은진;유철희;신예지;조동진;임정호
    • 대한원격탐사학회지
    • /
    • 제37권6_1호
    • /
    • pp.1739-1756
    • /
    • 2021
  • 대기 중 이산화질소(NO2)는 주로 인위적인 배출요인으로 발생하며 화학 반응을 통해 이차오염 물질 및 오존 형성에 매개 역할을 하는 인체 건강에 악영향을 미치는 물질이다. 우리나라는 지상 관측소에 의한 실시간 NO2 모니터링을 수행하고 있지만, 이는 점 기반의 관측 값으로써 미관측 지역의 공간 분포 분석이 어렵다는 한계점을 지닌다. 본 연구에서는 선형 회귀 기반 모델인 다중 선형 회귀와 회귀 크리깅, 기계학습 알고리즘인 Random Forest (RF), Support Vector Regression (SVR)을 적용한 공간 내삽 모델링을 통해 서울 지역의 지상 NO2 농도 지도를 제작하였고, 일별 Leave-One-Out Cross Validation (LOOCV) 교차 검증을 시행하였다. 2020년 연구기간 내 일별 LOOCV에서 MLR, RK, SVR 모델의 일별 평균 Index of agreement (IOA)는 약 0.57로 유사한 성능을 보였으며, RF (0.50)보다 높은 성능이 확인되었다. RK의 일별 평균 nRMSE는 0.9483%으로 MLR (0.9501%)보다 상대적으로 낮은 오차를 나타냈다. MLR과 RK, RF 모델의 계절별 공간 분포는 비슷한 양상을 보였으며, RF는 다른 모델에 비해 좁은 NO2 농도 범위가 확인되었다. 본 연구에서 제안된 선형 회귀 기반 공간 내삽은 지상 NO2 뿐 아니라 다른 대기 오염 물질의 도시 지역 공간 내삽을 위해 활용 가능성이 높을 것으로 기대된다.

기계학습법을 이용한 서리 발생 구분 추정 연구 (Study on the Estimation of Frost Occurrence Classification Using Machine Learning Methods)

  • 김용석;심교문;정명표;최인태
    • 한국농림기상학회지
    • /
    • 제19권3호
    • /
    • pp.86-92
    • /
    • 2017
  • 본 연구에서는 기상청 예보자료를 이용할 것을 전제로 서리가 발생하는 날과 서리가 발생하지 않는 날을 구분하는 모형을 구축하였다. 서리가 발생한 날과 서리가 발생하지 않은 날을 구분할 수 있는 기상인자로서 최저기온, 평균풍속, 평균상대습도, 평균이슬점온도로 나타났다. 기상인자별로 두 날을 비교한 결과 서리가 발생한 날이 서리가 발생하지 않은 날에 비해 최저기온, 이슬점온도, 평균풍속은 낮게 나타났고 상대습도는 높게 나타났다. 이러한 기상인자로 인공신경망, 랜덤포레스트, 서포트벡터 머신의 기계학습법을 이용한 모형을 연구한 결과 70%이상의 정확도를 나타내어 활용 가능성이 있을 것으로 판단된다.

정지 궤도 기상 위성을 이용한 기계 학습 기반 강우 강도 추정: 한반도 여름철을 대상으로 (Rainfall Intensity Estimation Using Geostationary Satellite Data Based on Machine Learning: A Case Study in the Korean Peninsula in Summer)

  • 신예지;한대현;임정호
    • 대한원격탐사학회지
    • /
    • 제37권5_3호
    • /
    • pp.1405-1423
    • /
    • 2021
  • 강우 현상은 물 순환과 에너지 순환의 주요 요소 중 하나이며 강우량 추정은 수자원 확보와 수재해 예측 및 피해 감축에 매우 중요한 역할을 한다. 위성 기반 강우량 추정은 시공간적으로 고해상도인 자료를 통하여 넓은 지역을 연속적으로 감시할 수 있다는 장점이 있다. 본 연구에서는 Himawari-8 Advanced Himawari Imager(AHI) 수증기 채널(6.7 ㎛), 적외 채널(10.8 ㎛)과 기상 레이더 Column Max (CMAX) 합성장을 이용하여 기계학습 기반 정량적 강우량 추정 모델을 개발하였다. 기계학습 기법으로는 랜덤 포레스트(Random Forest, RF)를 사용하였으며 기상 레이더 반사도(dBZ)와 Z-R식으로 변환한 강우강도(mm/hr)를 타겟으로 하는 모델을 구축하여 비교하였다. 레이더 강우강도를 통해 검증하였을 때 임계성공지수(Critical Success Index, CSI)는 0.34, Mean-Absolute-Error (MAE) 4.82 mm/hr였다. GeoKompsat-2(GK-2A) 강우강도 산출물, Precipitation Estimation from Remotely Sensed Information Using Artificial Neural Networks (PERSIANN)-Cloud Classification System (CCS) 산출물과 비교하였을 때 강우 유무 분류에서 CSI 21.73%, 10.81%, 강우강도 정량적 평가에서 MAE 31.33%, 23.49% 높은 성능을 보였다. 강우량 산출물을 지도화 한 결과, 실제 강우강도 분포와 유사한 분포를 모의하여 기존 산출물 대비 높은 정확도의 강우량을 추정했다.

로지스틱 회귀, 랜덤포레스트, LSTM 기법을 활용한 서리예측모형 평가 (Comparative assessment of frost event prediction models using logistic regression, random forest, and LSTM networks)

  • 전종안;이현주;임슬희;김대하;백상수
    • 한국수자원학회논문집
    • /
    • 제54권9호
    • /
    • pp.667-680
    • /
    • 2021
  • 이 연구의 목적은 서리 발생일과 무상일 기간의 특성을 분석하고 로지스틱 회귀, 랜덤 포레스트, Long-short Term Memory (LSTM) 기법을 활용하여 서리발생 예측모델을 개발하고 평가하는데 있다. 수원, 청주, 광주 지점에서 봄철과 가을철 서리발생 예측모델 개발을 위한 기상변수들을 수집하였으며, 수집기간은 1973년부터 2019년까지이다. 프리시전(precision), 리콜(Recall), f-1 스코어와, AUC 및 Reliability Diagram과 같은 그래피컬 평가기법을 이용해 서리발생 예측모델을 평가하였다. 봄철과 가을철 모두 서리발생일이 줄어드는 경향성(유의수준: 0.01)을 보였다. 0.9 이상의 높은 AUC 값에도 불구하고, 신뢰도는 일정한 값을 보여주지는 않았다. 서리발생일 측뿐만 아니라, 초상일과 종상일을 정확히 예측할 수 있도록 모형 개선이 필요해 보이며, 다른 지역의 더 많은 지점에서 동일한 기법을 적용해 보는 연구가 필요해 보인다.

랜덤포레스트 회귀모형을 적용한 도시지역에서의 실시간 침수 예측 (Real-time flood prediction applying random forest regression model in urban areas)

  • 김현일;이연수;김병현
    • 한국수자원학회논문집
    • /
    • 제54권spc1호
    • /
    • pp.1119-1130
    • /
    • 2021
  • 불안정한 기후와 함께 나타나는 국지적 집중호우로 인한 도시 침수는 끊임없이 발생하고 있으나, 강우량을 포함한 기상정보 현황 또는 예보정보를 활용하여 공간적인 도시홍수 예측정보를 제공할 수 있는 체계는 아직 마련되지 못한 상황이다. 공간적인 홍수정보는 하천의 제방, 도시 하수관거의 통수능, 저류지, 펌프시설과 같은 구조물적 대책에 어려움이 있을 시 발생할 수 있는 최악의 홍수상황을 미리 파악함으로써 피해를 최소화하는데 직접적인 영향을 미칠 수 있다. 이에 본 연구에서는 기상청에서 제공되는 강수량, 도시 유역에 대한 2차원 침수해석 결과, 그리고 기계학습 모형 중 하나인 랜덤포레스트 회귀모형을 활용하여 실시간으로 도시유역에 대한 침수지도를 예측할 수 있는 방법론을 제시하고자 한다. 연구유역은 내수침수가 빈번하게 발생하는 울산시 우정태화지구로 선정하였다. 지속시간 6시간의 총강우량 50 mm, 80 mm 그리고 110 mm 대한 랜덤포레스트 회귀분석 예측 침수면적과 검보정된 2차원 물리모형의 침수해석 결과 비교시 각각 63%, 80%, 그리고 67%의 적합도를 보여주어, 빠른 시간안에 발생하는 도시 침수에 대한 대응, 대피를 위한 기초자료로 활용될 수 있을 것으로 판단된다.

베이지안 최적화를 통한 저서성 대형무척추동물 종분포모델 개발 (Development of benthic macroinvertebrate species distribution models using the Bayesian optimization)

  • 고병건;신지훈;차윤경
    • 상하수도학회지
    • /
    • 제35권4호
    • /
    • pp.259-275
    • /
    • 2021
  • This study explored the usefulness and implications of the Bayesian hyperparameter optimization in developing species distribution models (SDMs). A variety of machine learning (ML) algorithms, namely, support vector machine (SVM), random forest (RF), boosted regression tree (BRT), XGBoost (XGB), and Multilayer perceptron (MLP) were used for predicting the occurrence of four benthic macroinvertebrate species. The Bayesian optimization method successfully tuned model hyperparameters, with all ML models resulting an area under the curve (AUC) > 0.7. Also, hyperparameter search ranges that generally clustered around the optimal values suggest the efficiency of the Bayesian optimization in finding optimal sets of hyperparameters. Tree based ensemble algorithms (BRT, RF, and XGB) tended to show higher performances than SVM and MLP. Important hyperparameters and optimal values differed by species and ML model, indicating the necessity of hyperparameter tuning for improving individual model performances. The optimization results demonstrate that for all macroinvertebrate species SVM and RF required fewer numbers of trials until obtaining optimal hyperparameter sets, leading to reduced computational cost compared to other ML algorithms. The results of this study suggest that the Bayesian optimization is an efficient method for hyperparameter optimization of machine learning algorithms.

Study of oversampling algorithms for soil classifications by field velocity resistivity probe

  • Lee, Jong-Sub;Park, Junghee;Kim, Jongchan;Yoon, Hyung-Koo
    • Geomechanics and Engineering
    • /
    • 제30권3호
    • /
    • pp.247-258
    • /
    • 2022
  • A field velocity resistivity probe (FVRP) can measure compressional waves, shear waves and electrical resistivity in boreholes. The objective of this study is to perform the soil classification through a machine learning technique through elastic wave velocity and electrical resistivity measured by FVRP. Field and laboratory tests are performed, and the measured values are used as input variables to classify silt sand, sand, silty clay, and clay-sand mixture layers. The accuracy of k-nearest neighbors (KNN), naive Bayes (NB), random forest (RF), and support vector machine (SVM), selected to perform classification and optimize the hyperparameters, is evaluated. The accuracies are calculated as 0.76, 0.91, 0.94, and 0.88 for KNN, NB, RF, and SVM algorithms, respectively. To increase the amount of data at each soil layer, the synthetic minority oversampling technique (SMOTE) and conditional tabular generative adversarial network (CTGAN) are applied to overcome imbalance in the dataset. The CTGAN provides improved accuracy in the KNN, NB, RF and SVM algorithms. The results demonstrate that the measured values by FVRP can classify soil layers through three kinds of data with machine learning algorithms.

SHAP 기반 NSL-KDD 네트워크 공격 분류의 주요 변수 분석 (Analyzing Key Variables in Network Attack Classification on NSL-KDD Dataset using SHAP)

  • 이상덕;김대규;김창수
    • 한국재난정보학회 논문집
    • /
    • 제19권4호
    • /
    • pp.924-935
    • /
    • 2023
  • Purpose: The central aim of this study is to leverage machine learning techniques for the classification of Intrusion Detection System (IDS) data, with a specific focus on identifying the variables responsible for enhancing overall performance. Method: First, we classified 'R2L(Remote to Local)' and 'U2R (User to Root)' attacks in the NSL-KDD dataset, which are difficult to detect due to class imbalance, using seven machine learning models, including Logistic Regression (LR) and K-Nearest Neighbor (KNN). Next, we use the SHapley Additive exPlanation (SHAP) for two classification models that showed high performance, Random Forest (RF) and Light Gradient-Boosting Machine (LGBM), to check the importance of variables that affect classification for each model. Result: In the case of RF, the 'service' variable and in the case of LGBM, the 'dst_host_srv_count' variable were confirmed to be the most important variables. These pivotal variables serve as key factors capable of enhancing performance in the context of classification for each respective model. Conclusion: In conclusion, this paper successfully identifies the optimal models, RF and LGBM, for classifying 'R2L' and 'U2R' attacks, while elucidating the crucial variables associated with each selected model.

기계학습 기반 철근콘크리트 기둥에 대한 신속 파괴유형 예측 모델 개발 연구 (Machine Learning-Based Rapid Prediction Method of Failure Mode for Reinforced Concrete Column)

  • 김수빈;오근영;신지욱
    • 한국지진공학회논문집
    • /
    • 제28권2호
    • /
    • pp.113-119
    • /
    • 2024
  • Existing reinforced concrete buildings with seismically deficient column details affect the overall behavior depending on the failure type of column. This study aims to develop and validate a machine learning-based prediction model for the column failure modes (shear, flexure-shear, and flexure failure modes). For this purpose, artificial neural network (ANN), K-nearest neighbor (KNN), decision tree (DT), and random forest (RF) models were used, considering previously collected experimental data. Using four machine learning methodologies, we developed a classification learning model that can predict the column failure modes in terms of the input variables using concrete compressive strength, steel yield strength, axial load ratio, height-to-dept aspect ratio, longitudinal reinforcement ratio, and transverse reinforcement ratio. The performance of each machine learning model was compared and verified by calculating accuracy, precision, recall, F1-Score, and ROC. Based on the performance measurements of the classification model, the RF model represents the highest average value of the classification model performance measurements among the considered learning methods, and it can conservatively predict the shear failure mode. Thus, the RF model can rapidly predict the column failure modes with simple column details.

딥러닝 및 기계학습 활용 반려견 얼굴 정면판별 방법 (Recognition of dog's front face using deep learning and machine learning)

  • 김종복;장동화;양가영;권경석;김중곤;이준환
    • 한국산학기술학회논문지
    • /
    • 제21권12호
    • /
    • pp.1-9
    • /
    • 2020
  • 반려견을 키우는 가구 수가 급격하게 증가함에 따라 유기, 유실견도 많이 증가하고 있다. 국내에서는 2014년부터 반려동물 등록제를 시행하고 있지만, 안전성과 실효성 문제로 등록률이 높지 않은 실정이다. 이러한 문제를 해결할 방법으로 반려견 생체인식 기술이 주목을 받고 있다. 생체인식률을 높이기 위해서는 최대한 정면에서 같은 형태로 생체정보 이미지를 수집해야 한다. 하지만 반려견은 사람과 달리 비협조적이기 때문에 생체정보 이미지 수집이 어렵다. 본 논문에서는 반려견 생체인식에 적합한 생체정보 이미지 수집을 위해 실시간 영상에서 반려견 얼굴 방향이 정면인지를 판별하는 방법을 제안한다. 제안 방법은 딥러닝을 활용하여 반려견 눈과 코를 검출하고, 검출된 눈과 코의 상대적 크기와 위치를 통해 5가지의 얼굴 방향 정보를 추출하여 기계학습 분류기로 정면 여부를 판별한다. 2,000개의 반려견 이미지를 분류하여 학습, 검증 및 테스트에 사용하였다. 눈과 코 검출에는 YOLOv3와 YOLOv4를 사용하였고, 분류기는 MLP(Multi-layer Perceptron), RF(Random Forest), SVM(Support Vector Machine)을 사용하였다. YOLOv4와 RF 분류기를 사용하고 제안하는 5가지 얼굴 방향 정보 모두를 적용하였을 때 얼굴 정면 판별 성능이 95.25%로 가장 좋았으며, 실시간 처리도 가능한 것으로 나타났다.