• 제목/요약/키워드: random forest (RF)

검색결과 182건 처리시간 0.024초

Performance Counter Monitor를 이용한 머신 러닝 기반 캐시 부채널 공격 탐지 (Machine Learning-Based Detection of Cache Side Channel Attack Using Performance Counter Monitor of CPU)

  • 황종배;배대현;하재철
    • 정보보호학회논문지
    • /
    • 제30권6호
    • /
    • pp.1237-1246
    • /
    • 2020
  • 최근 마이크로 아키텍처의 취약점을 이용하여 내부의 비밀 정보를 노출시키는 캐시 부채널 공격들이 제안되었다. 캐시 부채널 공격 중 Flush+Reload 공격은 높은 해상도와 낮은 노이즈 특성으로 인해 여러 악의적 응용 공격에 활용되고 있다. 본 논문에서는 CPU 캐시 활동을 관측할 수 있는 PCM(Performance Counter Monitor) 기능을 이용하여 캐시 기반 부채널 공격을 찾아낼 수 있는 탐지기를 구현하였다. 특히, Spectre 공격과 AES 암호 연산 중 비밀 키 추출 공격이 발생했을 때를 가정하여 PCM 카운터 값의 변화를 관측하였다. 실험 결과, PCM의 4가지 카운터 특성이 캐시 부채널 공격에 크게 반응함을 확인하였고, SVM(Support Vector Machine). RF(Random Forest), MLP(Multi Level Perceptron)와 같은 머신 러닝 기반 검출기를 통해 높은 정확도로 캐시 부채널 공격을 탐지할 수 있었다.

Intelligent System for the Prediction of Heart Diseases Using Machine Learning Algorithms with Anew Mixed Feature Creation (MFC) technique

  • Rawia Elarabi;Abdelrahman Elsharif Karrar;Murtada El-mukashfi El-taher
    • International Journal of Computer Science & Network Security
    • /
    • 제23권5호
    • /
    • pp.148-162
    • /
    • 2023
  • Classification systems can significantly assist the medical sector by allowing for the precise and quick diagnosis of diseases. As a result, both doctors and patients will save time. A possible way for identifying risk variables is to use machine learning algorithms. Non-surgical technologies, such as machine learning, are trustworthy and effective in categorizing healthy and heart-disease patients, and they save time and effort. The goal of this study is to create a medical intelligent decision support system based on machine learning for the diagnosis of heart disease. We have used a mixed feature creation (MFC) technique to generate new features from the UCI Cleveland Cardiology dataset. We select the most suitable features by using Least Absolute Shrinkage and Selection Operator (LASSO), Recursive Feature Elimination with Random Forest feature selection (RFE-RF) and the best features of both LASSO RFE-RF (BLR) techniques. Cross-validated and grid-search methods are used to optimize the parameters of the estimator used in applying these algorithms. and classifier performance assessment metrics including classification accuracy, specificity, sensitivity, precision, and F1-Score, of each classification model, along with execution time and RMSE the results are presented independently for comparison. Our proposed work finds the best potential outcome across all available prediction models and improves the system's performance, allowing physicians to diagnose heart patients more accurately.

격자 기반 침수위험지도 작성을 위한 기계학습 모델별 성능 비교 연구 - 2016 태풍 차바 사례를 중심으로 - (Performance Comparison of Machine Learning Models for Grid-Based Flood Risk Mapping - Focusing on the Case of Typhoon Chaba in 2016 -)

  • 한지혜;곽창재;김구윤;이미란
    • 대한원격탐사학회지
    • /
    • 제39권5_2호
    • /
    • pp.771-783
    • /
    • 2023
  • This study aims to compare the performance of each machine learning model for preparing a grid-based disaster risk map related to flooding in Jung-gu, Ulsan, for Typhoon Chaba which occurred in 2016. Dynamic data such as rainfall and river height, and static data such as building, population, and land cover data were used to conduct a risk analysis of flooding disasters. The data were constructed as 10 m-sized grid data based on the national point number, and a sample dataset was constructed using the risk value calculated for each grid as a dependent variable and the value of five influencing factors as an independent variable. The total number of sample datasets is 15,910, and the training, verification, and test datasets are randomly extracted at a 6:2:2 ratio to build a machine-learning model. Machine learning used random forest (RF), support vector machine (SVM), and k-nearest neighbor (KNN) techniques, and prediction accuracy by the model was found to be excellent in the order of SVM (91.05%), RF (83.08%), and KNN (76.52%). As a result of deriving the priority of influencing factors through the RF model, it was confirmed that rainfall and river water levels greatly influenced the risk.

기계학습을 이용한 지진 취약성 평가 및 매핑: 9.12 경주지진을 대상으로 (Seismic Vulnerability Assessment and Mapping for 9.12 Gyeongju Earthquake Based on Machine Learning)

  • 한지혜;김진수
    • 대한원격탐사학회지
    • /
    • 제36권6_1호
    • /
    • pp.1367-1377
    • /
    • 2020
  • 본 연구는 2016년 발생한 9.12 경주지진을 중심으로 경주시 건축물의 지진 취약성을 평가하고 지도를 제작하는데 목적이 있다. 지진 취약성을 평가하기위해 지질공학, 물리, 구조적 요인과 관련된 11개의 영향인자를 선정하였으며, 이는 독립변수로 적용되었다. 종속변수로는 9.12 경주지진 당시 실제 피해 입은 건축물의 위치자료가 사용되었다. 평가 모델은 기계학습 방법의 RF와 SVM을 기반으로 구축하였으며, 훈련 및 검증 데이터셋은 70:30 비율로 무작위 선별되었다. 정확도 검증은 ROC 곡선을 사용하여 최적 모델을 선별하였으며, 각 모델의 정확도는 RF(1.000), SVM(0.998), 예측 정확도는 RF(0.947), SVM(0.926) 로 나타났다. RF 모델을 기반으로 경주시 전체 건축물의 예측 값을 도출하였으며, 이를 등급화 하여 지진 취약성 지도를 작성하였다. 행정동별 건물 등급 분포를 살펴본 결과, 황남동, 월성동, 선도동, 내남면이 취약성이 높은 지역으로, 양북면, 강동면, 양남면, 감포읍이 상대적으로 안전한 지역으로 나타났다.

앙상블 기반 모델을 이용한 서울시 PM2.5 농도 예측 및 분석 (Prediction and Analysis of PM2.5 Concentration in Seoul Using Ensemble-based Model)

  • 류민지;손상훈;김진수
    • 대한원격탐사학회지
    • /
    • 제38권6_1호
    • /
    • pp.1191-1205
    • /
    • 2022
  • 복잡하고 광범위한 원인을 가진 대기오염물질 중 particulate matter (PM)은 입자의 크기에 따라 분류된다. 그 중 PM2.5는 그 크기가 매우 작아 사람이 흡입하면 인간의 호흡기나 심혈관에 질병을 유발할 수 있다. 이러한 위험에 대비하기 위해서는 국가 중심의 관리와 사전에 예방할 수 있는 모니터링 및 예측이 중요하다. 본 연구는 고농도 미세먼지의 발생이 잦은 서울시의 PM2.5를 local data assimilation and prediction system (LDAPS) 기상 관련 인자 15가지와 aerosol optical depth (AOD), 화학인자 4가지를 독립변수로 하여 앙상블 모델 두 가지 random forest (RF)와 extreme gradient boosting (XGB)로 예측하고자 하였다. 예측에 사용된 두 모델의 성능 평가와 인자 중요도 평가를 수행하였으며, 계절별 모델 분석도 수행하였다. 예측 정확도 결과, RF가 R2 = 0.85, XGB가 R2 = 0.91의 높은 예측 정확도를 보이며 XGB가 RF보다 PM2.5 예측에 적합한 모델임을 확인하였다. 계절별 모델 분석 결과, 봄에 농도가 높은 관측 값과 비교하여 예측 수행이 잘 되었다고 할 수 있다. 본 연구는 다양한 인자를 이용하여 서울시의 PM2.5를 예측하였고, 좋은 성능을 보이는 앙상블 기반의 PM2.5 예측 모델을 구축하였다.

SAR 영상을 활용한 저수지 수표면적 탐지 알고리즘 비교 연구 (A Comparative Study of Reservoir Surface Area Detection Algorithm Using SAR Image)

  • 정하규;박종수;이달근;이준우
    • 대한원격탐사학회지
    • /
    • 제38권6_3호
    • /
    • pp.1777-1788
    • /
    • 2022
  • 저수지는 국내 영농환경에서 주요한 용수 공급처이며, 저수지의 저수량 파악은 농업용수의 활용 및 관리차원에서 중요하다. 위성영상을 활용한 원격탐사는 저수지와 같이 광역적으로 분포하는 객체에 대하여 정기적인 모니터링을 할 수 있는 효과적인 수단으로, 본 연구에서는 Sentinel-1 Synthetic Aperture Radar (SAR) 영상을 통해 영상분류 및 영상분할 알고리즘을 적용하여 국내 저수지 53개소의 수표면적 탐지를 수행하였다. 사용한 알고리즘은 Neural Network (NN), Support Vector Machine (SVM), Random Forest (RF), Otsu, Watershed (WS), Chan-Vese (CV)로 총 6가지이며, 드론으로 촬영한 실측 정사영상으로 수표면적 탐지 결과를 평가하였다. 각 알고리즘으로부터 산출된 수표면적과 실측 수표면적간의 상관성은 NN 0.9941, SVM 0.9942, RF 0.9940, Otsu 0.9922, WS 0.9709, CV 0.9736로 나타났으며, 저수지 유효저수량의 규모가 클수록 더 높은 선형 상관관계를 보였다. 혼동 행렬로부터 산출한 정확도, 정밀도, 재현율을 통해 알고리즘간 수표면적 탐지 정확도와 탐지 경향을 분석하였다. 정확도의 경우 각 10만 m3 미만 저수지에서 WS가 0.8752, 10만~30만 m3에서 Otsu가 0.8845, 30만~50만 m3에서 RF가 0.9100, 50만 m3 이상에서 Otsu와 CV가 0.9400으로 가장 높은 수치를 보였다. WS의 경우 수표면적을 미탐지하는 경향으로 인해 낮은 재현율을 보였고, NN, SVM, RF의 경우 과대 탐지로 인한 낮은 정밀도를 보였다. SAR 영상을 통한 수표면적 탐지 시 저수지 수표면의 수생식물 및 인공건축물이 미탐지를 발생시키는 오차 요소로 작용함을 분석결과 및 실측영상을 통해 확인하였다.

기계학습 기반의 IABP 부이 자료와 AMSR2 위성영상을 이용한 여름철 북극 대기 온도 추정 (The Estimation of Arctic Air Temperature in Summer Based on Machine Learning Approaches Using IABP Buoy and AMSR2 Satellite Data)

  • 한대현;김영준;임정호;이상균;이연수;김현철
    • 대한원격탐사학회지
    • /
    • 제34권6_2호
    • /
    • pp.1261-1272
    • /
    • 2018
  • 북극 지역의 대기 온도는 바다 및 해빙, 대기 사이의 에너지 교환에 큰 역할을 하므로 북극 대기 온도를 정확하게 파악하는 것은 중요하다. 하지만 현장 관측 자료들은 북극 대기 온도의 공간적인 분포를 나타내는 데에 한계가 있다. 따라서 본 연구에서는 부이(buoy) 자료와 Advanced Microwave Scanning Radiometer 2(AMSR2) 위성자료를 이용하여 기계학습 기반 여름철 대기 온도 추정 모델을 구축하였다. 기계학습으로는 random forest(RF) 및 support vector machine(SVM)을 사용하였으며, AMSR2 관측 시간에 따라 하루 두 번의 대기 온도를 추정하였다. 또한 추정된 대기 온도를 유럽 중기예보센터(European Centre for Medium-Range Weather Forecasts, ECMWF)의 ERA-Interim 재분석자료의 대기 온도와 공간 분포를 비교하였다. 교차 검증 결과 두 가지 기계학습 기법 모두 0.84-0.88의 $R^2$$1.31-1.53^{\circ}C$의 RMSE를 보였다. 공간적인 분포에서 IABP 부이 관측 자료가 존재하지 않는 바렌츠해(Barents Sea), 카라해(Kara Sea) 및 배핀만(Baffin bay) 지역에서는 기계학습 모델이 ERA-Interim 대기 온도에 비하여 과소 추정하는 경향을 보였다. 본 연구는 경험적인 북극 대기 온도 추정의 가능성과 한계점을 서술하였다.

기상 데이터를 이용한 데이터 마이닝 기반의 산불 예측 모델 (Data Mining based Forest Fires Prediction Models using Meteorological Data)

  • 김삼근;안재근
    • 한국산학기술학회논문지
    • /
    • 제21권8호
    • /
    • pp.521-529
    • /
    • 2020
  • 산불은 경제, 자연환경, 건강과 같은 삶의 여러 측면에서 몇 가지 악영향을 주는 가장 핵심적인 환경위험 중의 하나이다. 산불의 조기발견, 빠른 예측, 신속한 대응은 산불 위험으로부터 재산과 생명을 구하는데 본질적인 역할을 할 수 있다. 산불의 빠른 발견을 위해 기상청에서 각 지역에 설치한 로컬 센서를 통해 획득한 기상 데이터를 이용하는 방법이 있다. 기상 조건(예: 온도, 바람)은 산불 발생에 영향을 미친다고 알려져 있다. 본 논문에서는 산불의 피해 면적을 예측하기 위해 데이터 마이닝(DM) 기법을 적용한다. 다섯 종류의 DM 모델, 예를 들어 Stochastic Gradient Descent(SGD), Support Vector Machines(SVM), Decision Tree(DT), Random Forests(RF), Deep Neural Network(DNN)과 네 가지 입력 특성 그룹(공간, 시간, 기상 데이터 이용)을 최근 5년간의 경기도 지역에서 수집한 실제 산불 발생 데이터에 적용하였다. 실험결과는 기상 데이터만을 이용한 DNN 모델이 가장 우수한 성능을 보였다. 제안한 모델은 빈도수가 높은 작은 규모의 산불 예측에 더 효과적이었다. 제안한 예측 모델을 통해 도출된 이러한 지식은 소방 자원 관리를 개선하는데 특히 유용하다.

머신 러닝과 데이터 전처리를 활용한 증류탑 온도 예측 (Prediction of Distillation Column Temperature Using Machine Learning and Data Preprocessing)

  • 이예찬;최영렬;조형태;김정환
    • Korean Chemical Engineering Research
    • /
    • 제59권2호
    • /
    • pp.191-199
    • /
    • 2021
  • 화학 공정의 주요 설비 중 하나인 증류탑은 물질들의 끓는점 차이를 이용하여 혼합물에서 원하는 생산물을 분리하는 설비이며 증류 공정은 많은 에너지가 소비되기 때문에 최적화 및 운전 예측이 필요하다. 본 연구의 대상 공정은 공급처에 따라 원료의 조성이 일정하지 않아 정상 상태로 운전이 어려워 효율적인 운전이 어렵다. 이를 해결하기 위해 데이터 기반 예측 모델을 이용하여 운전 조건을 예측 할 수 있다. 하지만 미가공 공정 데이터에는 이상치 및 노이즈가 포함되어 있어 예측 성능을 향상시키기 위해 데이터 전처리가 필요하다. 본 연구에서는 인공 신경망 모델인 Long short-term memory (LSTM)과 Random forest (RF)를 사용하여 모델을 최적화한 후, 데이터 전처리 방법으로 Low-pass filter와 One-class support vector machine을 사용하여 데이터 전처리 방법 및 범위에 따른 예측 성능을 비교하였다. 각 모델의 예측 성능과 데이터 전처리의 영향은 R2과 RMSE를 사용하여 비교하였다. 본 연구의 결과, 전처리를 통해 LSTM의 경우 R2은 0.791에서 0.977으로 RMSE는 0.132에서 0.029로 각각 23.5%, 78.0% 향상되었고, RF의 경우 R2은 0.767에서 0.938으로 RMSE는 0.140에서 0.050으로 각각 22.3%, 64.3% 향상되었다.

기계학습법을 이용한 동해 남서부해역의 표층 이산화탄소분압(fCO2) 추정 (Estimation of Surface fCO2 in the Southwest East Sea using Machine Learning Techniques)

  • 함도식;박소예나;최상화;강동진;노태근;이동섭
    • 한국해양학회지:바다
    • /
    • 제24권3호
    • /
    • pp.375-388
    • /
    • 2019
  • 지구의 탄소순환을 이해하고 미래 대기 $CO_2$의 농도와 기후 변화를 예측하기 위해서는 해양과 대기 사이 $CO_2$ 교환율(sea-to-air $CO_2$ flux)의 시공간 변화를 정확하게 추정하는 것이 필요하다. 연구선을 이용한 현장 관측이 갖고 있는 시공간 제약으로 인해 동해에는 매우 제한적인 표층 이산화탄소분압($fCO_2$) 자료만 존재한다. 이 연구에서는 위성 및 수치모형에서 얻은 수온, 염분, 엽록소, 혼합층 자료를 세 종류의 기계학습 모형에 입력하여 동해 남서부해역의 고해상도 표층 $fCO_2$ 시계열 자료를 산출하였다. 세 모형 중 현장 관측 자료를 가장 잘 재현하는 Random Forest (RF) 모형의 평균제곱근오차는 $7.1{\mu}atm$이었다. RF 모형을 이용한 $fCO_2$ 예측에 중요한 역할을 하는 변수는 수온, 염분과 시간 정보였으며, 엽록소와 혼합층 깊이는 $fCO_2$ 예측에 미미한 역할을 하였다. RF 모형에서 예측한 표층 $fCO_2$를 이용하여 계산한 동해 남서부해역의 $CO_2$ 교환율은 $-0.76{\pm}1.15mol\;m^{-2}yr^{-1}$로 이전 현장 관측 연구에서 제시한 교환율( $-0.66{\sim}-2.47mol\;m^{-2}yr^{-1}$) 범위 중 작은 값에 해당한다. RF 모형의 표층 $fCO_2$ 시계열 자료는 1주일 내외의 짧은 시간 사이에도 $CO_2$ 교환율이 상당히 변할 수 있음을 보여주었다. 앞으로 보다 정확한 $CO_2$ 교환율 산출을 위해서는 $fCO_2$가 급격하게 변화하는 봄철에 높은 해상도의 현장 관측을 수행할 필요가 있다.