• 제목/요약/키워드: random forest model

검색결과 573건 처리시간 0.022초

머신러닝기반 범죄발생 위험지역 예측 (Predicting Crime Risky Area Using Machine Learning)

  • 허선영;김주영;문태헌
    • 한국지리정보학회지
    • /
    • 제21권4호
    • /
    • pp.64-80
    • /
    • 2018
  • 우리나라의 시민들은 범죄에 대한 일반적인 사항만을 알 수 있을 뿐, 자신이 범죄위험에 얼마나 노출되어 있는지를 파악하기 어렵다. 경찰의 입장에서도 범죄발생 지역을 예측할 수 있다면 경찰력이 부족한 상황에서 효율성 있게 범죄에 대처 가능할 것이지만 아직 우리나라에서는 예측시스템이 없고, 관련 연구도 매우 부족한 실정이다. 이에 본 연구에서는 범죄발생 위험지역 예측 자동화 시스템 개발의 첫 번째 단계로 빅데이터로 구축 가능한 범죄정보와 도시지역 자료를 바탕으로 머신러닝 방식을 통해 한국형 범죄발생 위험지역 예측 모형을 개발하고자 한다. 또한 시나리오를 가정하여 범죄발생 확률을 지도로 시각화함으로써 사용자의 이해도를 높이도록 하였다. 선행 연구 및 사례에서 범죄발생에 영향을 미치는 요인 중 빅데이터로 구축 가능한 범죄정보, 날씨정보(기온, 강수량, 풍속, 습도, 일조, 일사, 적설, 전운량), 지역정보(평균 건폐율, 평균 용적율, 평균 높이, 총 건축물수, 평균 공시지가, 평균 주거용도면적, 평균 지상층수)를 머신러닝에 활용할 수 있도록 데이터를 사전 처리하였다. 머신러닝 알고리즘으로서 지도학습 모형 중 다양한 분야에서 활용되며 정확도가 높다고 알려진 의사결정나무모형, 랜덤포레스트모형, Support Vector Machine(SVM)모형을 활용하여 범죄 예측 모형을 구축하고 비교 분석하였다. 그 결과 평균 제곱근 오차(Root Mean Square Error, RMSE)가 낮아 예측력이 높은 의사결정나무모형을 최적모형으로 선정하였다. 이를 바탕으로 가장 빈번하게 발생하는 절도와 폭력범죄를 대상으로 시나리오를 작성하여 범죄 발생 위험지역을 예측한 결과, 사례도시 J시는 위험지역이 3가지 패턴으로 발생하는 것으로 나타났으며, 각각 발생확률을 3 등급으로 구분하여 $250{\times}250m$ 단위의 지도형태로 시각화할 수 있었다. 본 연구는 향후 자동화 시스템으로 개발하여 시시각각으로 변하는 도시 상황에 따라 실시간으로 예측 결과를 시각화하여 제공함으로써 보다 범죄로부터 안전한 도시환경 조성에 기여하고자 한다.

Prediction of concrete compressive strength using non-destructive test results

  • Erdal, Hamit;Erdal, Mursel;Simsek, Osman;Erdal, Halil Ibrahim
    • Computers and Concrete
    • /
    • 제21권4호
    • /
    • pp.407-417
    • /
    • 2018
  • Concrete which is a composite material is one of the most important construction materials. Compressive strength is a commonly used parameter for the assessment of concrete quality. Accurate prediction of concrete compressive strength is an important issue. In this study, we utilized an experimental procedure for the assessment of concrete quality. Firstly, the concrete mix was prepared according to C 20 type concrete, and slump of fresh concrete was about 20 cm. After the placement of fresh concrete to formworks, compaction was achieved using a vibrating screed. After 28 day period, a total of 100 core samples having 75 mm diameter were extracted. On the core samples pulse velocity determination tests and compressive strength tests were performed. Besides, Windsor probe penetration tests and Schmidt hammer tests were also performed. After setting up the data set, twelve artificial intelligence (AI) models compared for predicting the concrete compressive strength. These models can be divided into three categories (i) Functions (i.e., Linear Regression, Simple Linear Regression, Multilayer Perceptron, Support Vector Regression), (ii) Lazy-Learning Algorithms (i.e., IBk Linear NN Search, KStar, Locally Weighted Learning) (iii) Tree-Based Learning Algorithms (i.e., Decision Stump, Model Trees Regression, Random Forest, Random Tree, Reduced Error Pruning Tree). Four evaluation processes, four validation implements (i.e., 10-fold cross validation, 5-fold cross validation, 10% split sample validation & 20% split sample validation) are used to examine the performance of predictive models. This study shows that machine learning regression techniques are promising tools for predicting compressive strength of concrete.

데이터의 불균형성을 제거한 네트워크 침입 탐지 모델 비교 분석 (Experimental Comparison of Network Intrusion Detection Models Solving Imbalanced Data Problem)

  • 이종화;방지원;김종욱;최미정
    • KNOM Review
    • /
    • 제23권2호
    • /
    • pp.18-28
    • /
    • 2020
  • 컴퓨팅 환경의 발전에 따라 IT 기술이 의료, 산업, 통신, 문화 등의 분야에서 사람들에게 제공해주는 혜택이 늘어나 삶의 질도 향상되고 있다. 그에 따라 발전된 네트워크 환경을 노리는 다양한 악의적인 공격이 존재한다. 이러한 공격들을 사전에 탐지하기 위해 방화벽, 침입 탐지 시스템 등이 존재하지만, 나날이 진화하는 악성 공격들을 탐지하는 데에는 한계가 있다. 이를 해결하기 위해 기계 학습을 이용한 침입 탐지 연구가 활발히 진행되고 있지만, 학습 데이터셋의 불균형으로 인한 오탐 및 미탐이 발생하고 있다. 본 논문에서는 네트워크 침입 탐지에 사용되는 UNSW-NB15 데이터셋의 불균형성 문제를 해결하기 위해 랜덤 오버샘플링 방법을 사용했다. 실험을 통해 모델들의 accuracy, precision, recall, F1-score, 학습 및 예측 시간, 하드웨어 자원 소모량을 비교 분석했다. 나아가 본 연구를 기반으로 랜덤 오버샘플링 방법 이외에 불균형한 데이터 문제를 해결할 수 있는 다른 방법들과 성능이 높은 모델들을 이용하여 좀 더 효율적인 네트워크 침입 탐지 모델 연구로 발전시키고자 한다.

Prediction of Daily PM10 Concentration for Air Korea Stations Using Artificial Intelligence with LDAPS Weather Data, MODIS AOD, and Chinese Air Quality Data

  • Jeong, Yemin;Youn, Youjeong;Cho, Subin;Kim, Seoyeon;Huh, Morang;Lee, Yangwon
    • 대한원격탐사학회지
    • /
    • 제36권4호
    • /
    • pp.573-586
    • /
    • 2020
  • PM (particulate matter) is of interest to everyone because it can have adverse effects on human health by the infiltration from respiratory to internal organs. To date, many studies have made efforts for the prediction of PM10 and PM2.5 concentrations. Unlike previous studies, we conducted the prediction of tomorrow's PM10 concentration for the Air Korea stations using Chinese PM10 data in addition to the satellite AOD and weather variables. We constructed 230,639 matchups from the raw data over 3 million and built an RF (random forest) model from the matchups to cope with the complexity and nonlinearity. The validation statistics from the blind test showed excellent accuracy with the RMSE (root mean square error) of 9.905 ㎍/㎥ and the CC (correlation coefficient) of 0.918. Moreover, our prediction model showed a stable performance without the dependency on seasons or the degree of PM10 concentration. However, part of coastal areas had a relatively low accuracy, which implies that a dedicated model for coastal areas will be necessary. Additional input variables such as wind direction, precipitation, and air stability should also be incorporated into the prediction model as future work.

학습을 이용한 손 자세의 강인한 추정 (Robust Estimation of Hand Poses Based on Learning)

  • 김설호;장석우;김계영
    • 한국정보통신학회논문지
    • /
    • 제23권12호
    • /
    • pp.1528-1534
    • /
    • 2019
  • 최근 들어, 3차원의 깊이 카메라의 대중화로 인해서 RGB 영상에서 수행되던 연구에 새로운 관심과 기회가 생겼지만 사람의 손 자세의 추정은 여전히 어려운 주제 중의 하나로 분류되고 있다. 본 논문에서는 다양하게 입력되는 3차원의 깊이 영상으로부터 사람의 손의 자세를 학습 알고리즘을 이용하여 강인하게 추정하는 방법을 제안한다. 제안된 접근 방법에서는 먼저 뼈대 기반의 손 모델을 생성한 다음, 생성된 손 모델을 3차원의 포인트 클라우드 데이터에 정렬한다. 그런 다음, 랜덤 포레스트 기반의 학습 알고리즘을 이용하여 정렬된 손 모델로부터 손의 자세를 강인하게 추정한다. 본 논문의 실험 결과에서는 제안된 접근 방법이 다양한 실내외의 환경에서 촬영된 입력 영상으로부터 사람의 손의 자세를 강인하고 빠르게 추정한다는 것을 보여준다.

데이터마이닝에 기반한 예비군훈련 입소율 예측에 관한 연구 (A study on forecasting attendance rate of reserve forces training based on Data Mining)

  • 조상준;마정목
    • 한국산학기술학회논문지
    • /
    • 제22권3호
    • /
    • pp.261-267
    • /
    • 2021
  • 예비군훈련을 담당하는 부대의 임무는 예비군이 평시에 실전적인 훈련을 받을 수 있는 환경을 만들어주는 것이다. 하지만 예비군훈련 담당부대의 특성상 운용 할 수 있는 병력부족의 문제로 실전적인 훈련환경을 만들어주는 예비군 훈련 지원 인원편성에 어려움이 많이 있다. 이러한 이유로 현재 군에서는 전년도 월 평균 예비군 입소율 결과로 당해연도 일일단위 예비군 입소율을 예측하면서 인력편성과 부대운영에 대한 계획을 수립하고 있다. 그러나 기존 예측방법은 실제 입소율과 비교 시 오차가 크게 발생할 수 있다는 문제점을 가지고 있다. 이 문제점은 훈련을 지원하는 교관과 조교 선정에 어려움을 주어 훈련성과 달성에 부정적으로 작용할 수 있다. 그러므로 실제 입소율과 오차를 최소화 할 수 있는 더 정확한 예측모형이 필요하다. 따라서 본 연구에서는 데이터마이닝을 기반으로 일일단위 예비군훈련 입소율을 예측한 모형을 제시하였다. 데이터마이닝 기반 모형의 검증을 위해 예비군훈련 담당부대에서 수집한 실제 데이터로 현재 군에서 사용하는 기존 예측방법과 비교하였다. 그 결과 본 연구에서 제시한 데이터마이닝 기반 예측모형이 기존 예측방법보다 오차를 줄이는 우수한 성능을 보였다.

Predicting As Contamination Risk in Red River Delta using Machine Learning Algorithms

  • Ottong, Zheina J.;Puspasari, Reta L.;Yoon, Daeung;Kim, Kyoung-Woong
    • 자원환경지질
    • /
    • 제55권2호
    • /
    • pp.127-135
    • /
    • 2022
  • Excessive presence of As level in groundwater is a major health problem worldwide. In the Red River Delta in Vietnam, several million residents possess a high risk of chronic As poisoning. The As releases into groundwater caused by natural process through microbially-driven reductive dissolution of Fe (III) oxides. It has been extracted by Red River residents using private tube wells for drinking and daily purposes because of their unawareness of the contamination. This long-term consumption of As-contaminated groundwater could lead to various health problems. Therefore, a predictive model would be useful to expose contamination risks of the wells in the Red River Delta Vietnam area. This study used four machine learning algorithms to predict the As probability of study sites in Red River Delta, Vietnam. The GBM was the best performing model with the accuracy, precision, sensitivity, and specificity of 98.7%, 100%, 95.2%, and 100%, respectively. In addition, it resulted the highest AUC of 92% and 96% for the PRC and ROC curves, with Eh and Fe as the most important variables. The partial dependence plot of As concentration on the model parameters showed that the probability of high level of As is related to the low number of wells' depth, Eh, and SO4, along with high PO43- and NH4+. This condition triggers the reductive dissolution of iron phases, thus releasing As into groundwater.

Machine Learning-based Detection of DoS and DRDoS Attacks in IoT Networks

  • Yeo, Seung-Yeon;Jo, So-Young;Kim, Jiyeon
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권7호
    • /
    • pp.101-108
    • /
    • 2022
  • 본 논문은 다수의 사물인터넷 단말에서 보편적으로 수집할 수 있는 시스템 및 네트워크 메트릭을 학습하여 각 사물의 경험데이터를 기반으로 서비스거부 및 분산반사 서비스거부 공격을 탐지하는 침입 탐지 모델을 제안한다. 먼저, 공격 시나리오 유형별로 각 사물에서 37종의 시스템 및 네트워크 메트릭을 수집하고, 이를 6개 유형의 머신러닝 모델을 기반으로 학습하여 사물인터넷 공격 탐지 및 분류에 가장 효과적인 모델 및 메트릭을 분석한다. 본 논문의 실험을 통해, 랜덤 포레스트 모델이 96% 이상의 정확도로 가장 높은 공격 탐지 및 분류 성능을 보이는 것을 확인하였고, 그 다음으로는 K-최근접 이웃 모델과 결정트리 모델의 성능이 우수한 것을 확인하였다. 37종의 메트릭 중에는 모든 공격 시나리오에서 공격의 특징을 가장 잘 반영하는 CPU, 메모리, 네트워크 메트릭 5종을 발견하였으며 큰 사이즈의 패킷보다는 빠른 전송속도를 갖는 패킷이 사물인터넷 네트워크에서 서비스거부 및 분산반사 서비스거부 공격 특징을 더욱 명확히 나타내는 것을 실험을 통해 확인하였다.

Comparative Study of PSO-ANN in Estimating Traffic Accident Severity

  • Md. Ashikuzzaman;Wasim Akram;Md. Mydul Islam Anik;Taskeed Jabid;Mahamudul Hasan;Md. Sawkat Ali
    • International Journal of Computer Science & Network Security
    • /
    • 제23권8호
    • /
    • pp.95-100
    • /
    • 2023
  • Due to Traffic accidents people faces health and economical casualties around the world. As the population increases vehicles on road increase which leads to congestion in cities. Congestion can lead to increasing accident risks due to the expansion in transportation systems. Modern cities are adopting various technologies to minimize traffic accidents by predicting mathematically. Traffic accidents cause economical casualties and potential death. Therefore, to ensure people's safety, the concept of the smart city makes sense. In a smart city, traffic accident factors like road condition, light condition, weather condition etcetera are important to consider to predict traffic accident severity. Several machine learning models can significantly be employed to determine and predict traffic accident severity. This research paper illustrated the performance of a hybridized neural network and compared it with other machine learning models in order to measure the accuracy of predicting traffic accident severity. Dataset of city Leeds, UK is being used to train and test the model. Then the results are being compared with each other. Particle Swarm optimization with artificial neural network (PSO-ANN) gave promising results compared to other machine learning models like Random Forest, Naïve Bayes, Nearest Centroid, K Nearest Neighbor Classification. PSO- ANN model can be adopted in the transportation system to counter traffic accident issues. The nearest centroid model gave the lowest accuracy score whereas PSO-ANN gave the highest accuracy score. All the test results and findings obtained in our study can provide valuable information on reducing traffic accidents.

A Unicode based Deep Handwritten Character Recognition model for Telugu to English Language Translation

  • BV Subba Rao;J. Nageswara Rao;Bandi Vamsi;Venkata Nagaraju Thatha;Katta Subba Rao
    • International Journal of Computer Science & Network Security
    • /
    • 제24권2호
    • /
    • pp.101-112
    • /
    • 2024
  • Telugu language is considered as fourth most used language in India especially in the regions of Andhra Pradesh, Telangana, Karnataka etc. In international recognized countries also, Telugu is widely growing spoken language. This language comprises of different dependent and independent vowels, consonants and digits. In this aspect, the enhancement of Telugu Handwritten Character Recognition (HCR) has not been propagated. HCR is a neural network technique of converting a documented image to edited text one which can be used for many other applications. This reduces time and effort without starting over from the beginning every time. In this work, a Unicode based Handwritten Character Recognition(U-HCR) is developed for translating the handwritten Telugu characters into English language. With the use of Centre of Gravity (CG) in our model we can easily divide a compound character into individual character with the help of Unicode values. For training this model, we have used both online and offline Telugu character datasets. To extract the features in the scanned image we used convolutional neural network along with Machine Learning classifiers like Random Forest and Support Vector Machine. Stochastic Gradient Descent (SGD), Root Mean Square Propagation (RMS-P) and Adaptative Moment Estimation (ADAM)optimizers are used in this work to enhance the performance of U-HCR and to reduce the loss function value. This loss value reduction can be possible with optimizers by using CNN. In both online and offline datasets, proposed model showed promising results by maintaining the accuracies with 90.28% for SGD, 96.97% for RMS-P and 93.57% for ADAM respectively.