• 제목/요약/키워드: random forest model

검색결과 555건 처리시간 0.027초

단독주택가격 추정을 위한 기계학습 모형의 응용 (Application of machine learning models for estimating house price)

  • 이창로;박기호
    • 대한지리학회지
    • /
    • 제51권2호
    • /
    • pp.219-233
    • /
    • 2016
  • 수리 또는 계량적 모형을 사용하는 사회과학연구에서 분석의 초점은 종속변수와 설명변수의 관계를 밝히는 것, 즉 설명 중심의 모형(explanatory modeling)이 지금까지 주류를 이루었다. 반면 예측(prediction) 능력 제고에 초점을 맞춘 분석은 드물었다. 본 연구에서는 이론 및 가설을 검증하거나 변수 간의 관계를 밝히는 설명 중심의 모형이 아니라 신규 관찰치에 대한 예측 오차를 줄이는, 예측 중심의 비모수 모형(non-parametric model)을 검토하였다. 서울시 강남구를 사례지역으로 선정한 후, 2011년부터 2014년까지 신고된 단독주택 실거래가를 기초자료로 하여 주택가격을 추정하였다. 적용한 비모수 모형은 기계학습 분야에서 제시된 일반가산모형(generalized additive model), 랜덤 포리스트, MARS(multivariate adaptive regression splines), SVM(support vector machines) 등이며 비교적 최근에 개발된 MARS나 SVM의 예측력이 뛰어남을 확인할 수 있었다. 마지막으로 이러한 비모수 모형에 공간적 자기상관성을 추가적으로 반영한 결과, 모형의 가격 예측력이 보다 개선되었음을 알 수 있었다. 본 연구를 계기로 그간 모수 모형에 집중되었던 부동산 가격추정 방법론이 비모수 모형으로 확대 및 다양화되기를 기대한다.

  • PDF

Hybrid machine learning with HHO method for estimating ultimate shear strength of both rectangular and circular RC columns

  • Quang-Viet Vu;Van-Thanh Pham;Dai-Nhan Le;Zhengyi Kong;George Papazafeiropoulos;Viet-Ngoc Pham
    • Steel and Composite Structures
    • /
    • 제52권2호
    • /
    • pp.145-163
    • /
    • 2024
  • This paper presents six novel hybrid machine learning (ML) models that combine support vector machines (SVM), Decision Tree (DT), Random Forest (RF), Gradient Boosting (GB), extreme gradient boosting (XGB), and categorical gradient boosting (CGB) with the Harris Hawks Optimization (HHO) algorithm. These models, namely HHO-SVM, HHO-DT, HHO-RF, HHO-GB, HHO-XGB, and HHO-CGB, are designed to predict the ultimate strength of both rectangular and circular reinforced concrete (RC) columns. The prediction models are established using a comprehensive database consisting of 325 experimental data for rectangular columns and 172 experimental data for circular columns. The ML model hyperparameters are optimized through a combination of cross-validation technique and the HHO. The performance of the hybrid ML models is evaluated and compared using various metrics, ultimately identifying the HHO-CGB model as the top-performing model for predicting the ultimate shear strength of both rectangular and circular RC columns. The mean R-value and mean a20-index are relatively high, reaching 0.991 and 0.959, respectively, while the mean absolute error and root mean square error are low (10.302 kN and 27.954 kN, respectively). Another comparison is conducted with four existing formulas to further validate the efficiency of the proposed HHO-CGB model. The Shapely Additive Explanations method is applied to analyze the contribution of each variable to the output within the HHO-CGB model, providing insights into the local and global influence of variables. The analysis reveals that the depth of the column, length of the column, and axial loading exert the most significant influence on the ultimate shear strength of RC columns. A user-friendly graphical interface tool is then developed based on the HHO-CGB to facilitate practical and cost-effective usage.

저서성 대형무척추동물을 이용한 RIVPACS 유형의 하천생태계 건강성 평가법 국내 하천 적용성 (Development and Testing of a RIVPACS-type Model to Assess the Ecosystem Health in Korean Streams: A Preliminary Study)

  • 이다영;이대성;민중혁;박영석
    • 생태와환경
    • /
    • 제56권1호
    • /
    • pp.45-56
    • /
    • 2023
  • 본 연구는 저서성 대형무척추동물을 이용한 RIVPACS 유형의 국내 실정에 맞는 수생태계 예측 및 평가모델을 구축하기 위한 사전 연구로서 수행되었다. 자연상태의 하천인 887개의 참조하천을 선정하고, 참조하천을 저차하천과 고차하천으로 구분한 뒤 random forest 알고리즘을 이용하여 각각의 과에 대하여 예측모델을 구축하였다. 저차하천은 학습과 검증 데이터를 7 : 3의 비율로 나누어 구축하였으며, 고차하천의 경우에는 leave-one-out 방법을 이용하였다. 예측모델에 사용된 환경변수는 비계량 다차원 척도법(NMDS)을 이용하여 선정되었으며, 고도, 경사각, 평년평균기온, 숲의 비율, 하폭, 여울 비율, 하상 구조의 큰돌의 비율로 7개의 변수가 선택되었다. 3,224개의 조사대상 지점을 하천차수에 따른 유형에 따라 구분한 뒤, 각각의 유형에 해당하는 모델을 이용하여 30개 과에 대한 과 단위의 생물상을 예측하였다. 예측된 생물상(E)은 실제 생물상(O)과 생물지수를 이용하여 비교되었다. 생물지수는 BMWPK 지수를 과의 수로 나눈 ASPT를 이용하였다. 그 이후 EQR 지수(O/E)를 이용하여 각 조사지점의 건강성을 평가하였다. 마지막으로, EQR 값을 기존에 이용되고 있는 BMI 값과 비교하였다. 건강성 점수 평가 결과, 실제 군집은 0~20과, 예측된 군집은 0~19과 범위로 예측되어 유사하게 나타났다. 실제 ASPT는 평균 4.82 (±2.04 SD), 예측된 ASPT는 6.30 (±0.79 SD)으로 예측된 값이 더 높게 나타났다. ASPT와 BMI의 비교 결과, 대체로 EQR이 BMI 지수보다 높은 값을 보였다. 이는 참조하천 선정에 있어서 조금 교란된 지점도 자연상태로 가정하여 참조하천으로 이용되었기 때문으로 보인다. RIVPACS 모델은 생태학적 상태에 대한 단순하지만 명확한 진단을 제공해줌으로써 국내 하천 관리에 도움이 될 것으로 기대된다. 본 연구는 연구가 미진하였던 우리나라 실정에 맞는 RIVPACS 유형의 평가법을 개발하는 선행 연구로서의 의의가 있다.

Multi-dimensional Analysis and Prediction Model for Tourist Satisfaction

  • Shrestha, Deepanjal;Wenan, Tan;Gaudel, Bijay;Rajkarnikar, Neesha;Jeong, Seung Ryul
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권2호
    • /
    • pp.480-502
    • /
    • 2022
  • This work assesses the degree of satisfaction tourists receive as final recipients in a tourism destination based on the fact that satisfied tourists can make a significant contribution to the growth and continuous improvement of a tourism business. The work considers Pokhara, the tourism capital of Nepal as a prefecture of study. A stratified sampling methodology with open-ended survey questions is used as a primary source of data for a sample size of 1019 for both international and domestic tourists. The data collected through a survey is processed using a data mining tool to perform multi-dimensional analysis to discover information patterns and visualize clusters. Further, supervised machine learning algorithms, kNN, Decision tree, Support vector machine, Random forest, Neural network, Naive Bayes, and Gradient boost are used to develop models for training and prediction purposes for the survey data. To find the best model for prediction purposes, different performance matrices are used to evaluate a model for performance, accuracy, and robustness. The best model is used in constructing a learning-enabled model for predicting tourists as satisfied, neutral, and unsatisfied visitors. This work is very important for tourism business personnel, government agencies, and tourism stakeholders to find information on tourist satisfaction and factors that influence it. Though this work was carried out for Pokhara city of Nepal, the study is equally relevant to any other tourism destination of similar nature.

정형 및 비정형 데이터를 이용한 농산물 구매량 예측: 파프리카를 중심으로 (Prediction of Agricultural Purchases Using Structured and Unstructured Data: Focusing on Paprika)

  • ;이경희;라형철;최은선;조완섭
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.169-179
    • /
    • 2021
  • 소비자의 식품소비행동은 소비자 패널 데이터와 같은 정형 데이터 뿐 아니라 매스미디어와 소셜미디어(SNS) 등 비정형 데이터로부터 영향을 받을 가능성이 높아지고 있다. 본 연구에서는 식품소비 관련된 정형 데이터와 비정형 데이터를 연계한 융합데이터 셋에 대하여 딥러닝 기반의 소비예측 모델을 생성하고 이를 검증한다. 연구의 결과는 정형 데이터와 비정형 데이터를 결합할 때 모델 정확도가 향상되었음을 보여주었다. 또한 비정형 데이터가 모델 예측 가능성을 향상시키는 것으로 나타났다. 변수들의 중요도를 식별하기 위해 SHAP 기법을 사용한 결과 블로그 및 비디오 데이터 관련 변수가 상위 목록에 있었고, 파프리카 구매 금액과 양의 상관관계가 있음을 알 수 있었다. 또한 실험 결과에 따르면 머신러닝 모델이 딥러닝 모델보다 높은 정확도를 보였고, 기존의 시계열 분석 모델링에 대한 효율적인 대안이 될 수 있음을 확인하였다.

Automated Prioritization of Construction Project Requirements using Machine Learning and Fuzzy Logic System

  • Hassan, Fahad ul;Le, Tuyen;Le, Chau;Shrestha, K. Joseph
    • 국제학술발표논문집
    • /
    • The 9th International Conference on Construction Engineering and Project Management
    • /
    • pp.304-311
    • /
    • 2022
  • Construction inspection is a crucial stage that ensures that all contractual requirements of a construction project are verified. The construction inspection capabilities among state highway agencies have been greatly affected due to budget reduction. As a result, efficient inspection practices such as risk-based inspection are required to optimize the use of limited resources without compromising inspection quality. Automated prioritization of textual requirements according to their criticality would be extremely helpful since contractual requirements are typically presented in an unstructured natural language in voluminous text documents. The current study introduces a novel model for predicting the risk level of requirements using machine learning (ML) algorithms. The ML algorithms tested in this study included naïve Bayes, support vector machines, logistic regression, and random forest. The training data includes sequences of requirement texts which were labeled with risk levels (such as very low, low, medium, high, very high) using the fuzzy logic systems. The fuzzy model treats the three risk factors (severity, probability, detectability) as fuzzy input variables, and implements the fuzzy inference rules to determine the labels of requirements. The performance of the model was examined on labeled dataset created by fuzzy inference rules and three different membership functions. The developed requirement risk prediction model yielded a precision, recall, and f-score of 78.18%, 77.75%, and 75.82%, respectively. The proposed model is expected to provide construction inspectors with a means for the automated prioritization of voluminous requirements by their importance, thus help to maximize the effectiveness of inspection activities under resource constraints.

  • PDF

사출 성형 공정에서의 변수 최적화 방법론 (Methodology for Variable Optimization in Injection Molding Process)

  • 정영진;강태호;박정인;조중연;홍지수;강성우
    • 품질경영학회지
    • /
    • 제52권1호
    • /
    • pp.43-56
    • /
    • 2024
  • Purpose: The injection molding process, crucial for plastic shaping, encounters difficulties in sustaining product quality when replacing injection machines. Variations in machine types and outputs between different production lines or factories increase the risk of quality deterioration. In response, the study aims to develop a system that optimally adjusts conditions during the replacement of injection machines linked to molds. Methods: Utilizing a dataset of 12 injection process variables and 52 corresponding sensor variables, a predictive model is crafted using Decision Tree, Random Forest, and XGBoost. Model evaluation is conducted using an 80% training data and a 20% test data split. The dependent variable, classified into five characteristics based on temperature and pressure, guides the prediction model. Bayesian optimization, integrated into the selected model, determines optimal values for process variables during the replacement of injection machines. The iterative convergence of sensor prediction values to the optimum range is visually confirmed, aligning them with the target range. Experimental results validate the proposed approach. Results: Post-experiment analysis indicates the superiority of the XGBoost model across all five characteristics, achieving a combined high performance of 0.81 and a Mean Absolute Error (MAE) of 0.77. The study introduces a method for optimizing initial conditions in the injection process during machine replacement, utilizing Bayesian optimization. This streamlined approach reduces both time and costs, thereby enhancing process efficiency. Conclusion: This research contributes practical insights to the optimization literature, offering valuable guidance for industries seeking streamlined and cost-effective methods for machine replacement in injection molding.

머신러닝 기반 위성영상과 수질·수문·기상 인자를 활용한 낙동강의 Chlorophyll-a 농도 추정 (Estimation of Chlorophyll-a Concentration in Nakdong River Using Machine Learning-Based Satellite Data and Water Quality, Hydrological, and Meteorological Factors)

  • 박소련;손상훈;배재구;이도이;서동주;김진수
    • 대한원격탐사학회지
    • /
    • 제39권5_1호
    • /
    • pp.655-667
    • /
    • 2023
  • 전 세계적으로 녹조 대발생은 빈번하게 보고되고 있으며, 국내에서도 매년 녹조로 인한 심각한 수질 오염 문제가 발생하고 있다. 지속적인 관리와 신속한 대응을 통한 수생태계 보호가 필요하다. 녹조 발생의 지표인 chlorophyll-a (Chl-a) 농도를 예측하기 위해 위성 영상을 이용한 연구가 많이 이루어지고 있다. 하지만 수계에 따라 변하는 분광특성과 대기 보정 오류로 인해 정확한 Chl-a 산출에 어려움이 있어 최근 머신러닝 모델을 활용하고 있다. 위성 분광지수 뿐만 아니라 녹조에 영향을 미치는 인자들에 대한 복합적인 고려가 필요하다. 따라서, 본 연구는 수질, 수문 및 기상 인자와 Sentinel-2 영상을 복합적으로 고려하여 데이터셋을 구축하였다. 최근 5년간 낙동강에 위치한 8개 보 구간의 Chl-a 농도 예측에 대표적인 앙상블 모델 random forest (RF)와 extreme gradient boosting (XGBoost)을 활용하였다. 모델 평가 지표로 r-squared score (R2), root mean square errors(RMSE), mean absolute errors (MAE)를 사용하였으며, XGBoost의 R2가 0.810, RMSE가 6.612, MAE가 4.457로 유의미한 결과를 얻은 것을 확인하였다. Shapley additive explanations (SHAP) 분석을 통해 두 모델 모두 수질 인자 suspended solids (SS), biochemical oxygen demand (BOD), dissolved oxygen (DO)과 red edge 밴드를 활용한 밴드비가 높은 중요도를 보인 것을 알 수 있었다. 다양한 입력 데이터는 모델 성능 향상에 도움을 주는 것을 확인할 수 있었으며, 국내외 녹조 탐지에 적용될 수 있을 것으로 보인다.

미래토지이용 및 기후변화에 따른 하천유역의 유출특성 분석 (Analysis of Future Land Use and Climate Change Impact on Stream Discharge)

  • 안소라;이용준;박근애;김성준
    • 대한토목학회논문집
    • /
    • 제28권2B호
    • /
    • pp.215-224
    • /
    • 2008
  • SLURP 준 분포형 수문모형을 이용하여 예측된 토지이용 자료와 미래 기후변화 시나리오에 의한 기상자료 및 식생지수 정보를 고려한 상태에서 하천유역의 유출에 미치는 영향을 분석하였다. 경안천 경안수위관측소 상류유역($260.4km^2$)을 대상으로 4개년(1999-2002) 동안의 일별 유출량 자료를 바탕으로 모형의 보정(1999-2000)과 검증(2001-2002)을 실시하였다. 토지이용 예측은 1996년, 2000년, 2004년의 Landsat TM 및 ETM+ 위성영상을 이용하여 CA-Markov 기법으로 검증(2004)을 실시한 후, 미래의 토지이용(2030, 2060, 2090)을 예측하였다. 예측된 토지이용은 시간이 경과할수록 산림과 논은 지속적으로 감소하고 도시, 초지, 나지 등은 증가하는 경향을 보였다. 미래의 식생정보 예측을 위하여 NOAA/AVHRR 위성영상으로부터 추출된 월별 NDVI(1998-2002)와 월평균기온간의 선형 회귀식을 도출하여 미래의 식생지수 정보(2030, 2060, 2090)를 추정하였다. IPCC SRES A2, B2 기후변화 시나리오에 대한 CCCma CGCM2 모의결과 값(2030s, 2060s, 2090s)을 Stochastic Spatio-Temporal Random Cascade Model(SST-RCM) 기법을 이용하여 downscaling 한 뒤 하천유출의 변화를 분석한 결과, 기후변화에 따른 하천유출율은 1999-2002년의 59%에 비해 미래에는 13%~34%로 감소하는 것으로 모의되었고, 반면에 토지이용의 변화에 대한 유출율은 0.1%~1% 증가하였다.

머신러닝기반 범죄발생 위험지역 예측 (Predicting Crime Risky Area Using Machine Learning)

  • 허선영;김주영;문태헌
    • 한국지리정보학회지
    • /
    • 제21권4호
    • /
    • pp.64-80
    • /
    • 2018
  • 우리나라의 시민들은 범죄에 대한 일반적인 사항만을 알 수 있을 뿐, 자신이 범죄위험에 얼마나 노출되어 있는지를 파악하기 어렵다. 경찰의 입장에서도 범죄발생 지역을 예측할 수 있다면 경찰력이 부족한 상황에서 효율성 있게 범죄에 대처 가능할 것이지만 아직 우리나라에서는 예측시스템이 없고, 관련 연구도 매우 부족한 실정이다. 이에 본 연구에서는 범죄발생 위험지역 예측 자동화 시스템 개발의 첫 번째 단계로 빅데이터로 구축 가능한 범죄정보와 도시지역 자료를 바탕으로 머신러닝 방식을 통해 한국형 범죄발생 위험지역 예측 모형을 개발하고자 한다. 또한 시나리오를 가정하여 범죄발생 확률을 지도로 시각화함으로써 사용자의 이해도를 높이도록 하였다. 선행 연구 및 사례에서 범죄발생에 영향을 미치는 요인 중 빅데이터로 구축 가능한 범죄정보, 날씨정보(기온, 강수량, 풍속, 습도, 일조, 일사, 적설, 전운량), 지역정보(평균 건폐율, 평균 용적율, 평균 높이, 총 건축물수, 평균 공시지가, 평균 주거용도면적, 평균 지상층수)를 머신러닝에 활용할 수 있도록 데이터를 사전 처리하였다. 머신러닝 알고리즘으로서 지도학습 모형 중 다양한 분야에서 활용되며 정확도가 높다고 알려진 의사결정나무모형, 랜덤포레스트모형, Support Vector Machine(SVM)모형을 활용하여 범죄 예측 모형을 구축하고 비교 분석하였다. 그 결과 평균 제곱근 오차(Root Mean Square Error, RMSE)가 낮아 예측력이 높은 의사결정나무모형을 최적모형으로 선정하였다. 이를 바탕으로 가장 빈번하게 발생하는 절도와 폭력범죄를 대상으로 시나리오를 작성하여 범죄 발생 위험지역을 예측한 결과, 사례도시 J시는 위험지역이 3가지 패턴으로 발생하는 것으로 나타났으며, 각각 발생확률을 3 등급으로 구분하여 $250{\times}250m$ 단위의 지도형태로 시각화할 수 있었다. 본 연구는 향후 자동화 시스템으로 개발하여 시시각각으로 변하는 도시 상황에 따라 실시간으로 예측 결과를 시각화하여 제공함으로써 보다 범죄로부터 안전한 도시환경 조성에 기여하고자 한다.