• 제목/요약/키워드: Gradient boosting

검색결과 221건 처리시간 0.027초

이기종 머신러닝 모델 기반 치매예측 모델 (Dementia Prediction Model based on Gradient Boosting)

  • 이태인;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1729-1738
    • /
    • 2021
  • 머신러닝은 인지심리, 뇌과학과 긴밀한 관계를 유지하며 함께 발전하고 있다. 본 논문은 OASIS-3 dataset을 머신러닝 기법을 이용하여 분석하고, 이를 통해 치매를 예측하는 모델을 제안한다. OASIS-3 데이터 중 각 영역의 부피를 수치화한 데이터들에 대해 PCA(Principal component analysis) 를 통한 차원 축소를 실행한 뒤, 중요한 요소(특징)들만 추출 후 이에 대해 그래디언트 부스팅, 스태킹을 포함한 다양한 머신러닝 모델들을 적용, 각각의 성능을 비교한다. 제안하는 기법은 기존 연구들과 달리 뇌 생체 데이터들은 물론 참가자의 성별 등의 기본 정보 데이터, 참여자의 의료 정보 데이터를 사용했기에 차별성이 크다. 또한, 다양한 성능평가를 통해 제안하는 기법이 다양한 수치 데이터 중 치매와 더 많은 관련성을 보이는 특징들을 찾아내어 치매를 더 잘 예측할 수 있는 모델임을 보였다.

A LightGBM and XGBoost Learning Method for Postoperative Critical Illness Key Indicators Analysis

  • Lei Han;Yiziting Zhu;Yuwen Chen;Guoqiong Huang;Bin Yi
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권8호
    • /
    • pp.2016-2029
    • /
    • 2023
  • Accurate prediction of critical illness is significant for ensuring the lives and health of patients. The selection of indicators affects the real-time capability and accuracy of the prediction for critical illness. However, the diversity and complexity of these indicators make it difficult to find potential connections between them and critical illnesses. For the first time, this study proposes an indicator analysis model to extract key indicators from the preoperative and intraoperative clinical indicators and laboratory results of critical illnesses. In this study, preoperative and intraoperative data of heart failure and respiratory failure are used to verify the model. The proposed model processes the datum and extracts key indicators through four parts. To test the effectiveness of the proposed model, the key indicators are used to predict the two critical illnesses. The classifiers used in the prediction are light gradient boosting machine (LightGBM) and eXtreme Gradient Boosting (XGBoost). The predictive performance using key indicators is better than that using all indicators. In the prediction of heart failure, LightGBM and XGBoost have sensitivities of 0.889 and 0.892, and specificities of 0.939 and 0.937, respectively. For respiratory failure, LightGBM and XGBoost have sensitivities of 0.709 and 0.689, and specificity of 0.936 and 0.940, respectively. The proposed model can effectively analyze the correlation between indicators and postoperative critical illness. The analytical results make it possible to find the key indicators for postoperative critical illnesses. This model is meaningful to assist doctors in extracting key indicators in time and improving the reliability and efficiency of prediction.

Research on the application of Machine Learning to threat assessment of combat systems

  • Seung-Joon Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권7호
    • /
    • pp.47-55
    • /
    • 2023
  • 본 논문에서는 전투체계 위협지수를 머신러닝 모델 중 Gradient Boosting Regreesor, Suppor Vector Regressor를 통해 예측하는 방법을 제시한다. 현재 전투체계는 안전성과 신뢰성이 중시되는 소프트웨어이므로 신뢰성이 보장되지 않은 AI 기술의 적용을 정책상 제한하고 있으며, 이로 인하여 전력화된 국내 전투체계는 AI 기술을 탑재하고 있지 않다. 하지만 AI의 전력화를 목표로 하는 국방부의 정책 방향에 대응하기 위하여, 전투체계의 머신러닝 적용에 필요한 기반 기술을 확보하기 위한 연구를 실시하였다. 이 연구는 위협지수 평가에 필요한 데이터를 수집한 뒤 데이터 가공 및 정제, 머신러닝 모델 선정 및 최적의 하이퍼 파리미터를 선정하여 학습된 모델의 예측 정확도를 판단하였다. 그 결과 테스트 데이터에 대한 모델 점수가 99점 이상으로 도출되었으며 전투체계에 머신러닝 모델의 적용 가능성을 확인하였다.

Improved prediction of soil liquefaction susceptibility using ensemble learning algorithms

  • Satyam Tiwari;Sarat K. Das;Madhumita Mohanty;Prakhar
    • Geomechanics and Engineering
    • /
    • 제37권5호
    • /
    • pp.475-498
    • /
    • 2024
  • The prediction of the susceptibility of soil to liquefaction using a limited set of parameters, particularly when dealing with highly unbalanced databases is a challenging problem. The current study focuses on different ensemble learning classification algorithms using highly unbalanced databases of results from in-situ tests; standard penetration test (SPT), shear wave velocity (Vs) test, and cone penetration test (CPT). The input parameters for these datasets consist of earthquake intensity parameters, strong ground motion parameters, and in-situ soil testing parameters. liquefaction index serving as the binary output parameter. After a rigorous comparison with existing literature, extreme gradient boosting (XGBoost), bagging, and random forest (RF) emerge as the most efficient models for liquefaction instance classification across different datasets. Notably, for SPT and Vs-based models, XGBoost exhibits superior performance, followed by Light gradient boosting machine (LightGBM) and Bagging, while for CPT-based models, Bagging ranks highest, followed by Gradient boosting and random forest, with CPT-based models demonstrating lower Gmean(error), rendering them preferable for soil liquefaction susceptibility prediction. Key parameters influencing model performance include internal friction angle of soil (ϕ) and percentage of fines less than 75 µ (F75) for SPT and Vs data and normalized average cone tip resistance (qc) and peak horizontal ground acceleration (amax) for CPT data. It was also observed that the addition of Vs measurement to SPT data increased the efficiency of the prediction in comparison to only SPT data. Furthermore, to enhance usability, a graphical user interface (GUI) for seamless classification operations based on provided input parameters was proposed.

기계학습을 활용한 주택매도 결정요인 분석 및 예측모델 구축 (Using Mechanical Learning Analysis of Determinants of Housing Sales and Establishment of Forecasting Model)

  • 김은미;김상봉;조은서
    • 지적과 국토정보
    • /
    • 제50권1호
    • /
    • pp.181-200
    • /
    • 2020
  • 본 연구는 OLS모형을 적용하여 주택보유기간에 영향을 미치는 결정요인을 추정한 후 SVM, Decision Tree, Random Forest, Gradient Boosting, XGBoost, LightGBM을 통해 각 모형별 예측력을 비교하였다. 예측력이 가장 높은 모델을 기반모델 삼아 앙상블 모형 중 하나인 Stacking모형을 적용하여 더욱 예측력이 높은 모형을 구축하여 주택시장의 주택거래량을 파악할 수 있다는 점에 선행 연구와의 차이가 있다. OLS분석 결과 매도이익, 주택가격, 가구원 수, 거주주택형태(단독주택, 아파트)이 주택보유기간에 영향을 미치는 것으로 나타났으며, RMSE를 기준삼아 각 머신러닝 모형과 예측력 비교한 결과 머신러닝 모델의 예측력이 더 높은 것으로 나타났다. 이후, 영향을 미치는 변수로 데이터를 재구축한 후 각 머신러닝을 적용하여 예측력을 비교하였으며, 분석 결과 Random Forest의 예측력이 가장 우수한 것으로 나타났다. 또한 예측력이 가장 높은 Random Forest, Decision Tree, Gradient Boosting, XGBoost모형을 개별모형으로 적용하고, Linear, Ridge, Lasso모형을 메타모델로 하여 Stacking 모형을 구축하였다. 분석 결과, Ridge모형일 때 RMSE값이 0.5181으로 가장 낮게 나타나 예측력이 가장 높은 모델을 구축하였다.

시정계 자료와 기계학습 기법을 이용한 지역 안개예측 모형 개발 (Developing a regional fog prediction model using tree-based machine-learning techniques and automated visibility observations)

  • 김대하
    • 한국수자원학회논문집
    • /
    • 제54권12호
    • /
    • pp.1255-1263
    • /
    • 2021
  • 안개는 대체수자원이 될 수 있으나 교통사고 위험을 높이고 공항 운영에 제약을 가하는 사회적 영향이 큰 기상현상이다. 본 연구에서는 1 km 미만 가시거리(시정)로 정의되는 안개 발생을 기상자료로 예측하는 지역 기계학습모형을 개발하고 그 예측력을 평가하였다. 전라북도 지역의 10개 기상청 지상관측소의 2017-2019년 시정 및 기상관측자료로 앙상블 분류기법인 Extreme Gradient Boosting (XGB), Light Gradient Boosting(LGB), Random Forests (RF)를 학습시켜 지역 안개 모형을 개발하였고 독립적인 2020년 자료로 모형의 사용성을 평가하였다. 그 결과, 학습·검증기간(2017-2019)에는 True Skill Score를 기준으로 가장 높은 예측력을 보인 방법은 LGB 기법이었지만 다른 두 모형에 비해 False Alarm Ratio가 컸다. RF 모형과 XGB 방법 역시 기존 연구에 상응하는 예측성능을 보이는 것으로 확인되었다. 2020년 자료를 입력해 안개 발생을 모의했을 때 세 모형의 예측성능은 2017-2019년 기간보다 떨어졌지만 모두 관측 안개일수의 공간분포와 일관되는 안개 위험을 예측했다. 세 기계학습모형은 안개위험이 상대적으로 높은 지역을 추출하는 기법으로 사용이 가능할 것으로 보인다.

Performance Analysis of Trading Strategy using Gradient Boosting Machine Learning and Genetic Algorithm

  • Jang, Phil-Sik
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권11호
    • /
    • pp.147-155
    • /
    • 2022
  • 본 연구에서는 그래디언트 부스팅 기계학습과 유전 알고리즘을 이용하여 일별 주식 포트폴리오를 동적으로 구성하는 시스템을 구축하고 트레이딩 시뮬레이션을 통해 성능을 분석하였다. 이를 위해 유가증권시장과 코스닥시장에 상장된 종목들의 가격 데이터 및 투자자별 거래정보를 포함한 다양한 데이터를 수집하고, 전처리 과정과 변수가공을 통해 학습-예측에 이용될 변수들을 생성하였다. 첫 번째 실험에서는 예측정확도와 정밀도, 재현율 및 F1 점수 등 네 가지 지표를 활용하여 그래디언트 부스팅 기법들(XGBoost, LightGBM, CatBoost)의 성능을 비교 평가하였다. 두 번째 실험에서는 전 단계에서 선택된 LightGBM과 유전 알고리즘을 적용하여 상장 종목들의 일별 수익 여부를 학습-예측하였다. 그리고 예측된 수익 발생확률을 바탕으로 종목을 선별하여 트레이딩 시뮬레이션을 시행하고, CAGR, MDD, 사프지수 및 변동성 측면에서 코스피, 코스닥 지수와의 성능을 비교 평가하였다. 분석 결과, 제안된 전략들 모두 네 가지 성능평가 지표상에서 시장 평균을 넘어서는 것으로 나타났으며, 그래디언트 부스팅과 유전 알고리즘의 결합이 주식 가격 예측에 효과적으로 이용될 수 있음을 보여주었다.

선형회귀분석과 머신러닝을 이용한 암석의 강도 및 암석학적 특징 기반 세르샤 마모지수 추정 (Estimation of Cerchar abrasivity index based on rock strength and petrological characteristics using linear regression and machine learning)

  • 홍주표;강윤성;고태영
    • 한국터널지하공간학회 논문집
    • /
    • 제26권1호
    • /
    • pp.39-58
    • /
    • 2024
  • TBM (Tunnel boring machine)은 터널 굴착 과정에서 여러 디스크 커터를 이용하여 암석을 절삭한다. 디스크 커터는 암석과의 지속적인 접촉과 마찰로 인해 마모된다. 디스크 커터의 표면이 마모되면 절삭 능력이 감소하고 굴착 효율이 떨어진다. 암석의 마모성은 디스크 커터 마모에 큰 영향을 미친다. 높은 마모도를 가진 암석은 커터에 더 큰 마모를 일으키며, 이는 디스크 커터의 수명을 단축시킨다. 세르샤 마모지수(Cerchar abrasivity index, CAI)는 암석의 마모성을 평가하는데 널리 사용되는 지표로 CAI는 암석의 마모특성을 나타내며, 디스크 커터의 수명과 성능 예측에 필수적인 요소로 인식되고 있다. 본 연구의 목적은 암석의 강도, 암석학적 특성과 선형회귀, 머신러닝 기법을 이용하여 CAI를 효과적으로 추정하는 새로운 방법을 개발하는 것이다. 문헌 조사를 통해 CAI, 일축압축강도, 압열인장강도, 등가석영함량이 포함된 데이터베이스를 구축하고 파생변수를 추가하였다. 통계적 유의성과 다중공선성을 고려하여 다중선형회귀분석을 위한 입력변수를 선정하였고, 머신러닝 모델의 입력변수는 변수중요도 분석을 통해 선정하였다. 머신러닝 예측모델 중 Gradient Boosting 모델의 예측 성능이 가장 높게 나타나 최적의 CAI 예측 모델로 선정되었다. 마지막으로 본 연구에서 도출한 다중선형회귀분석과 Gradient Boosting 모델의 예측 성능을 선행연구들의 CAI 예측모델과 비교하여 연구 결과의 타당성을 확인하였다.

신호 방향을 고려한 영상 화질 개선 (Image Enhancement Using Signal Direction)

  • 신동인;김원하
    • 대한전자공학회논문지SP
    • /
    • 제49권4호
    • /
    • pp.32-39
    • /
    • 2012
  • 본 논문에서는 DCT 영역에서 영상 신호의 방향과 변화의 크기에 따라 신호의 에너지를 조절하여 영상의 화질을 안정적으로 개선하는 방법을 개발한다. 이를 위하여 DCT 영역에서 영상 신호의 gradient를 측정하여 gradient의 방향과 크기로 영상의 sharpness, 국부 명암대비, 전역 명암대비에 해당하는 주파수 성분들의 에너지를 조절한다. 제안하는 기법은 기존의 기법들과 비교하여 블록화, 울림화 현상 발생과 잡음 증폭 없이 가장 우수한 화질로 향상시키는 것을 실험으로 보여준다.

설명 가능한 정기예금 가입 여부 예측을 위한 앙상블 학습 기반 분류 모델들의 비교 분석 (A Comparative Analysis of Ensemble Learning-Based Classification Models for Explainable Term Deposit Subscription Forecasting)

  • 신지안;문지훈;노승민
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.97-117
    • /
    • 2021
  • 정기예금 가입 여부 예측은 은행의 대표적인 금융 마케팅 중 하나로, 은행은 다양한 고객 정보를 활용하여 예측 모델을 구성할 수 있다. 정기예금 가입 여부의 분류 정확도를 향상하기 위해, 많은 연구에서 기계학습 기법들을 이용하여 분류 모델들을 개발하였다. 하지만, 이러한 모델들이 만족스러운 성능을 보일지라도 모델의 의사결정 과정에 대한 근거가 적절하게 설명되지 않는다면 산업에서 활용하기가 쉽지 않다. 이러한 문제점을 해결하기 위해, 본 논문은 설명 가능한 정기예금 가입 여부 예측 기법을 제안한다. 먼저, 테이블 형식에서 우수한 성능을 도출하는 의사결정 나무 기반 앙상블 학습 기법인 랜덤 포레스트, GBM, XGBoost, LightGBM을 이용하여 분류 모델들을 개발하고, 10겹 교차검증을 통해 모델들의 분류 성능을 심층 분석한다. 다음으로, 가장 우수한 성능을 도출하는 모델에 설명 가능한 인공지능 기법인 SHAP을 적용하여 고객 정보의 영향도와 의사결정 과정 등을 해석할 수 있는 근거를 제공한다. 제안한 기법의 실용성과 타당성을 입증하기 위해, Kaggle에서 제공한 은행 마케팅 데이터 셋을 대상으로 모의실험을 진행하였으며, 데이터 셋 구성에 따라 GBM과 LightGBM 모델에 SHAP을 각기 적용하여 설명 가능한 정기예금 가입 여부를 위한 분석 및 시각화를 수행하였다.