• 제목/요약/키워드: Gradient boosting

검색결과 221건 처리시간 0.026초

노인보행자교통사고 요인 분석 : 서울특별시 중심으로 (Analysis of Factors Related To Elderly Pedestrian Traffic Accients : Centered on Seoul Metropolitan City)

  • 성제민;윤병조
    • 한국재난정보학회:학술대회논문집
    • /
    • 한국재난정보학회 2023년 정기학술대회 논문집
    • /
    • pp.261-262
    • /
    • 2023
  • 보행자 교통사고는 보행자와 운행 중인 차량 간 발생한 충돌사고로 도로 및 주변 환경 등에 영항을 받는다. 이 연구에서는 2018년부터 2022년까지 서울특별시에서 발생한 노인 보행자 교통사고 자료를 수집하여 보행자 교통사고의 사고 요인을 분석하였다. 분석에 있어서 고려된 연구모형은 랜덤포레스트, Gradient Boosting regression(GBR)이다. 분석 결과 서울특별시의 지리적 특성과 교통 통행 패턴을 반영하여 교통약자를 대상으로 하는 교통정책을 보완하고, 보행 안전을 강화하는 것이 필요하다.

  • PDF

Ensemble Gene Selection Method Based on Multiple Tree Models

  • Mingzhu Lou
    • Journal of Information Processing Systems
    • /
    • 제19권5호
    • /
    • pp.652-662
    • /
    • 2023
  • Identifying highly discriminating genes is a critical step in tumor recognition tasks based on microarray gene expression profile data and machine learning. Gene selection based on tree models has been the subject of several studies. However, these methods are based on a single-tree model, often not robust to ultra-highdimensional microarray datasets, resulting in the loss of useful information and unsatisfactory classification accuracy. Motivated by the limitations of single-tree-based gene selection, in this study, ensemble gene selection methods based on multiple-tree models were studied to improve the classification performance of tumor identification. Specifically, we selected the three most representative tree models: ID3, random forest, and gradient boosting decision tree. Each tree model selects top-n genes from the microarray dataset based on its intrinsic mechanism. Subsequently, three ensemble gene selection methods were investigated, namely multipletree model intersection, multiple-tree module union, and multiple-tree module cross-union, were investigated. Experimental results on five benchmark public microarray gene expression datasets proved that the multiple tree module union is significantly superior to gene selection based on a single tree model and other competitive gene selection methods in classification accuracy.

A sensitivity analysis of machine learning models on fire-induced spalling of concrete: Revealing the impact of data manipulation on accuracy and explainability

  • Mohammad K. al-Bashiti;M.Z. Naser
    • Computers and Concrete
    • /
    • 제33권4호
    • /
    • pp.409-423
    • /
    • 2024
  • Using an extensive database, a sensitivity analysis across fifteen machine learning (ML) classifiers was conducted to evaluate the impact of various data manipulation techniques, evaluation metrics, and explainability tools. The results of this sensitivity analysis reveal that the examined models can achieve an accuracy ranging from 72-93% in predicting the fire-induced spalling of concrete and denote the light gradient boosting machine, extreme gradient boosting, and random forest algorithms as the best-performing models. Among such models, the six key factors influencing spalling were maximum exposure temperature, heating rate, compressive strength of concrete, moisture content, silica fume content, and the quantity of polypropylene fiber. Our analysis also documents some conflicting results observed with the deep learning model. As such, this study highlights the necessity of selecting suitable models and carefully evaluating the presence of possible outcome biases.

마켓 타이밍과 유상증자 (Market Timing and Seasoned Equity Offering)

  • 서성원
    • 아태비즈니스연구
    • /
    • 제15권1호
    • /
    • pp.145-157
    • /
    • 2024
  • Purpose - In this study, we propose an empirical model for predicting seasoned equity offering (SEO here after) using machine learning methods. Design/methodology/approach - The models utilize the random forest method based on decision trees that considers non-linear relationships, as well as the gradient boosting tree model. SEOs incur significant direct and indirect costs. Therefore, CEOs' decisions of seasoned equity issuances are made only when the benefits outweigh the costs, which leads to a non-linear relationship between SEOs and a determinant of them. Particularly, a variable related to market timing effectively exhibit such non-linear relations. Findings - To account for these non-linear relationships, we hypothesize that decision tree-based random forest and gradient boosting tree models are more suitable than the linear methodologies due to the non-linear relations. The results of this study support this hypothesis. Research implications or Originality - We expect that our findings can provide meaningful information to investors and policy makers by classifying companies to undergo SEOs.

Xgboosting 기법을 이용한 실내 위치 측위 기법 (Indoor positioning system using Xgboosting)

  • 황치곤;윤창표;김대진
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.492-494
    • /
    • 2021
  • 기계학습에서 분류를 위한 기법으로 의사결정트리 기법을 이용한다. 그러나 의사결정트리는 과적합의 문제로 성능이 저하되는 문제가 있다. 이러한 문제를 해결하기 위해 여러 개의 부트스트랩을 생성하여 각 자료를 모델링하여 학습하는 Bagging기법, 샘플링한 데이터를 모델링하여 가중치를 조정하여 과적합을 감소시키는 Boosting과 같은 기법으로 이를 해결할 수 있다. 또한, 최근에 Xgboost 기법이 등장하였다. 이에 본 논문에서는 실내 측위를 위한 wifi 신호 데이터를 수집하여 기존 방식과 Xgboost에 적용하고, 이를 통한 성능평가를 수행한다.

  • PDF

태그 서열 위치와 경사 부스팅을 활용한 한국어 웹 본문 추출 (Korean Web Content Extraction using Tag Rank Position and Gradient Boosting)

  • 모종훈;유재명
    • 정보과학회 논문지
    • /
    • 제44권6호
    • /
    • pp.581-586
    • /
    • 2017
  • 웹 문서를 자동으로 수집하면 대량의 정보를 손쉽게 모을 수 있다. 이러한 정보 수집 과정을 위해 웹 문서에서 메뉴, 광고 등 불필요한 정보를 제거하고 본문을 자동으로 추출할 필요가 있다. 특히 한국어 웹문서는 영어권과 달리 메타데이터가 포함된 경우가 드물고 디자인이 복잡하여 한국어 웹에 맞는 자동 본문 추출 방법이 필요하다. 기존의 본문 추출 방법은 주로 본문 블록의 문자적, 구조적 특성을 활용한다. 시각적 특성을 처리하기 위해서는 렌더링, 이미지 처리 등에 많은 계산이 필요하기 때문이다. 이 논문에서는 HTML에서 태그 위치를 준-시각적 특성으로 활용한 새로운 본문 추출 방법을 제시한다. 태그 위치는 텍스트의 길이에 따라 가변적이기 때문에 태그 서열 위치라는 특성을 개발하였고, 이를 경사 부스팅과 함께 이용하면 정확한 본문 추출이 가능함을 보인다. 본 논문의 연구 결과는 텍스트 분석에 필요한 양질의 문서 자료를 다양한 형태의 웹페이지에서 자동으로 수집하는 데에 쓰일 수 있다.

데이터 마이닝 기반 스마트 공장 에너지 소모 예측 모델 (An Energy Consumption Prediction Model for Smart Factory Using Data Mining Algorithms)

  • ;이명배;임종현;김유빈;신창선;박장우;조용윤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권5호
    • /
    • pp.153-160
    • /
    • 2020
  • 산업용 에너지 소비 예측은 에너지 수요와 공급에 동적이고 계절적인 변화가 있기 때문에 에너지 관리 및 제어 시스템에서 중요한 위치를 차지한다. 본 논문은 철강 산업의 에너지 소비 예측 모델을 제시하고 논의한다. 사용되는 데이터에는 후행 및 선도적인 전류 반응 전력, 후행 및 선도적인 전류 동력 계수, 이산화탄소(TCO2) 배출 및 부하 유형이 포함된다. 테스트 세트에서는 (a) 선형 회귀(LR), (b) 방사형 커널(SVM RBF), (c) Gradient Boosting Machine (GBM), (d) 무작위 포리스트(RF). 평균 제곱 오차(RMSE), 평균 절대 오차(MAE) 및 평균 절대 백분율 오차(ME)의 네 가지 통계 모델을 사용하여 예측하고 평가한다. 회귀 설계의 효율성 모든 예측 변수를 사용할 때 최상의 모델 RF는 테스트 세트에서 RMSE 값 7.33을 제공할 수 있다.

HOG 특징 및 영상분할을 이용한 부스팅분류 기반 자동차 검출 기법 (Vehicle Detection Scheme Based on a Boosting Classifier with Histogram of Oriented Gradient (HOG) Features and Image Segmentation])

  • 최미순;이정환;노태문;심재창
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권10호
    • /
    • pp.955-961
    • /
    • 2010
  • 본 논문에서는 HOG 특정벡터와 영상분할을 이용한 부스팅 분류기반의 자동차영역 검출 알고리즘의 연구에 대해서 기술한다. 입력된 영상으로부터 차량을 검출하기위해 먼저 분할 후 합병(split-merge) 방법을 적용하여 영상을 분할한다. 그리고 가장 큰 두 영역을 검색 영역에서 제외하여 처리 속도를 향상 시킨다. 각 영역에 대해 HOG(histogram of oriented gradient) 특정을 추출한다. 분류기는 두 개의 모집단을 분류하는데 많이 사용되고 있는 AdaBoost 방법을 사용한다. 제안방법의 성능 평가를 위해 537개의 영상을 사용하여 분류기를 학습하였으며, 또한 학습에 사용하지 않은 비학습영상 500개를 사용하여 인식률을 구하였다. 실험결과 비학습영상에 대해 98.34%의 인식률을 얻었다. 결론적으로 제안된 방법이 지능형 자동차 제어 시스템에서 차량의 위치를 찾는 방법으로 활용될 수 있다.

LightGBM 알고리즘을 활용한 고속도로 교통사고심각도 예측모델 구축 (Predicting of the Severity of Car Traffic Accidents on a Highway Using Light Gradient Boosting Model)

  • 이현미;전교석;장정아
    • 한국전자통신학회논문지
    • /
    • 제15권6호
    • /
    • pp.1123-1130
    • /
    • 2020
  • 본 연구는 고속도로 교통사고 심각도 예측모델을 구축하기 위해 다섯가지 머신러닝 기반의 분류모형 적용하였다. 2015년~2017년 동안 전국 고속도로에서 발생한 사고 데이터 21,013건을 5가지의 분류 모형을 적용한 결과 LightGBM(Light Gradient Boosting Model)이 가장 좋은 성능을 나타내는 것으로 나타났다. LightGBM에서는 교통사고심각도 추정에 있어 우선순위 요인으로 사고차량 수, 사고유형, 사고지점, 사고차로유형, 사고차량 유형 순으로 나타났다. 이러한 모형의 결과를 기반으로 일관적인 사고심각도 예측 과정을 통하여 교통사고대응관리 전략 수립에 활용할 수 있다. 본 연구는 국내 기계학습을 활용한 사례가 적은 여건에서 향후 빅데이터 기반의 다양한 기계학습 기법을 활용이 가능함을 제시하고 있다.

A Design and Implement of Efficient Agricultural Product Price Prediction Model

  • Im, Jung-Ju;Kim, Tae-Wan;Lim, Ji-Seoup;Kim, Jun-Ho;Yoo, Tae-Yong;Lee, Won Joo
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.29-36
    • /
    • 2022
  • 본 논문에서는 DACON에서 제공하는 데이터셋을 기반으로 한 효과적인 농산물 가격 예측 모델을 제안한다. 이 모델은 XGBoost와 CatBoost 이며 Gradient Boosting 계열의 알고리즘으로써 기존의 Logistic Regression과 Random Forest보다 평균정확도 및 수행시간이 우수하다. 이러한 장점들을 기반으로 농산물의 이전 가격들을 기반으로 1주, 2주, 4주뒤 가격을 예측하는 머신러닝 모델을 설계한다. XGBoost 모델은 회귀 방식의 모델링인 XGBoost Regressor 라이브러리를 사용하여 하이퍼 파라미터를 조정함으로써 가장 우수한 성능을 도출할 수 있다. CatBoost 모델은 CatBoost Regressor를 사용하여 모델을 구현한다. 구현한 모델은 DACON에서 제공하는 API를 이용하여 검증하고, 모델 별 성능평가를 실시한다. XGBoost는 자체적인 과적합 규제를 진행하기 때문에 적은 데이터셋에도 불구하고 우수한 성능을 도출하지만, 학습시간, 예측시간 등 시간적인 성능 면에서는 LGBM보다 성능이 낮다는 것을 알 수 있었다.