• 제목/요약/키워드: 라이트 GBM

검색결과 2건 처리시간 0.017초

SMOTE와 Light GBM 기반의 불균형 데이터 개선 기법 (Imbalanced Data Improvement Techniques Based on SMOTE and Light GBM)

  • 한영진;조인휘
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권12호
    • /
    • pp.445-452
    • /
    • 2022
  • 디지털 세상에서 불균형 데이터에 대한 클래스 분포는 중요한 부분이며 사이버 보안에 큰 의미를 차지한다. 불균형 데이터의 비정상적인 활동을 찾고 문제를 해결해야 한다. 모든 트랜잭션의 패턴을 추적할 수 있는 시스템이 필요하지만, 일반적으로 패턴이 비정상인 불균형 데이터로 기계학습을 하면 소수 계층에 대한 성능은 무시되고 저하되며 예측 모델은 부정확하게 편향될 수 있다. 본 논문에서는 불균형 데이터 세트를 해결하기 위한 접근 방식으로 Synthetic Minority Oversampling Technique(SMOTE)와 Light GBM 알고리즘을 이용하여 추정치를 결합하여 대상 변수를 예측하고 정확도를 향상시켰다. 실험 결과는 Logistic Regression, Decision Tree, KNN, Random Forest, XGBoost 알고리즘과 비교하였다. 정확도, 재현율에서는 성능이 모두 비슷했으나 정밀도에서는 2개의 알고리즘 Random Forest 80.76%, Light GBM 97.16% 성능이 나왔고, F1-score에서는 Random Forest 84.67%, Light GBM 91.96% 성능이 나왔다. 이 실험 결과로 Light GBM은 성능이 5개의 알고리즘과 비교하여 편차없이 비슷하거나 최대 16% 향상됨을 접근 방식으로 확인할 수 있었다.

LightGBM 알고리즘을 활용한 고속도로 교통사고심각도 예측모델 구축 (Predicting of the Severity of Car Traffic Accidents on a Highway Using Light Gradient Boosting Model)

  • 이현미;전교석;장정아
    • 한국전자통신학회논문지
    • /
    • 제15권6호
    • /
    • pp.1123-1130
    • /
    • 2020
  • 본 연구는 고속도로 교통사고 심각도 예측모델을 구축하기 위해 다섯가지 머신러닝 기반의 분류모형 적용하였다. 2015년~2017년 동안 전국 고속도로에서 발생한 사고 데이터 21,013건을 5가지의 분류 모형을 적용한 결과 LightGBM(Light Gradient Boosting Model)이 가장 좋은 성능을 나타내는 것으로 나타났다. LightGBM에서는 교통사고심각도 추정에 있어 우선순위 요인으로 사고차량 수, 사고유형, 사고지점, 사고차로유형, 사고차량 유형 순으로 나타났다. 이러한 모형의 결과를 기반으로 일관적인 사고심각도 예측 과정을 통하여 교통사고대응관리 전략 수립에 활용할 수 있다. 본 연구는 국내 기계학습을 활용한 사례가 적은 여건에서 향후 빅데이터 기반의 다양한 기계학습 기법을 활용이 가능함을 제시하고 있다.