• 제목/요약/키워드: SMOTE 알고리즘

검색결과 17건 처리시간 0.034초

SMOTE와 분류 기법을 활용한 산사태 위험 지역 결정 방법 (Method for Assessing Landslide Susceptibility Using SMOTE and Classification Algorithms)

  • 윤형구
    • 한국지반공학회논문집
    • /
    • 제39권6호
    • /
    • pp.5-12
    • /
    • 2023
  • 산사태 위험 지역을 사전에 조사하여 설정하는 것은 다수의 피해를 줄이기 위해 필요하다. 해당 연구의 목적은 machine learning 기법 중 분류 알고리즘을 활용하여 대상 지반의 안전율 분류를 수행할 수 있는 방법론을 제시하는 것이다. 산사태 위험 지역은 high risk area(HRA) 모델을 적용하였으며, 8개의 지반공학 물성치를 통해 위험 지역을 판단하였다. 분류 알고리즘은 decision tree(DT), K-Nearest Neighbor(KNN), logistic regression(LR) 그리고 random forest(RF)의 4가지가 활용 되었으며, 안전율 1.2~2.0 범위에 8가지 지반공학 물성치의 분류 정확도를 계산하였다. 정확도는 안전율이 1.2~1.7 범위에서 신뢰성 높게 나타났지만, 그 외 범위인 1.8~2.0 사이에서는 상대적으로 낮은 정확도를 보였다. 이를 극복하기 위하여 synthetic minority over-sampling technique(SMOTE) 알고리즘을 적용하여 데이터 개수를 증폭하였으며, 증폭한 데이터를 통해 분류 알고리즘을 적용하면 안전율 1.8~2.0 범위에서 정확도가 평균적으로 약 250% 증가한 것으로 나타났다. 해당 연구 결과는 SMOTE 알고리즘이 데이터 개수를 향상시켜 분류 알고리즘의 정확도가 개선된 것을 보여주며, 타 분야에도 정확도 향상에 적용 가능하다고 판단된다.

단어선택과 SMOTE 알고리즘을 이용한 불균형 텍스트 데이터의 소수 범주 예측성능 향상 기법 (Improving minority prediction performance of support vector machine for imbalanced text data via feature selection and SMOTE)

  • 김종찬;장성준;손원
    • 응용통계연구
    • /
    • 제37권4호
    • /
    • pp.395-410
    • /
    • 2024
  • 텍스트 데이터는 일반적으로 많은 다양한 단어들로 구성되어 있다. 평범한 텍스트 데이터의 경우에도 수만 개의 서로 다른 단어들을 포함하고 있는 경우를 흔히 관찰할 수 있으며 방대한 양의 텍스트 데이터에서는 수십만 개에 이르는 고유한 단어들이 포함되어 있는 경우도 있다. 텍스트 데이터를 전처리하여 문서-단어 행렬을 만드는 경우 고유한 단어를 하나의 변수로 간주하게 되는데 이렇게 많은 단어들을 각각 하나의 변수로 간주한다면 텍스트 데이터는 매우 많은 변수를 가진 데이터로 볼 수 있다. 한편, 텍스트 데이터의 분류 문제에서는 분류의 목표변수가 되는 범주의 비중에 큰 차이가 나는 불균형 데이터 문제를 자주 접하게 된다. 이렇게 범주의 비중에 큰 차이가 있는 불균형 데이터의 경우에는 일반적인 분류모형의 성능이 크게 저하될 수 있다는 사실이 잘 알려져 있다. 따라서 불균형 데이터에서의 분류 성능을 개선하기 위해 소수집단의 관측값들을 합성하여 소수집단에 포함되는 새로운 관측값을 생성하는 합성과표집기법(synthetic over-sampling technique; SMOTE) 등의 알고리즘을 적용할 수 있다. SMOTE는 k-최근접이웃(k-nearset neighbor; kNN) 알고리즘을 이용하여 새로운 합성 데이터를 생성하는데 텍스트 데이터와 같이 많은 변수를 가진 데이터의 경우에는 오차가 누적되어 kNN의 성능에 문제가 생길 수 있다. 이 논문에서는 변수선택을 통해 변수가 많은 불균형 텍스트 데이터를 오차가 축소된 공간에 표현하고 이 공간에서 새로운 합성 관측값을 생성하여 불균형 텍스트 데이터에서 소수 범주에 대한 SVM 분류모형의 예측 성능을 향상시키는 방법을 제안한다.

SMOTE와 Light GBM 기반의 불균형 데이터 개선 기법 (Imbalanced Data Improvement Techniques Based on SMOTE and Light GBM)

  • 한영진;조인휘
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권12호
    • /
    • pp.445-452
    • /
    • 2022
  • 디지털 세상에서 불균형 데이터에 대한 클래스 분포는 중요한 부분이며 사이버 보안에 큰 의미를 차지한다. 불균형 데이터의 비정상적인 활동을 찾고 문제를 해결해야 한다. 모든 트랜잭션의 패턴을 추적할 수 있는 시스템이 필요하지만, 일반적으로 패턴이 비정상인 불균형 데이터로 기계학습을 하면 소수 계층에 대한 성능은 무시되고 저하되며 예측 모델은 부정확하게 편향될 수 있다. 본 논문에서는 불균형 데이터 세트를 해결하기 위한 접근 방식으로 Synthetic Minority Oversampling Technique(SMOTE)와 Light GBM 알고리즘을 이용하여 추정치를 결합하여 대상 변수를 예측하고 정확도를 향상시켰다. 실험 결과는 Logistic Regression, Decision Tree, KNN, Random Forest, XGBoost 알고리즘과 비교하였다. 정확도, 재현율에서는 성능이 모두 비슷했으나 정밀도에서는 2개의 알고리즘 Random Forest 80.76%, Light GBM 97.16% 성능이 나왔고, F1-score에서는 Random Forest 84.67%, Light GBM 91.96% 성능이 나왔다. 이 실험 결과로 Light GBM은 성능이 5개의 알고리즘과 비교하여 편차없이 비슷하거나 최대 16% 향상됨을 접근 방식으로 확인할 수 있었다.

검증데이터 기반의 차별화된 이상데이터 처리를 통한 데이터 불균형 해소 방법 (Resolving data imbalance through differentiated anomaly data processing based on verification data)

  • 황철현
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.179-190
    • /
    • 2022
  • 데이터 불균형은 한 분류의 데이터 수가 다른 분류에 비해 지나치게 크거나 작은 현상을 의미하며. 이로 인해 분류 알고리즘을 활용하는 기계학습에서 성능을 저하시키는 주요 요인으로 제기되고 있다. 데이터 불균형 문제 해결을 위해서 소수 분포 데이터를 증폭하는 다양한 오버 샘플링(Over Sampling) 방법들이 제안되고 있다. 이 가운데 SMOTE는 가장 대표적인 방법으로 소수 분포 데이터의 증폭 효과를 극대화하기 위해 데이터에 포함된 잡음을 제거(SMOTE-IPF)하거나, 경계선만을 강화(Borderline SMOTE) 시키는 다양한 방법들이 출현하였다. 이 논문은 소수분류 데이터를 증폭하는 전통적인 SMOTE 방법에서 이상데이터(Anomaly Data)에 대한 처리방법개선을 통해 궁극적으로 분류성능을 높이는 방법을 제안한다. 제안 방법은 실험을 통해 기존 방법에 비해 상대적으로 높은 분류성능을 일관성 있게 제시하였다.

물 공급 시설의 신뢰성 있는 운영 계획 수립을 위한 가뭄 유입량 증강 기법의 제안 (Proposal of Augmented Drought Inflow to Search Reliable Operational Policies for Water Supply Infrastructures)

  • 지수광;안국현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.189-189
    • /
    • 2022
  • 물 공급 시설의 효율적이고 안정적인 운영을 위한 운영 계획의 수립 및 검증을 위해서는 장기간의 유입량 자료가 필요하다. 하지만, 현실적으로 얻을 수 있는 실측 자료는 제한적이며, 유입량이 부족하여 댐 운영에 영향을 미치는 자료는 더욱 적을 수밖에 없다. 이를 개선하고자 장기간의 모의 유입량을 생성해 운영 계획을 수립하는 방법이 종종 사용되지만, 실측 자료를 기반으로 모의하기 때문에 이 역시 가뭄의 빈도가 낮아, 장기 가뭄이나 짧은 간격으로 가뭄이 발생할 시 안정적인 운영이 어렵다. 본 연구에서는 장기 가뭄 발생 시에도 안정적인 물 공급이 가능한 운영 계획 수립을 위해 가뭄 빈도를 증가시킨 유입량 모의 기법을 제안하고자 한다. 제안하는 모의 기법은 최근 머신러닝에서 사용되는 SMOTE 알고리즘을 기반으로 한다. SMOTE 알고리즘은 데이터의 불균형을 처리하기 위한 오버 샘플링 기법으로, 소수 그룹을 단순 복제하지 않고 새로운 복제본을 생성해 과적합의 위험이 적으며, 원자료의 정보가 손실되지 않는 장점이 있다. 본 연구에서는 미국 캘리포니아주에 위치한 Folsom 댐을 대상으로 고빈도 가뭄 유입량을 모의했으며, 고빈도 가뭄 유입량을 사용한 운영 계획을 수립하였다. Folsom 댐의 과거 관측 유입량 자료를 기반으로 고빈도 가뭄 유입량을 사용한 운영 계획과 일반적인 가뭄 빈도의 유입량을 사용한 운영 계획을 적용했을 때 발생하는 공급 부족량과 과잉 방류량의 차이를 비교해 고빈도 가뭄 유입량의 사용이 물 공급 시설의 안정적인 운영에 끼치는 영향을 확인하고자 한다.

  • PDF

유전 알고리즘 기반의 비정상 행위 탐지를 위한 특징선택 (Feature Selection for Anomaly Detection Based on Genetic Algorithm)

  • 서재현
    • 한국융합학회논문지
    • /
    • 제9권7호
    • /
    • pp.1-7
    • /
    • 2018
  • 데이터 전처리 기법 중 하나인 특징 선택은 대규모 데이터셋을 다루는 다양한 응용분야에서 주요 연구 분야 중 하나로 각광받고 있다. 특징 선택은 패턴 인식, 기계학습 및 데이터 마이닝에서 사용됐고, 최근에는 텍스트 분류, 이미지 검색, 침입 탐지 및 게놈 분석과 같은 다양한 분야에 널리 적용되고 있다. 제안 방법은 메타 휴리스틱 알고리즘 중의 하나인 유전 알고리즘을 기반으로 한다. 특징 부분 집합을 찾는 방법은 크게 필터(filter) 방법과 래퍼(wrapper) 방법이 있는데, 본 연구에서는 최적의 특징 부분 집합을 찾기 위해 실제 분류기를 사용한 평가를 하는 래퍼 방법을 사용한다. 실험에 사용한 훈련 데이터셋은 클래스 불균형이 심하여 희소클래스에 대한 분류 성능을 높이기 어렵다. SMOTE 기법을 적용한 훈련 데이터셋을 사용하여 특징 선택을 하고 다양한 기계학습 알고리즘을 사용하여 선택한 특징들의 성능을 평가한다.

불균형 데이터를 갖는 냉동 컨테이너 고장 판별 및 원인 분석을 위한 기계학습 모형 개발 (Development of machine learning model for reefer container failure determination and cause analysis with unbalanced data)

  • 이희원;박성호;이승현;이승재;이강배
    • 한국융합학회논문지
    • /
    • 제13권1호
    • /
    • pp.23-30
    • /
    • 2022
  • 냉동 컨테이너의 고장은 큰 비용의 손실을 야기하지만, 현재 냉동 컨테이너의 알람 체계는 효율성이 떨어진다. 기존에 냉동 시스템의 시뮬레이션 데이터를 활용한 연구는 존재하지만, 냉동 컨테이너의 실제 운영 데이터를 활용한 연구는 부족하다. 이에 본 연구는 실제 냉동 컨테이너 운영 데이터를 활용하여 고장 원인을 분류하였다. 실제 데이터에서는 데이터 불균형이 발생하였으며 ENN-SMOTE, 클래스 가중치를 둔 Logistic 회귀분석과 본 연구에서 개발한 2-stage 알고리즘을 비교하여 데이터 불균형문제를 해결하였다. 2-stage 알고리즘은 XGboost, LGBoost, DNN을 사용하여 첫 번째 단계에서는 고장 및 정상을 분류하고, 두 번째 단계에서는 고장의 원인을 분류하는 알고리즘이다. 2-stage 알고리즘에서 LGBoost를 사용한 모델이 99.16%의 정확도로 가장 우수하였다. 본 연구는 데이터 불균형을 해결하기 위해 2-stage 알고리즘을 활용한 최종모델을 제안하며 이는 다른 산업에도 활용할 수 있을 것으로 사료된다.

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

머신러닝 CatBoost 다중 분류 알고리즘을 이용한 조류 발생 예측 모형 성능 평가 연구 (Evaluation of Multi-classification Model Performance for Algal Bloom Prediction Using CatBoost)

  • 김준오;박정수
    • 한국물환경학회지
    • /
    • 제39권1호
    • /
    • pp.1-8
    • /
    • 2023
  • Monitoring and prediction of water quality are essential for effective river pollution prevention and water quality management. In this study, a multi-classification model was developed to predict chlorophyll-a (Chl-a) level in rivers. A model was developed using CatBoost, a novel ensemble machine learning algorithm. The model was developed using hourly field monitoring data collected from January 1 to December 31, 2015. For model development, chl-a was classified into class 1 (Chl-a≤10 ㎍/L), class 2 (10<Chl-a≤50 ㎍/L), and class 3 (Chl-a>50 ㎍/L), where the number of data used for the model training were 27,192, 11,031, and 511, respectively. The macro averages of precision, recall, and F1-score for the three classes were 0.58, 0.58, and 0.58, respectively, while the weighted averages were 0.89, 0.90, and 0.89, for precision, recall, and F1-score, respectively. The model showed relatively poor performance for class 3 where the number of observations was much smaller compared to the other two classes. The imbalance of data distribution among the three classes was resolved by using the synthetic minority over-sampling technique (SMOTE) algorithm, where the number of data used for model training was evenly distributed as 26,868 for each class. The model performance was improved with the macro averages of precision, rcall, and F1-score of the three classes as 0.58, 0.70, and 0.59, respectively, while the weighted averages were 0.88, 0.84, and 0.86 after SMOTE application.

SVM 기반 Bagging과 OoD 탐색을 활용한 제조공정의 불균형 Dataset에 대한 예측모델의 성능향상 (Boosting the Performance of the Predictive Model on the Imbalanced Dataset Using SVM Based Bagging and Out-of-Distribution Detection)

  • 김종훈;오하영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권11호
    • /
    • pp.455-464
    • /
    • 2022
  • 제조업의 공정에서 생성되는 데이터셋은 크게 두 가지 특징을 가진다. 타겟 클래스의 심각한 불균형과 지속적인 Out-of-Distribution(OoD) 샘플의 발생이다. 클래스 불균형은 SMOTE 및 다양한 샘플링 전략을 통해서 대응할 수 있다. 그러나, OoD 탐색은 현재까지 인공신경망 영역에서만 다뤄져 왔다. OoD 탐색의 적용이 가능한 인공신경망은 제조공정 데이터셋에 대해서 만족스러운 성능을 발현하지 못한다. 원인은 제조공정의 데이터셋이 인공신경망에서 일반적으로 다루는 이미지, 텍스트 데이터셋과 비교해서 크기가 매우 작고, 노이즈가 심하다는 것이다. 또한 인공신경망의 과적합(overfitting) 문제도 제조업 데이터셋에서 인공신경망의 성능을 저하하는 원인으로 지적된다. 이에 현재까지 시도된 바 없는 SVM 알고리즘과 OoD 탐색의 접목을 시도하였다. 또한 예측모델의 정밀도 향상을 위해 배깅(Bagging) 알고리즘을 모델링에 반영하였다.