• 제목/요약/키워드: SMOTE 기법

검색결과 27건 처리시간 0.023초

불균형 정형 데이터를 위한 SMOTE와 변형 CycleGAN 기반 하이브리드 오버샘플링 기법 (A Hybrid Oversampling Technique for Imbalanced Structured Data based on SMOTE and Adapted CycleGAN)

  • 노정담;최병구
    • 경영정보학연구
    • /
    • 제24권4호
    • /
    • pp.97-118
    • /
    • 2022
  • 이미지와 같은 비정형 데이터의 불균형 클래스 문제 해결에 있어 생산적 적대 신경망(generative adversarial network)에 기반한 오버샘플링 기법의 우수성이 알려짐에 따라 다양한 연구들이 이를 정형 데이터의 불균형 문제 해결에도 적용하기 시작하였다. 그러나 이러한 연구들은 데이터의 형태를 비정형 데이터 구조로 변경함으로써 정형 데이터의 특징을 정확하게 반영하지 못한다는 점이 문제로 지적되고 있다. 본 연구에서는 이를 해결하기 위해 순환 생산적 적대 신경망(cycle GAN)을 정형 데이터의 구조에 맞게 재구성하고 이를 SMOTE(synthetic minority oversampling technique) 기법과 결합한 하이브리드 오버샘플링 기법을 제안하였다. 특히 기존 연구와 달리 생산적 적대 신경망을 구성함에 있어 1차원 합성곱 신경망(1D-convolutional neural network)을 사용함으로써 기존 연구의 한계를 극복하고자 하였다. 본 연구에서 제안한 기법의 성능 비교를 위해 불균형 정형 데이터를 기반으로 오버샘플링을 진행하고 그 결과를 SMOTE, ADASYN(adaptive synthetic sampling) 등과 같은 기존 기법과 비교하였다. 비교 결과 차원이 많을수록, 불균형 정도가 심할수록 제안된 모형이 우수한 성능을 보이는 것으로 나타났다. 본 연구는 기존 연구와 달리 정형 데이터의 구조를 유지하면서 소수 클래스의 특징을 반영한 오버샘플링을 통해 분류의 성능을 향상시켰다는 점에서 의의가 있다.

SMOTE와 분류 기법을 활용한 산사태 위험 지역 결정 방법 (Method for Assessing Landslide Susceptibility Using SMOTE and Classification Algorithms)

  • 윤형구
    • 한국지반공학회논문집
    • /
    • 제39권6호
    • /
    • pp.5-12
    • /
    • 2023
  • 산사태 위험 지역을 사전에 조사하여 설정하는 것은 다수의 피해를 줄이기 위해 필요하다. 해당 연구의 목적은 machine learning 기법 중 분류 알고리즘을 활용하여 대상 지반의 안전율 분류를 수행할 수 있는 방법론을 제시하는 것이다. 산사태 위험 지역은 high risk area(HRA) 모델을 적용하였으며, 8개의 지반공학 물성치를 통해 위험 지역을 판단하였다. 분류 알고리즘은 decision tree(DT), K-Nearest Neighbor(KNN), logistic regression(LR) 그리고 random forest(RF)의 4가지가 활용 되었으며, 안전율 1.2~2.0 범위에 8가지 지반공학 물성치의 분류 정확도를 계산하였다. 정확도는 안전율이 1.2~1.7 범위에서 신뢰성 높게 나타났지만, 그 외 범위인 1.8~2.0 사이에서는 상대적으로 낮은 정확도를 보였다. 이를 극복하기 위하여 synthetic minority over-sampling technique(SMOTE) 알고리즘을 적용하여 데이터 개수를 증폭하였으며, 증폭한 데이터를 통해 분류 알고리즘을 적용하면 안전율 1.8~2.0 범위에서 정확도가 평균적으로 약 250% 증가한 것으로 나타났다. 해당 연구 결과는 SMOTE 알고리즘이 데이터 개수를 향상시켜 분류 알고리즘의 정확도가 개선된 것을 보여주며, 타 분야에도 정확도 향상에 적용 가능하다고 판단된다.

P2P 대부 우수 대출자 예측을 위한 합성 소수집단 오버샘플링 기법 성과에 관한 탐색적 연구 (Exploring the Performance of Synthetic Minority Over-sampling Technique (SMOTE) to Predict Good Borrowers in P2P Lending)

  • 프란시스 조셉 코스텔로;이건창
    • 디지털융복합연구
    • /
    • 제17권9호
    • /
    • pp.71-78
    • /
    • 2019
  • 본 연구는 P2P 대부 플랫폼에서 우수 대출자를 예측시 유용한 합성 소수집단 오버샘플링 기법을 제안하고 그 성과를 실증적으로 검증하고자 한다. P2P 대부 관련 우수 대출자를 추정할 때 일어나는 문제점중의 하나는 클래스 간 불균형이 심하여 이를 해결하지 않고서는 우수 대출자 예측이 쉽지 않다는 점이다. 이러한 문제를 해결하기 위하여 본 연구에서는 SMOTE, 즉 합성 소수집단 오버샘플링 기법을 제안하고 LendingClub 데이터셋에 적용하여 성과를 검증하였다. 검증결과 SMOTE 방법은 서포트 벡터머신, k-최근접이웃, 로지스틱 회귀, 랜덤 포레스트, 그리고 딥 뉴럴네트워크 분류기와 비교하여 통계적으로 우수한 성과를 보였다.

불균형 데이터 처리를 통한 머신러닝 기반 TBM 굴진율 이상탐지 개선 (Enhancing machine learning-based anomaly detection for TBM penetration rate with imbalanced data manipulation)

  • 권기범;황병현;박현태;오주영;최항석
    • 한국터널지하공간학회 논문집
    • /
    • 제26권5호
    • /
    • pp.519-532
    • /
    • 2024
  • TBM (tunnel boring machine) 터널 프로젝트의 리스크 관리 측면에서 굴진율 예측은 중요하며, 이를 위한 머신러닝 기반 TBM 굴진율 예측 연구가 지속적으로 진행되어 왔다. 그러나, 기존 연구의 머신러닝 예측 모델은 정상 굴진율과 이상 굴진율 간의 불균형 데이터를 고려하는 데 한계가 있다. 본 연구에서는 데이터 증강 기법을 통해 불균형 데이터를 처리하여 머신러닝 기반 TBM 굴진율 이상탐지 성능을 개선하였다. 먼저, 상관관계 분석을 통해 유사 변수를 제거하여 6가지 입력특성을 선정하였다. 또한, 하위 10%와 상위 10%의 굴진율을 각각 이상 등급으로, 그 외 범위의 굴진율을 정상 등급으로 굴진율 등급을 구분하였다. 기존 학습 데이터와 SMOTE (synthetic minority oversampling technique)를 통해 증강된 학습 데이터를 각각 XGB (extreme gradient boosting)에 적용한 XGB 모델과 XGB-SMOTE 모델을 구축하였다. 굴진율 등급 예측 성능을 비교한 결과, XGB 모델은 정상 굴진율에 대한 예측 성능은 우수하나 이상 굴진율 예측 성능은 상대적으로 낮게 도출되었다. 반면, XGB-SMOTE 모델은 모든 굴진율 등급에서 일관되게 우수한 예측 성능을 보였다. 이는 SMOTE를 통한 이상 굴진율 데이터의 증강이 이상 굴진율을 유발하는 지반조건과 TBM 운영인자 간의 패턴 학습 수준을 향상시켰기 때문으로 판단된다. 결론적으로, 본 연구는 머신러닝 기반 TBM 굴진율 이상탐지 시 데이터 증강 기법을 활용한 불균형 데이터 처리가 효과적임을 보여준다.

단어선택과 SMOTE 알고리즘을 이용한 불균형 텍스트 데이터의 소수 범주 예측성능 향상 기법 (Improving minority prediction performance of support vector machine for imbalanced text data via feature selection and SMOTE)

  • 김종찬;장성준;손원
    • 응용통계연구
    • /
    • 제37권4호
    • /
    • pp.395-410
    • /
    • 2024
  • 텍스트 데이터는 일반적으로 많은 다양한 단어들로 구성되어 있다. 평범한 텍스트 데이터의 경우에도 수만 개의 서로 다른 단어들을 포함하고 있는 경우를 흔히 관찰할 수 있으며 방대한 양의 텍스트 데이터에서는 수십만 개에 이르는 고유한 단어들이 포함되어 있는 경우도 있다. 텍스트 데이터를 전처리하여 문서-단어 행렬을 만드는 경우 고유한 단어를 하나의 변수로 간주하게 되는데 이렇게 많은 단어들을 각각 하나의 변수로 간주한다면 텍스트 데이터는 매우 많은 변수를 가진 데이터로 볼 수 있다. 한편, 텍스트 데이터의 분류 문제에서는 분류의 목표변수가 되는 범주의 비중에 큰 차이가 나는 불균형 데이터 문제를 자주 접하게 된다. 이렇게 범주의 비중에 큰 차이가 있는 불균형 데이터의 경우에는 일반적인 분류모형의 성능이 크게 저하될 수 있다는 사실이 잘 알려져 있다. 따라서 불균형 데이터에서의 분류 성능을 개선하기 위해 소수집단의 관측값들을 합성하여 소수집단에 포함되는 새로운 관측값을 생성하는 합성과표집기법(synthetic over-sampling technique; SMOTE) 등의 알고리즘을 적용할 수 있다. SMOTE는 k-최근접이웃(k-nearset neighbor; kNN) 알고리즘을 이용하여 새로운 합성 데이터를 생성하는데 텍스트 데이터와 같이 많은 변수를 가진 데이터의 경우에는 오차가 누적되어 kNN의 성능에 문제가 생길 수 있다. 이 논문에서는 변수선택을 통해 변수가 많은 불균형 텍스트 데이터를 오차가 축소된 공간에 표현하고 이 공간에서 새로운 합성 관측값을 생성하여 불균형 텍스트 데이터에서 소수 범주에 대한 SVM 분류모형의 예측 성능을 향상시키는 방법을 제안한다.

인공신경망 및 랜덤포레스트 기법을 활용한 기업 분식회계 탐지 성능 평가 연구 (A Study on Accounting Fraud Detection using Neural Network and Random Forest)

  • 황동혁;서영석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.692-693
    • /
    • 2023
  • ESG 경영이 중요해짐에 따라 기업의 분식 여부도 중요해졌다. 따라서 본 논문에서는 인공신경망과 랜덤포레스트를 활용하여 기업의 분식회계 여부를 판단 성능을 비교분석하고 그 유용성에 대해 평가하였다. 실제 기업 회계정보를 수집하여 실험을 수행하였고, 실험 결과 F1-Score 기준 랜덤포레스트의 RFECV 기법이 0.81로 분식 기업을, SMOTE 기법을 사용한 모델이 정상 기업을 탐지하였고 Accuracy 기준 랜덤포레스트의 RFECV 기법과 SMOTE 기법을 사용한 모델이 0.77로 가장 효과적인 탐지 성능을 보여주었다.

SMOTE와 Light GBM 기반의 불균형 데이터 개선 기법 (Imbalanced Data Improvement Techniques Based on SMOTE and Light GBM)

  • 한영진;조인휘
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권12호
    • /
    • pp.445-452
    • /
    • 2022
  • 디지털 세상에서 불균형 데이터에 대한 클래스 분포는 중요한 부분이며 사이버 보안에 큰 의미를 차지한다. 불균형 데이터의 비정상적인 활동을 찾고 문제를 해결해야 한다. 모든 트랜잭션의 패턴을 추적할 수 있는 시스템이 필요하지만, 일반적으로 패턴이 비정상인 불균형 데이터로 기계학습을 하면 소수 계층에 대한 성능은 무시되고 저하되며 예측 모델은 부정확하게 편향될 수 있다. 본 논문에서는 불균형 데이터 세트를 해결하기 위한 접근 방식으로 Synthetic Minority Oversampling Technique(SMOTE)와 Light GBM 알고리즘을 이용하여 추정치를 결합하여 대상 변수를 예측하고 정확도를 향상시켰다. 실험 결과는 Logistic Regression, Decision Tree, KNN, Random Forest, XGBoost 알고리즘과 비교하였다. 정확도, 재현율에서는 성능이 모두 비슷했으나 정밀도에서는 2개의 알고리즘 Random Forest 80.76%, Light GBM 97.16% 성능이 나왔고, F1-score에서는 Random Forest 84.67%, Light GBM 91.96% 성능이 나왔다. 이 실험 결과로 Light GBM은 성능이 5개의 알고리즘과 비교하여 편차없이 비슷하거나 최대 16% 향상됨을 접근 방식으로 확인할 수 있었다.

데이터 전처리와 앙상블 기법을 통한 불균형 데이터의 분류모형 비교 연구 (A Comparison of Ensemble Methods Combining Resampling Techniques for Class Imbalanced Data)

  • 이희재;이성임
    • 응용통계연구
    • /
    • 제27권3호
    • /
    • pp.357-371
    • /
    • 2014
  • 최근 들어 데이터 마이닝의 분류문제에 있어 목표변수의 불균형 문제가 많은 관심을 받고 있다. 이러한 문제를 해결하기 위해, 이전 연구들은 원 자료에 대하여 데이터 전처리 과정을 실시했는데, 전처리 과정에는 목표변수의 다수계급을 소수계급의 비율에 맞게 조정하는 과소표집법, 소수계급을 복원추출하여 다수계급의 비율에 맞게 조정하는 과대표집법, 소수계급에 K-최근접 이웃 방법 등을 활용하여 과대표집법을 적용 후 다수계급에는 과소표집법을 적용한 하이브리드 기법 등이 있다. 또한 앙상블 기법도 이러한 불균형 데이터의 분류 성능을 높일 수 있다고 알려져 있어, 본 논문에서는 데이터의 전처리 과정과 앙상블 기법을 함께 고려한 여러 모형들을 사용하여, 불균형 자료에 대한 이들모형의 분류성능을 비교평가한다.

SMOTE를 이용한 편중된 횡 분산계수 데이터에 대한 추정식 개발 (Development of empirical formula for imbalanced transverse dispersion coefficient data set using SMOTE)

  • 이선미;윤태원;박인환
    • 한국수자원학회논문집
    • /
    • 제54권12호
    • /
    • pp.1305-1316
    • /
    • 2021
  • 본 연구에서는 과거 추적자실험결과를 이용하여 2차원 횡분산계수에 대한 새로운 추정식을 개발하고 추정식을 이용한 횡 분산계수 산정결과의 정확도를 검증했다. 다수의 추적자실험이 하폭 대 수심비가 50보다 작은 조건에서 수행되었기 때문에 기존 추적자실험결과만을 이용하여 개발한 추정식은 하폭 대 수심비가 50보다 큰 조건의 하천에 적용하는데 한계를 보인다. 따라서 특정 수리조건에 편중된 횡 분산계수 자료로부터 횡 분산계수 추정식을 개발하기 위해 SMOTE (Synthetic Minority Oversampling TEchnique)를 적용하여 기존 자료의 특성을 반영한 새로운 데이터를 생성했다. SMOTE 기법으로 하폭 대 수심비가 50보다 큰 조건에 대한 수리량과 횡 분산계수 데이터를 생성하였으며, ROC (Receiver Operating Characteristic) 곡선으로부터 생성된 데이터의 신뢰성을 검증했다. 새롭게 생성된 데이터를 포함하여 횡 분산계수 추정식을 개발했고, 추정식을 이용하여 계산한 횡 분산계수의 R2(결정계수)를 계산하여 기존 연구에서 제안한 추정식과의 정확도를 비교했다. 그 결과, 본 연구에서 개발한 추정식을 이용하여 계산한 횡 분산계수의 R2가 W/H < 50인 조건에서 0.81, 50 < W/H 인 조건에서 0.92를 나타내어 기존 추정식과 비교하여 향상된 정확도를 나타냈다.

물 공급 시설의 신뢰성 있는 운영 계획 수립을 위한 가뭄 유입량 증강 기법의 제안 (Proposal of Augmented Drought Inflow to Search Reliable Operational Policies for Water Supply Infrastructures)

  • 지수광;안국현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.189-189
    • /
    • 2022
  • 물 공급 시설의 효율적이고 안정적인 운영을 위한 운영 계획의 수립 및 검증을 위해서는 장기간의 유입량 자료가 필요하다. 하지만, 현실적으로 얻을 수 있는 실측 자료는 제한적이며, 유입량이 부족하여 댐 운영에 영향을 미치는 자료는 더욱 적을 수밖에 없다. 이를 개선하고자 장기간의 모의 유입량을 생성해 운영 계획을 수립하는 방법이 종종 사용되지만, 실측 자료를 기반으로 모의하기 때문에 이 역시 가뭄의 빈도가 낮아, 장기 가뭄이나 짧은 간격으로 가뭄이 발생할 시 안정적인 운영이 어렵다. 본 연구에서는 장기 가뭄 발생 시에도 안정적인 물 공급이 가능한 운영 계획 수립을 위해 가뭄 빈도를 증가시킨 유입량 모의 기법을 제안하고자 한다. 제안하는 모의 기법은 최근 머신러닝에서 사용되는 SMOTE 알고리즘을 기반으로 한다. SMOTE 알고리즘은 데이터의 불균형을 처리하기 위한 오버 샘플링 기법으로, 소수 그룹을 단순 복제하지 않고 새로운 복제본을 생성해 과적합의 위험이 적으며, 원자료의 정보가 손실되지 않는 장점이 있다. 본 연구에서는 미국 캘리포니아주에 위치한 Folsom 댐을 대상으로 고빈도 가뭄 유입량을 모의했으며, 고빈도 가뭄 유입량을 사용한 운영 계획을 수립하였다. Folsom 댐의 과거 관측 유입량 자료를 기반으로 고빈도 가뭄 유입량을 사용한 운영 계획과 일반적인 가뭄 빈도의 유입량을 사용한 운영 계획을 적용했을 때 발생하는 공급 부족량과 과잉 방류량의 차이를 비교해 고빈도 가뭄 유입량의 사용이 물 공급 시설의 안정적인 운영에 끼치는 영향을 확인하고자 한다.

  • PDF