• 제목/요약/키워드: 범주 불균형

검색결과 35건 처리시간 0.021초

비대칭 마진 SVM 최적화 모델을 이용한 기업부실 예측모형의 범주 불균형 문제 해결 (Optimization of Uneven Margin SVM to Solve Class Imbalance in Bankruptcy Prediction)

  • 조성임;김명종
    • 경영정보학연구
    • /
    • 제24권4호
    • /
    • pp.23-40
    • /
    • 2022
  • Support Vector Machine(SVM)은 기업부실 예측문제 등 다양한 분야에서 성공적으로 활용되어 왔으나 범주 불균형 문제가 존재하는 경우 다수 범주의 경계영역은 확장되는 반면, 소수 범주의 경계영역은 축소되고 분류 경계선이 소수 범주로 편향되어 분류 성과에 부정적인 영향을 미치는 것으로 보고되고 있다. 본 연구는 범주 불균형 문제에 대한 대칭 마진 SVM(EMSVM)의 한계점을 개선하기 위하여 비대칭 마진 SVM(UMSVM)과 임계점 이동 기법을 결합한 최적화 비대칭 마진 SVM인 OPT-UMSVM을 제안한다. OPT-UMSVM은 소수 범주 방향으로 치우진 분류 경계선을 다수 범주로 재이동함으로써 소수 범주의 민감도를 개선하고 최적화된 분류 성과를 산출함으로써 SVM의 일반화 능력을 향상시키는 장점을 가진다. OPT-UMSVM의 성과 개선 효과를 검증하기 위하여 불균형 비율이 상이한 5개의 표본군을 구성하여 10-fold 교차타당성 검증을 수행한 결과는 다음과 같다. 첫째, 범주 불균형이 미미한 표본에서 UMSVM은 EMSVM의 성과 개선 효과가 미약한 반면, 범주 불균형이 심화된 표본에서 UMSVM은 EMSVM의 성과개선에 크게 공헌하고 있다. 둘째, OPT-UMSVM은 EMSVM 및 기존의 UMSVM과 비교하여 범주 균형 및 범주 불균형 표본 모두에서 보다 우수한 성과를 가지고 있으며, 특히 범주 불균형이 심화된 표본에서 유의적인 성과 차이를 보였다.

데이터 불균형 해결을 위한 Under-Sampling 기반 앙상블 SVMs (EUS SVMs: Ensemble of Under-Sampled SVMs for Data Imbalance Problems)

  • 강필성;조성준
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2006년도 춘계공동학술대회 논문집
    • /
    • pp.291-298
    • /
    • 2006
  • 패턴인식 문제에서 한 범주에 속한 데이터의 수가 다른 범주에 속한 데이터의 수보다 극히 많거나 적으면 데이터 불균형이 발생했다고 한다. Support Vector Machine(SVM)은 다른 기계 학습 알고리즘들과 마찬가지로 학습에 사용되는 데이터의 범주간 비율이 거의 비슷하다는 가정 하에서 학습을 하고 예측 결과를 도출하게 된다. 그러나 실제 문제에서는 데이터의 불균형이 발생하는 경우가 매우 빈번하며, 이러한 경우에는 모델의 성능이 매우 저하되는 문제점이 발생한다. 본 논문에서는 실제로 데이터 불균형이 SVM의 분류 결과에 어떠한 영향을 미치는지를 2차원 인공 데이터를 통하여 알아본다. 그리고 이러한 데이터 불균형을 해소하기 위하여 Under-Sampling 기반 앙상블 SVM을 제안하였다. 제안된 방법을 두 가지 인공 데이터에 적용하여 본 결과, 제안된 방법은 데이터 불균형을 해소하기 위해 사용되는 기존의 방법들에 비하여 소수 범주에 속하는 데이터의 수가 매우 적고 데이터의 불균형이 매우 심한 경우에도 높은 성능과 안정성을 갖는 효과적인 방법이라는 것이 입증되었다.

  • PDF

분류 복잡도를 활용한 오버 샘플링 비율 산출 알고리즘 개발 (A Study on Calculating Over-sampling Ratio using Classification Complexity)

  • 이도현;김경옥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.591-594
    • /
    • 2020
  • 불균형 데이터는 범주에 따른 데이터의 분포가 불균형한 데이터를 의미한다. 이런 데이터를 활용해 기존 분류 알고리즘으로 분류기를 학습하면 성능이 저하되는 문제가 발생한다. 오버 샘플링은 이를 해결하기 위한 기법 중 하나로 수가 적은 범주[이하 소수 범주]에 속한 데이터 수를 임의로 증가시킨다. 기존 연구들에서는 수가 많은 범주[이하 다수 범주]에 속한 데이터 수와 동일한 크기만큼 증가시키는 경우가 많다. 이는 증가시키는 샘플의 수를 결정할 때 범주 간 데이터 수 비율만 고려한 것이다. 그런데 데이터가 동일한 수준의 불균형 정도를 갖더라도 범주별 데이터 분포에 따라서 분류 복잡도가 다르며, 경우에 따라 데이터 분포에서 존재하는 불균형 정도를 완전히 해소하지 않아도 된다. 이에 본 논문은 분류 복잡도를 활용해 데이터 셋 별 적정 오버 샘플링 비율을 산출하는 알고리즘을 제안한다.

기업부도 예측 앙상블 모형의 최적화 (The Optimization of Ensembles for Bankruptcy Prediction)

  • 김명종;윤우섭
    • 경영정보학연구
    • /
    • 제24권1호
    • /
    • pp.39-57
    • /
    • 2022
  • 본 연구에서는 범주 불균형 문제가 내재된 기업부도 예측 AdaBoost 앙상블 모형의 성과를 개선하기 위하여 GMOPTBoost 알고리즘을 제안한다. AdaBoost 알고리즘은 오분류 표본에 대하여 강건한 학습기회를 제공한다는 장점이 있지만, 산술평균 정확도에 기반하기 때문에 범주 불균형 문제를 효과적으로 해결하지 못한다는 한계점이 존재한다. GMOPTBoost는 가우시안 경사하강법(Gaussian gradient descent)을 적용하여 기하평균 정확도를 최적화하고 범주 불균형 문제를 효과적으로 해결할 수 있다는 장점이 있다. 본 연구에서는 첫째, 범주 불균형 문제가 예측 모형의 성과에 미치는 효과와 GMOPTBoost의 성과 개선 효과를 검증하기 위하여 5개의 범주 불균형 데이터를 구성하였으며, 둘째, 범주 균형 데이터에 대한 GMOPTBoost의 성과 개선 효과를 검증하기 위하여 데이터 샘플링 기법을 통하여 구성된 균형 데이터를 구성하였다. 30회의 교차타당성 분석의 주요 결과는 다음과 같다. 첫째, 범주 불균형 문제는 예측 성과에 부정적인 영향을 미친다. 둘째, GMOPTBoost는 불균형 데이터에 적용된 AdaBoost의 성과를 유의적으로 개선시키는 긍정적인 효과를 제공한다. 셋째, 데이터 샘플링 기법은 성과 개선에 긍정적인 영향을 미친다. 마지막으로 데이터 샘플링 기법을 적용한 범주 균형 데이터에서도 GMOPTBoost는 유의적인 성과 개선에 기여한다.

불균형 범주 분류를 위한 동적 샘플링 스케줄러 (Dynamic Sampling Scheduler for Unbalanced Data Classification)

  • 성수진;박원주;이용태;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.221-226
    • /
    • 2021
  • 우리는 범주 불균형 분류 문제를 해결하기 위해 학습 과정 중 범주 크기 기반 배치 샘플링 방법 전환을 위한 스케줄링 방법을 제안한다. 범주별 샘플링 확률로 범주 크기의 역수(LWRS-Reciporcal)와 범주 비율의 반수(LWRS-Ratio)를 적용하여 각각 실험을 진행하였고, LWRS-Reciporcal 방법이 F1 성능 개선에 더 효과적인 것을 확인하였다. 더하여 고정된 샘플링 확률값으로 인해 발생할 수 있는 또 다른 편향 문제를 완화하기 위해 학습 과정 중 샘플링 방법을 전환하는 스케줄링 방법을 설계하였다. 결과적으로 검증 성능의 갱신 유무로 샘플링 방법을 전환하였을 때 naver shopping 데이터셋과 KLUE-TC에 대하여 f1 score와 accuracy의 성능 합이 베이스라인보다 각각 0.7%, 0.8% 향상된 가장 이상적인 성능을 보임을 확인하였다.

  • PDF

불균형자료를 위한 판별분석에서 HDBSCAN의 활용 (Discriminant analysis for unbalanced data using HDBSCAN)

  • 이보희;김태헌;최용석
    • 응용통계연구
    • /
    • 제34권4호
    • /
    • pp.599-609
    • /
    • 2021
  • 군집간의 개체 수의 차이가 큰 자료들을 불균형자료라고 한다. 불균형자료의 판별분석에서 다수 범주의 개체를 잘 분류하는 것 보다 소수 범주의 개체를 잘 분류하는 것이 더 중요하다. 그러나 개체 수가 상대적으로 작은 소수 범주의 개체를 개체 수가 상대적으로 많은 다수 범주의 개체로 오분류하는 경우가 많다. 본 연구에서는 이를 해결하기 위해 HDBSCAN과 SMOTE를 결합한 방법을 제안한다. HDBSCAN을 이용하여 소수 범주의 노이즈와 다수 범주의 노이즈를 제거하고 SMOTE를 적용하여 새로운 자료를 만들어낸다. 기존의 방법들과 성능을 비교하기 위하여 AUC와 F1 점수를 이용하였고 그 결과 대부분의 경우에 HDBSCAN과 SMOTE를 결합한 방법이 높은 성능 지표를 보였고, 불균형자료를 분류하는데 있어 뛰어난 방법으로 나타났다.

텍스트 데이터의 정보 손실을 방지하기 위한 군집화 기반 언더샘플링 기법 (A Clustering-based Undersampling Method to Prevent Information Loss from Text Data)

  • 김종휘;신사임;장진예
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-256
    • /
    • 2022
  • 범주 불균형은 분류 모델이 다수 범주에 편향되게 학습되어 소수 범주에 대한 분류 성능을 떨어뜨리는 문제를 야기한다. 언더 샘플링 기법은 다수 범주 데이터의 수를 줄여 소수 범주와 균형을 이루게하는 대표적인 불균형 해결 방법으로, 텍스트 도메인에서의 기존 언더 샘플링 연구에서는 단어 임베딩과 랜덤 샘플링과 같은 비교적 간단한 기법만이 적용되었다. 본 논문에서는 트랜스포머 기반 문장 임베딩과 군집화 기반 샘플링 방법을 통해 텍스트 데이터의 정보 손실을 최소화하는 언더샘플링 방법을 제안한다. 제안 방법의 검증을 위해, 감성 분석 실험에서 제안 방법과 랜덤 샘플링으로 추출한 훈련 세트로 모델을 학습하고 성능을 비교 평가하였다. 제안 방법을 활용한 모델이 랜덤 샘플링을 활용한 모델에 비해 적게는 0.2%, 많게는 2.0% 높은 분류 정확도를 보였고, 이를 통해 제안하는 군집화 기반 언더 샘플링 기법의 효과를 확인하였다.

  • PDF

기업부실 예측 데이터의 불균형 문제 해결을 위한 앙상블 학습 (Ensemble Learning for Solving Data Imbalance in Bankruptcy Prediction)

  • 김명종
    • 지능정보연구
    • /
    • 제15권3호
    • /
    • pp.1-15
    • /
    • 2009
  • 데이터 불균형 문제는 분류 및 예측 문제에서 하나의 범주에 속하는 표본의 수가 다른 범주들에 속하는 표본 수에 비하여 현저하게 적을 경우 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류 경계영역이 왜곡되고 결과적으로 분류자의 학습성과가 저하되는 문제가 발생한다. 본 연구에서는 데이터 불균형 문제를 해결하기 위하여 Geometric Mean-based Boosting (GM-Boost) 알고리즘을 제안하고자 한다. GM-Boost 알고리즘은 기하평균 개념에 기초하고 있어 다수 범주와 소수 범주를 동시에 고려한 학습이 가능하고 오분류된 표본에 집중하여 학습을 강화할 수 있는 장점이 있다. 기업부실 예측문제를 활용하여 GM-Boost 알고리즘의 성과를 검증한 결과 기존의Under-Sampling, Over-Sampling 및 AdaBoost 알고리즘에 비하여 우수한 분류 정확성을 보여주었고 데이터 불균형 정도에 관계없이 견고한 학습성과를 나타냈다.

  • PDF

유전자 알고리즘을 활용한 데이터 불균형 해소 기법의 조합적 활용 (Combined Application of Data Imbalance Reduction Techniques Using Genetic Algorithm)

  • 장영식;김종우;허준
    • 지능정보연구
    • /
    • 제14권3호
    • /
    • pp.133-154
    • /
    • 2008
  • 데이터 마이닝 분류 문제에서 발생하는 데이터 불균형 문제는 한 범주에 속한 데이터의 수가 다른 범주에 속한 데이터의 수보다 극히 많거나 작은 경우를 말한다. 이러한 불균형 문제를 해결하기 위해 표본추출과 오분류 비용에 근거한 여러 가지 기법들이 제시되었으며, 이들 간의 성능 비교에 대한 연구들도 이루어졌다. 본 논문에서는 기존에 제시된 불균형 문제 해소기법들의 조합적 활용에 대한 타당성에 대해 살펴보고 유전자 알고리즘을 통해 그 결합 비율을 결정하여 더 좋은 성과를 낼 수 있는지에 대해 살펴보도록 한다. 소수 범주에 대한 정확성을 높이기 위해 소수 범주에 대한 F-value에 기초하여 기법들의 결합비율을 결정하고 기존 단일 기법들의 성과와 임의의 비율에 의한 격자표 형태의 결합 성과를 비교하여 결합적 활용의 타당성을 살펴본다. 이를 실증적으로 검토하기 위해서, 일반적으로 데이터 불균형 문제를 해결하기 위해 많이 사용되는 4개의 공개 데이터 집합을 이용하여 타당성 분석을 수행하였다. 분석 결과, 전체적으로 단일 기법들의 결합적 활용이 데이터 불균형 해소에 유용한 것으로 나타났다.

  • PDF

불균형 자료에서 불순도 지수를 활용한 분류 임계값 선택 (Selecting the optimal threshold based on impurity index in imbalanced classification)

  • 장서인;여인권
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.711-721
    • /
    • 2021
  • 이 논문에서는 불균형 자료에 대한 분류 분석에서 불순도지수를 이용하여 임계값을 조정하는 방법에 대해 알아본다. 이항자료에 대한 분류에서는 소수범주를 Positive, 다수범주를 Negative라고 하면, 일반적으로 사용하는 0.5 기준으로 범주를 정하면 불균형 자료에서는 특이도는 높은 반면 민감도는 상대적으로 낮게 나오는 경향이 있다. 소수범주에 속한 개체를 제대로 분류하는 것이 상대적으로 중요한 문제에서는 민감도를 높이는 것이 중요한데 이를 분류기준이 되는 임계값을 조정을 통해 높이는 방법에 대해 알아본다. 기존연구에서는 G-mean이나 F1-score와 같은 측도를 기준으로 임계값을 조정했으나 이 논문에서는 CHAID의 카이제곱통계량, CART의 지니지수, C4.5의 엔트로피를 이용하여 최적임계값을 선택하는 방법을 제안한다. 최적임계값이 여러 개 나올 수 있는 경우 해결방법을 소개하고 불균형 분류 예제로 사용되는 데이터 분석을 통해 0.5를 기준으로 ?(무엇?)을 때와 비교하여 어떤 개선이 이루어졌는지 등을 분류성능측도로 알아본다.