• 제목/요약/키워드: 클래스 불균형 분류

검색결과 54건 처리시간 0.025초

불균형 데이터를 갖는 냉동 컨테이너 고장 판별 및 원인 분석을 위한 기계학습 모형 개발 (Development of machine learning model for reefer container failure determination and cause analysis with unbalanced data)

  • 이희원;박성호;이승현;이승재;이강배
    • 한국융합학회논문지
    • /
    • 제13권1호
    • /
    • pp.23-30
    • /
    • 2022
  • 냉동 컨테이너의 고장은 큰 비용의 손실을 야기하지만, 현재 냉동 컨테이너의 알람 체계는 효율성이 떨어진다. 기존에 냉동 시스템의 시뮬레이션 데이터를 활용한 연구는 존재하지만, 냉동 컨테이너의 실제 운영 데이터를 활용한 연구는 부족하다. 이에 본 연구는 실제 냉동 컨테이너 운영 데이터를 활용하여 고장 원인을 분류하였다. 실제 데이터에서는 데이터 불균형이 발생하였으며 ENN-SMOTE, 클래스 가중치를 둔 Logistic 회귀분석과 본 연구에서 개발한 2-stage 알고리즘을 비교하여 데이터 불균형문제를 해결하였다. 2-stage 알고리즘은 XGboost, LGBoost, DNN을 사용하여 첫 번째 단계에서는 고장 및 정상을 분류하고, 두 번째 단계에서는 고장의 원인을 분류하는 알고리즘이다. 2-stage 알고리즘에서 LGBoost를 사용한 모델이 99.16%의 정확도로 가장 우수하였다. 본 연구는 데이터 불균형을 해결하기 위해 2-stage 알고리즘을 활용한 최종모델을 제안하며 이는 다른 산업에도 활용할 수 있을 것으로 사료된다.

클래스 불균형 문제를 해결하기 위한 개선된 집중 샘플링 (Improved Focused Sampling for Class Imbalance Problem)

  • 김만선;양형정;김수형;챠위핑
    • 정보처리학회논문지B
    • /
    • 제14B권4호
    • /
    • pp.287-294
    • /
    • 2007
  • 실세계의 문제에서 많은 기계학습의 알고리즘들은 데이터의 클래스 불균형 문제에 어려움을 겪는다. 이러한 클래스 불균형 문제를 해결하기 위하여 데이터의 비율을 변경하거나 좀 더 나은 샘플링 전략으로 극복하려는 연구들이 제안되었다. 그러나 데이터의 비율을 변경하는 연구에서는 전체 데이터 분포의 특성을 고려하지 못하고, 샘플링 전략을 제안하는 연구에서는 여러 가지 제한 조건을 고려해야만 한다. 본 논문에서는 위의 두가지 방법의 장점을 모두 포함하는 개선된 집중 샘플링 방법을 제안한다. 제안된 방법에서는 클래스 불균형 문제를 해결하기 위해 학습에 유용한 데이터들을 샘플링하는데 스코어링에 기반한 데이터 분할 방법을 이용한다. 즉, 입력 데이터들에 대해 SOM(Self Organizing Map)의 학습 결과로 얻은 BMU(Best Matching Unit)와의 거리를 계산하고, 이 거리론 스코어라 한다. 측정된 스코어는 오름차순으로 정렬되며, 이 과정에서 입력 데이터의 분포가 재 표현되고, 재 표현된 분포는 전체 데이터의 특성을 대표하게 된다. 그 결과로 얻은 데이터들 중에서 유용하지 못한 데이터들에 대해 제거하는 과정을 수행하여 새로운 학습 데이터 셋을 얻는다. 새로운 학습 데이터 생성 과정에서는 재 표현된 분포의 결과를 두 구간(upper, lower)으로 분할하는데, 두 추간 사이의 데이터들은 유용하지 못한 패턴들로 간주되어 학습에 이용되지 않는다. 본 논문에서 제안한 방법은 클래스 불균형의 비율 감수 훈련 데이터의 크기 감소, 과적합의 방지 등 몇 가지 장점을 보인다. 제안한 방법으로 샘플링된 데이터에 kNN 을 적용하여, 분류 실험한 결과 심한 불균형이 있는 ecoli 데이터의 분류 성능이 최대 2.27배 향상되었다.

2D-CNN 모델을 이용한 메타-전이학습 기반 부정맥 분류 (Arrhythmia classification based on meta-transfer learning using 2D-CNN model)

  • 김아현;염성웅;김경백
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.550-552
    • /
    • 2022
  • 최근 사물인터넷(IoT) 기기가 활성화됨에 따라 웨어러블 장치 환경에서 장기간 모니터링 및 수집이 가능해짐에 따라 생체 신호 처리 및 ECG 분석 연구가 활성화되고 있다. 그러나, ECG 데이터는 부정맥 비트의 불규칙적인 발생으로 인한 클래스 불균형 문제와 근육의 떨림 및 신호의 미약등과 같은 잡음으로 인해 낮은 신호 품질이 발생할 수 있으며 훈련용 공개데이터 세트가 작다는 특징을 갖는다. 이 논문에서는 ECG 1D 신호를 2D 스펙트로그램 이미지로 변환하여 잡음의 영향을 최소화하고 전이학습과 메타학습의 장점을 결합하여 클래스 불균형 문제와 소수의 데이터에서도 빠른 학습이 가능하다는 특징을 갖는다. 따라서, 이 논문에서는 ECG 스펙트럼 이미지를 사용하여 2D-CNN 메타-전이 학습 기반 부정맥 분류 기법을 제안한다.

욕설문장 분류의 불균형 데이터 해결을 위한 전이학습 방법 (A Transfer Learning Method for Solving Imbalance Data of Abusive Sentence Classification)

  • 서수인;조성배
    • 정보과학회 논문지
    • /
    • 제44권12호
    • /
    • pp.1275-1281
    • /
    • 2017
  • 욕설문장을 지도학습 접근법으로 분류하기 위해서 욕설인지 아닌지 판별된 학습 문장이 필요하다. 문자수준의 컨볼루션 신경망이 각 문자에 대해 강건성을 가지기 때문에 욕설분류에 적합하지만, 학습에 많은 데이터가 필요하다는 단점이 있다. 본 논문에서는 이를 해결하기 위해 임의로 생성한 욕설/비욕설 문장 쌍을 컨볼루션 신경망을 기반으로 하는 분류기에 학습시켜 컨볼루션 신경망의 필터가 욕설의 특징을 분류하도록 조정한 후, 실제 훈련문장을 학습시킬 때 필터를 재사용하는 전이학습방법을 제안한다. 이로써 데이터 부족과 클래스 불균형으로 인한 영향이 감소하여 분류 성능이 향상될 것이다. 실험 및 평가는 총 3가지 데이터에 대해 수행되었으며, 문자수준 컨볼루션 신경망을 활용한 분류기는 모든 데이터에서 전이학습을 적용했을 때 더 높은 F1 점수를 획득하였다.

클래스 불균형 데이터를 이용한 나이브 베이즈 분류기 기반의 이상전파에코 식별방법 (Naive Bayes Classifier based Anomalous Propagation Echo Identification using Class Imbalanced Data)

  • 이한수;김성신
    • 한국정보통신학회논문지
    • /
    • 제20권6호
    • /
    • pp.1063-1068
    • /
    • 2016
  • 이상전파에코는 대기 관측을 위해서 사용되는 레이더 전파가 온도나 습도에 의해서 발생하는 이상굴절에 의해서 발생하는 신호로, 지상에 설치된 기상레이더에 자주 발생하는 비기상에코이다. 기상예보의 정확도를 높이기 위해서는 레이더 데이터의 정확한 분석이 필수적이기 때문에 이상전파에코의 제거에 대한 연구가 수행되어 오고 있다. 본 논문에서는 다양한 레이더 관측변수를 나이브 베이지안 분류기에 적용하여 이상전파에코를 식별하는 방법에 대한 연구를 수행하였다. 수집된 데이터가 클래스 불균형 문제를 내포하고 있는 점을 고려하여, SMOTE 기법을 이용하였다. 실제 이상전파에코 발생 사례를 통해, 제안한 방법이 성능을 표출하는 것을 확인하였다.

모터 동작음 기반 불량 검출 시스템을 위한 불균형 데이터 처리 방안 연구 (Processing Method of Unbalanced Data for a Fault Detection System Based Motor Gear Sound)

  • 이영화;최건영;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.1305-1307
    • /
    • 2022
  • 자동차 부품의 결함은 시스템 전체의 성능 저하 및 인적 물적 손실이 발생할 수 있으므로 생산라인에서의 불량 검출은 매우 중요하다. 따라서 정확하고 균일한 결과의 불량 검출을 위해 딥러닝 기반의 고장 진단 시스템이 다양하게 연구되고 있다. 하지만 제조현장에서는 정상 샘플보다 비정상 샘플의 발생 빈도가 현저히 낮다. 이는 학습 데이터의 클래스 불균형 문제로 이어지게 되고, 이러한 불균형 문제는 고장을 판별하는 분류 모델의 성능에 영향을 끼치게 된다. 이에 본 연구에서는 모터의 동작음으로부터 불량 모터를 판별하는 불량 검출 시스템 설계를 위한 데이터 불균형 해결 방법을 제안한다. 자동차 사이드 미러 모터의 동작음을 학습 및 테스트를 위한 데이터 셋으로 사용하였으며 손실함수 계산 시 학습 데이터 셋의 클래스별 샘플 수 가 반영되는 label-distribution-aware margin(LDAM) loss 와 Inception, ResNet, DenseNet 신경망 모델의 비교 분석을 통해 불균형 데이터를 처리할 수 있는 가능성을 보여주었다.

  • PDF

당뇨병성 망막증 분류를 위한 ResNet50 모델 기반 다중 전처리 기법 (Diabetic Retinopathy Classification with ResNet50 Model Based Multi-Preprocessing)

  • 목다현;변규린;김주찬;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.621-623
    • /
    • 2023
  • 본 연구는 당뇨병성 망막증의 자동 분류를 위해 딥러닝 모델을 활용한다. CLAHE 를 사용한 전처리로 이미지의 대비를 향상시켰으며, ResNet50 모델을 기반으로 한 전이학습을 통해 모델의 성능을 향상했다. 또한, 데이터의 불균형을 고려하여 정확도 뿐만 아니라 민감도와 특이도를 평가함으로써 모델의 분류 성능을 종합적으로 평가하였다. 실험 결과, 제안한 방법은 당뇨병성 망막증 분류 작업에서 높은 정확도를 달성하였으나, 양성 클래스의 식별에서 일부 한계가 있었다. 이에 데이터의 품질 개선과 불균형 데이터 처리에 초점을 맞춘 향후 연구 방향을 제시하였다.

불균형 블랙박스 동영상 데이터에서 충돌 상황의 다중 분류를 위한 손실 함수 비교 (Comparison of Loss Function for Multi-Class Classification of Collision Events in Imbalanced Black-Box Video Data)

  • 이의상;한석민
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권1호
    • /
    • pp.49-54
    • /
    • 2024
  • 데이터 불균형은 분류 문제에서 흔히 마주치는 문제로, 데이터셋 내의 클래스간 샘플 수의 현저한 차이에서 기인한다. 이러한 데이터 불균형은 일반적으로 분류 모델에서 과적합, 과소적합, 성능 지표의 오해 등의 문제를 야기한다. 이를 해결하기 위한 방법으로는 Resampling, Augmentation, 규제 기법, 손실 함수 조정 등이 있다. 본 논문에서는 손실 함수 조정에 대해 다루며 특히, 불균형 문제를 가진 Multi-Class 블랙박스 동영상 데이터에서 여러 구성의 손실 함수(Cross Entropy, Balanced Cross Entropy, 두 가지 Focal Loss 설정: 𝛼 = 1 및 𝛼 = Balanced, Asymmetric Loss)의 성능을 I3D, R3D_18 모델을 활용하여 비교하였다.

희소 클래스 분류 문제 해결을 위한 전처리 연구 (A Study on Pre-processing for the Classification of Rare Classes)

  • 류경준;신동규;신동일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.472-475
    • /
    • 2020
  • 실생활의 사례를 바탕으로 생성된 여러 분야의 데이터셋을 기계학습 (Machine Learning) 문제에 적용하고 있다. 정보보안 분야에서도 사이버 공간에서의 공격 트래픽 데이터를 기계학습으로 분석하는 많은 연구들이 진행 되어 왔다. 본 논문에서는 공격 데이터를 유형별로 정확히 분류할 때, 실생활 데이터에서 흔하게 발생하는 데이터 불균형 문제로 인한 분류 성능 저하에 대한 해결방안을 연구했다. 희소 클래스 관점에서 데이터를 재구성하고 기계학습에 악영향을 끼치는 특징들을 제거하고 DNN(Deep Neural Network) 모델을 사용해 분류 성능을 평가했다.

데이터 증강 기법의 앙상블을 통한 레이블 불균형 해 소: 설명 가능한 신용평가 모델을 중심으로 (Mitigiating Data Imbalance via Ensembled Data Augmentation: An Explainable Credit Scoring Models)

  • 정지영;이소연;용예린;김민준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.483-486
    • /
    • 2023
  • 최근 금융 분야는 예측 모델의 복잡성으로 인한 블랙박스 문제와 금융 규제에 대한 관심이 높아지고 있다. 이에 따라 금융 업계는 신뢰성과 투명성을 강조하며, 특히 신용평가 분야에서 설명 가능한 모델 연구가 활발히 진행되고 있다. 또한, 해당 분야에서 소수 클래스에 대해 충분히 학습하지 못하고 다수 클래스에 과적합 될 수 있는 데이터 불균형 문제 역시 강조되고 있다. 이는 제 2종 오류(Type 2 Error)를 최소화해야 하는 상황에서 더욱 부각되며, 대출 상환 능력이 낮은 고객을 최대한 식별해야 하는 개인 신용평가 문제에서 매우 중요한 화두로 떠오르고 있다. 본 논문에서는 어텐션 메커니즘을 활용하여 모델의 설명 가능성을 개선하고, 분석 결과를 해석하는 데 도움이 되고자 한다. 더 나아가, SMOTE, GAN, ADASYN 등 총 다섯 가지 데이터 증강 기법을 실험하여, 이를 앙상블 하였을 때 소수 클래스 레이블에 대한 분류 정확도를 크게 개선할 수 있음을 확인하였다.