• 제목/요약/키워드: 클래스 불균형 분류

검색결과 55건 처리시간 0.021초

P2P 대부 우수 대출자 예측을 위한 합성 소수집단 오버샘플링 기법 성과에 관한 탐색적 연구 (Exploring the Performance of Synthetic Minority Over-sampling Technique (SMOTE) to Predict Good Borrowers in P2P Lending)

  • 프란시스 조셉 코스텔로;이건창
    • 디지털융복합연구
    • /
    • 제17권9호
    • /
    • pp.71-78
    • /
    • 2019
  • 본 연구는 P2P 대부 플랫폼에서 우수 대출자를 예측시 유용한 합성 소수집단 오버샘플링 기법을 제안하고 그 성과를 실증적으로 검증하고자 한다. P2P 대부 관련 우수 대출자를 추정할 때 일어나는 문제점중의 하나는 클래스 간 불균형이 심하여 이를 해결하지 않고서는 우수 대출자 예측이 쉽지 않다는 점이다. 이러한 문제를 해결하기 위하여 본 연구에서는 SMOTE, 즉 합성 소수집단 오버샘플링 기법을 제안하고 LendingClub 데이터셋에 적용하여 성과를 검증하였다. 검증결과 SMOTE 방법은 서포트 벡터머신, k-최근접이웃, 로지스틱 회귀, 랜덤 포레스트, 그리고 딥 뉴럴네트워크 분류기와 비교하여 통계적으로 우수한 성과를 보였다.

기계학습과 GPT3를 시용한 조작된 리뷰의 탐지 (The Detection of Online Manipulated Reviews Using Machine Learning and GPT-3)

  • 체르냐예바 올가;홍태호
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.347-364
    • /
    • 2022
  • 고객의 구매 의사결정에 영향을 주는 온라인 리뷰의 부적절한 조작을 통해 이익을 얻고자 하는 기업 또는 온라인 판매자들 때문에, 리뷰의 신뢰성은 온라인 거래에서 매우 중요한 이슈가 되었다. 온라인 쇼핑몰 등에서 온라인 리뷰에 대한 소비자들의 의존도가 높아짐에 따라 많은 연구들이 조작된 리뷰를 탐지하는 방법에 개발하고자 하였다. 기존의 연구들은 온라인 리뷰를 기반으로 정상 리뷰와 조작된 리뷰를 대상으로 기계학습으로 이용함으로써 조작된 리뷰를 탐지하는 모형을 제시하였다. 기계학습은 데이터를 이용하여 이진분류 문제에서 탁월한 성능을 보여왔으나, 학습에 충분한 데이터를 확보할 수 있는 환경에서만 이러한 성능을 기대할 수 있었다. 조작된 리뷰는 학습용으로 사용할 수 있는 데이터가 충분하지 못하며, 이는 기계학습이 충분한 학습을 할 수 없다는 치명적 약점으로 내포하게 된다. 본 연구에서는 기계학습이 불균형 데이터 셋으로 인한 학습의 저하를 방지할 수 있는 방안으로 부족한 조작된 리뷰를 인공지능을 이용하여 생성하고 이를 기반으로 균형된 데이터 셋에서 기계학습을 학습하여 조작된 리뷰를 탐지하는 방안을 제시하였다. 파인 튜닝된 GPT-3는 초거대 인공지능으로 온라인 플랫폼의 리뷰를 생성하여 데이터 불균형 문제를 해결하는 오버샘플링 접근방법으로 사용되었다. GPT-3로 생성한 온라인 리뷰는 기존 리뷰를 기반으로 인공지능이 작성한 리뷰로써, 본 연구에서 사용된 로짓, 의사결정나무, 인공신경망의 성능을 개선시키는 것을 SMOTE와 단순 오버샘플링과 비교하여 실증분석을 통해서 확인하였다.

설비 이상탐지를 위한 딥러닝 알고리즘 개발 (Development of a Deep Learning Algorithm for Anomaly Detection of Manufacturing Facility)

  • 김민희;진교홍
    • 한국정보통신학회논문지
    • /
    • 제26권2호
    • /
    • pp.199-206
    • /
    • 2022
  • 제품을 생산하는 설비의 고장이나 이상 현상은 곧 제품의 결함 및 생산라인 가동 중단으로 이어져 제조 업체의 막대한 경제적 손실의 원인이 된다. 스마트팩토리 서비스의 확산으로 공장에서 많은 양의 데이터가 수집됨에 따라, 이를 활용하여 제조 현장의 효율이나 제조 설비의 고장 예측 및 진단을 위한 인공지능 기반의 연구가 활발히 이어지고 있다. 하지만 정상과 이상을 구분 짓는 레이블 정보가 명확하지 않고 이상에 대한 극심한 클래스 불균형을 가지는 제조 데이터의 특징으로 인하여 분류 모델이나 이상탐지 모델의 개발에는 큰 어려움이 존재한다. 본 논문에서는 딥러닝 모델의 재구성 손실값을 이용하여 제조 설비의 이상탐지를 위한 딥러닝 알고리즘을 제안하고 성능을 분석하였다. 해당 알고리즘은 이상 데이터를 제외한 설비의 제조 데이터, 즉 정상 데이터에만 의존하여 이상을 감지한다.

Fashion Category Oversampling Automation System

  • Minsun Yeu;Do Hyeok Yoo;SuJin Bak
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.31-40
    • /
    • 2024
  • 국내 온라인 패션 플랫폼은 개인사업자가 제품정보를 직접 등록하기 때문에 개인사업자의 불편함을 초래한다. 많은 제품군을 한꺼번에 수동 등록하므로 수기 입력된 제품정보로 인한 신뢰성 문제가 발생한다. 등록된 상품 이미지의 저품질 및 데이터 수의 불균형으로 인한 편향도 심각하게 제기된다. 본 연구는 오버샘플링 기법을 통해 데이터 편향을 최소화하고 13개 패션 카테고리의 다중 분류를 수행하는 ResNet50 모델을 제안한다. 컴퓨팅 자원과 오랜 학습시간을 최소화하기 위해 전이학습을 활용했다. 결과적으로, 데이터 수가 매우 부족했던 클래스의 데이터 증강을 통해 기본 CNN 모델에 비해 최대 33.4%의 향상된 식별력을 보여주었다. 모든 결과의 신뢰성은 정밀도-재현율 곡선으로 보장한다. 본 연구는 국내 온라인 패션 플랫폼 산업의 발전을 한 단계 끌어올릴 수 있을 것으로 기대한다.

EPC 프로젝트의 위험 관리를 위한 ITB 문서 조항 분류 모델 연구: 딥러닝 기반 PLM 앙상블 기법 활용 (Research on ITB Contract Terms Classification Model for Risk Management in EPC Projects: Deep Learning-Based PLM Ensemble Techniques)

  • 이현상;이원석;조보근;이희준;오상진;유상우;남마루;이현식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권11호
    • /
    • pp.471-480
    • /
    • 2023
  • 국내 건설수주 규모는 2013년 91.3조원에서 2021년 총 212조원으로 특히 민간부문에서 크게 성장하였다. 국내외 시장 규모가 성장하면서, EPC(Engineering, Procurement, Construction) 프로젝트의 규모와 복잡성이 더욱 증가되고, 이에 프로젝트 관리 및 ITB(Invitation to Bid) 문서의 위험 관리가 중요한 이슈가 되고 있다. EPC 프로젝트 발주 이후 입찰 절차에서 실제 건설 회사에게 부여되는 대응 시간은 한정적일 뿐만 아니라, 인력 및 비용의 문제로 ITB 문서 계약 조항의 모든 리스크를 검토하는데 매우 어려움이 있다. 기존 연구에서는 이와 같은 문제를 해결하고자 EPC 계약 문서의 위험 조항을 범주화하고, 이를 AI 기반으로 탐지하려는 시도가 있었으나, 이는 레이블링 데이터 활용의 한계와 클래스 불균형과 같은 데이터 측면의 문제로 실무에서 활용할 수 있는 수준의 지원 시스템으로 활용하기 어려운 상황이다. 따라서 본 연구는 기존 연구와 같이 위험 조항 자체를 정의하고 분류하는 것이 아니라, FIDIC Yellow 2017(국제 컨설팅엔지니어링 연맹 표준 계약 조건) 기준 계약 조항을 세부적으로 분류할 수 있는 AI 모델을 개발하고자 한다. 프로젝트의 규모, 유형에 따라서 세부적으로 검토해야 하는 계약 조항이 다를 수 있기 때문에 이와 같은 다중 텍스트 분류 기능이 필요하다. 본 연구는 다중 텍스트 분류 모델의 성능 고도화를 위해서 최근 텍스트 데이터의 컨텍스트를 효율적으로 학습할 수 있는 ELECTRA PLM(Pre-trained Language Model)을 사전학습 단계부터 개발하고, 해당 모델의 성능을 검증하기 위해서 총 4단계 실험을 진행했다. 실험 결과, 자체 개발한 ITB-ELECTRA 모델 및 Legal-BERT의 앙상블 버전이 57개 계약 조항 분류에서 가중 평균 F1-Score 기준 76%로 가장 우수한 성능을 달성했다.