• 제목/요약/키워드: Bagging ensemble

검색결과 85건 처리시간 0.019초

설명 가능한 정기예금 가입 여부 예측을 위한 앙상블 학습 기반 분류 모델들의 비교 분석 (A Comparative Analysis of Ensemble Learning-Based Classification Models for Explainable Term Deposit Subscription Forecasting)

  • 신지안;문지훈;노승민
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.97-117
    • /
    • 2021
  • 정기예금 가입 여부 예측은 은행의 대표적인 금융 마케팅 중 하나로, 은행은 다양한 고객 정보를 활용하여 예측 모델을 구성할 수 있다. 정기예금 가입 여부의 분류 정확도를 향상하기 위해, 많은 연구에서 기계학습 기법들을 이용하여 분류 모델들을 개발하였다. 하지만, 이러한 모델들이 만족스러운 성능을 보일지라도 모델의 의사결정 과정에 대한 근거가 적절하게 설명되지 않는다면 산업에서 활용하기가 쉽지 않다. 이러한 문제점을 해결하기 위해, 본 논문은 설명 가능한 정기예금 가입 여부 예측 기법을 제안한다. 먼저, 테이블 형식에서 우수한 성능을 도출하는 의사결정 나무 기반 앙상블 학습 기법인 랜덤 포레스트, GBM, XGBoost, LightGBM을 이용하여 분류 모델들을 개발하고, 10겹 교차검증을 통해 모델들의 분류 성능을 심층 분석한다. 다음으로, 가장 우수한 성능을 도출하는 모델에 설명 가능한 인공지능 기법인 SHAP을 적용하여 고객 정보의 영향도와 의사결정 과정 등을 해석할 수 있는 근거를 제공한다. 제안한 기법의 실용성과 타당성을 입증하기 위해, Kaggle에서 제공한 은행 마케팅 데이터 셋을 대상으로 모의실험을 진행하였으며, 데이터 셋 구성에 따라 GBM과 LightGBM 모델에 SHAP을 각기 적용하여 설명 가능한 정기예금 가입 여부를 위한 분석 및 시각화를 수행하였다.

Random Forests 기법을 이용한 백내장 예측모형 - 일개 대학병원 건강검진 수검자료에서 - (A Prediction Model for the Development of Cataract Using Random Forests)

  • 한은정;송기준;김동건
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.771-780
    • /
    • 2009
  • 백내장 질환은 노령인구가 증가하고 있는 시점에서 사회, 경제적으로 심각한 문제로 부각되고 있는 질병으로 조기 진단이 이루어진다면 발병률을 크게 줄일 수 있는 질병이다. 본 연구에서는 백내장을 조기 진단하기 위한 예측 모형을 구축하고자 1994년부터 2001년까지 연세대학병원에서 2회 이상 건강검진을 받고 의사진단을 통해 백내장 여부를 확인할 수 있는 30세 이상 남 녀 3,237명에 대한 건강검진 수검 자료를 활용하여 백내장 발생 위험 예측모형을 개발하였다. 모형개발에는 데이터마이닝 기법인 Random Forests를 사용하였고, 기존의 로지스틱 회귀분석, 판별분석, 의사결정나무 모형(Decision tree), 나이브베이즈(Naive Bayes), 앙상블 모형인 배깅(Bagging)과 아킹(Arcing)을 이용하여 그 성능을 비교 분석하였다. Random Forests를 통해 개발한 백내장 발생 예측모형은 정확도가 67.16%, 민감도가 72.28%였고, 주요 영향요인은 연령, 혈당, 백혈구수치(WBC), 혈소판수치(platelet), 중성지질(triglyceride), BMI였다. 이 결과는 의사의 안과검진 정보 없이 건강검진 수검 자료만으로 백내장 질환 유 무에 관한 정보를 70% 정도 예측할 수 있음을 보여주는 것으로, 백내장의 조기 진단에 많은 기여를 할 것으로 판단된다.

합성곱 신경망을 이용한 주가방향 예측: 상관관계 속성선택 방법을 중심으로 (Stock Price Direction Prediction Using Convolutional Neural Network: Emphasis on Correlation Feature Selection)

  • 어균선;이건창
    • 경영정보학연구
    • /
    • 제22권4호
    • /
    • pp.21-39
    • /
    • 2020
  • 딥러닝(Deep learning) 기법은 패턴분석, 이미지분류 등 다양한 분야에서 높은 성과를 나타내고 있다. 특히, 주식시장 분석문제는 머신러닝 연구분야에서도 어려운 분야이므로 딥러닝이 많이 활용되는 영역이다. 본 연구에서는 패턴분석과 분류능력이 높은 딥러닝의 일종인 합성곱신경망(Convolutional Neural Network) 모델을 활용하여 주가방향 예측방법을 제안한다. 추가적으로 합성곱신경망 모델을 효율적으로 학습시키기 위한 속성선택(Feature Selection, FS)방법이 적용된다. 합성곱신경망 모델의 성과는 머신러닝 단일 분류기와 앙상블 분류기를 벤치마킹하여 객관적으로 검증된다. 본 연구에서 벤치마킹한 분류기는 로지스틱 회귀분석(Logistic Regression), 의사결정나무(Decision Tree), 인공신경망(Neural Network), 서포트 벡터머신(Support Vector Machine), 아다부스트(Adaboost), 배깅(Bagging), 랜덤포레스트(Random Forest)이다. 실증분석 결과, 속성선택을 적용한 합성곱신경망이 다른 벤치마킹 분류기보다 분류 성능이 상대적으로 높게 나타났다. 이러한 결과는 합성곱신경망 모델과 속성선택방법을 적용한 예측방법이 기업의 재무자료에 내포된 가치를 보다 정교하게 분석할 수 있는 가능성이 있음을 실증적으로 확인할 수 있었다.

XAI 기반 기업부도예측 분류모델 연구 (A Study on Classification Models for Predicting Bankruptcy Based on XAI)

  • 김지홍;문남미
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.333-340
    • /
    • 2023
  • 기업 부도의 효율적인 예측은 금융기관의 적절한 대출 결정과 여신 부실률 감소 측면에서 중요한 부분이다. 많은 연구에서 인공지능 기술을 활용한 분류모델 연구를 진행하였다. 금융 산업 특성상 새로운 예측 모델의 성능이 우수하더라도 어떤 근거로 결과를 출력했는지 직관적인 설명이 수반되어야 한다. 최근 미국, EU, 한국 등 에서는 공통적으로 알고리즘의 설명요구권을 제시하고 있어 금융권 AI 활용에 투명성을 확보하여야 한다. 본 논문에서는 외부에 오픈된 기업부도 데이터를 활용하여 인공지능 기반의 해석 가능한 분류 예측 모델을 제안하였다. 먼저 데이터 전처리 작업, 5겹 교차검증 등을 수행하고 로지스틱 회귀, SVM, XGBoost, LightGBM 등 10가지 지도학습 분류모델 최적화를 통해 분류 성능을 비교하였다. 그 결과 LightGBM이 가장 우수한 모델로 확인되었고, 설명 가능한 인공지능 기법인 SHAP을 적용하여 부도예측 과정에 대한 사후 설명을 제공하였다.

진화하는 그래프 구조 학습을 위한 부스티드 DNA 컴퓨팅 (Boosted DNA Computing for Evolutionary Graphical Structure Learning)

  • 석호식;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.265-267
    • /
    • 2005
  • DNA 컴퓨팅은 분자 수준(molecular level)에서 연산을 수행한다. 따라서 일반적인 실리콘 기반의 컴퓨터에서와는 달리, 순차적인 연산 제어를 보장하기 어렵다는 특징이 있다. 그러나 DNA 컴퓨팅은 화학반응에 기초한 연산이기 때문에, 실험자가 의도한 연산을 많은 수의 분자에 동시에 적용할 수 있으므로 실리콘 기반의 컴퓨터와는 비교할 수 없는 병렬 연산을 구현할 수 있다. 병렬 연산을 구현하고자 할 때, 일반적으로 연산에 사용하는 모든 DNA 분자들을 대상으로 연산을 구현할 수도 있다. 그러나 전체가 아닌 일부의 분자들을 상대로 연산을 수행하는 것 역시 가능하며 이 때 자연스러운 방법으로 사용할 수 있는 방법이 배깅(Bagging)이나 부스팅(Boosting)과 같은 앙상블(ensemble) 계열의 학습 방법이다. 일반적인 부스팅과 달리 가중치를 부여하는 것이 아니라 특정 학습자(learner)를 나타내는 분자들을 증폭한다면 가중치를 분자의 양으로 표현하는 것이 가능하므로 분자 수준에서 앙상블 계열의 학습을 구현하는 것이 가능하다. 본 논문에서는 앙상블 계열의 학습 방법 중 특히 부스팅의 효과를 DNA 컴퓨팅에 응용하고자 할 때, 어떤 방법이 가능하며, 표현 과정에서 고려해야 할 사항은 어떠한 것들이 있는지 고려하고자 한다. 본 논문에서는 규모를 사전에 한정할 수 없는 진화 가능한 그래프 구조(evolutionary graph structure)를 학습할 수 있는 방법을 찾아보고자 한다. 진화 가능한 그래프 구조는 기존의 DNA 컴퓨팅 방법으로는 학습할 수 없는 문제이다. 그러나 조합 가능한 수를 사전에 정의할 수 없기 때문에 분자의 수에 상관없이 동일한 연산 시간에 문제를 해결할 수 있는 DNA 컴퓨팅의 장정을 가장 잘 발휘할 수 있는 문제이기도 하다.개별 태스크의 특성에 따른 성능 조절과 태스크의 변화에 따른 빠른 반응을 자랑으로 한다. 본 논문에선 TIB 알고리즘을 리눅스 커널에 구현하여 성능을 평가하였고 그 결과 리눅스에서 사용되는 기존 인터벌 기반의 알고리즘들에 비해 좋은 전력 절감 효과를 얻을 수 있었다.과는 한식 외식업체들이 고객들의 재구매 의도를 높이기 위해서는 한식 외식업체의 서비스요인, 식음료요인, 이벤트 요인 등을 강화함으로써 전반적인 종사원 서비스 품질과 식음료품질을 높이는 전략을 취해야 한다는 것을 시사해주고 있다. 본 연구는 대구 경북소재 한식 외식업체만을 대상으로 하여 연구를 실시하여 연구의 일반화와 한식 외식업체를 이용하는 이용 고객들이 한식 외식업체를 재방문하는 재구매 의도가 발생하는데 있어 발생하는 과정을 설명하는 종단적 연구를 실시하지 못한 한계점을 가지고 있다.아직 산업 디자인이 품질경쟁력에 크게 영향을 미치는 성숙단계에 이르지 못하였음을 의미한다. (2) 제품 디자인에게 영향을 끼치는 유의적인 변수는 연구개발력, 연구개발투자 수준, 혁신활동 수준(5S, TPM, 6Sigma 운동, QC 등)이며, 제품 디자인은 우선 품질경쟁력을 높여 간접적으로 고객만족과 고객 충성을 유발하는 것으로 추정되었다. 상기의 분석결과로부터, 본 연구는 다음과 같은 정책적 함의를 도출하였다. 첫째, 신상품 개발과 혁신을 위한 포괄적인 연구개발 프로젝트를 품질 경쟁력의 주요 결정요인(제품의 기본성능, 신뢰성, 수명(내구성) 및 제품 디자인)과 연계하여 추진해야 할 것이다. 둘째, 기업은 디자인 경영 마인드 제고와 디자인 전문인력 양성을, 대학은 디자인 현장 업무를 통하여 창의력 증진과 기획 및 마케팅 능력 교육을, 정부는 디자인 기술개발 및 디자인 교육지원의 강화를 통하여 각각 디자인 경쟁력$\righta

  • PDF