• 제목/요약/키워드: 스태킹 앙상블 모형

검색결과 6건 처리시간 0.026초

한국 유역의 지역화를 통해 유출량 예측을 개선하기 위한 수문학적 후 처리된 스태킹 앙상블 모형 (A stacking ensemble model to improve streamflow forecasts at medium range forecasts through hydrological regionalization over South Korea)

  • 이동기;안국현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.182-182
    • /
    • 2021
  • 본 연구에서는 1일부터 최대 7일까지의 시간을 두고 남한 전체의 유출량에 대한 예측 모형을 제시하고자 한다. 이를 위하여 LSM (Land Surface Model) 모형을 사용하여 유출량을 모의하였고 이 과정에서 미 계측치에 대한 유출량을 예측하기 위하여 Xgboost (Extreme Gradient Boost)를 활용하여 매개변수를 지역화하였다. 이러한 지역화 기법을 통하여 남한 전체의 유출량에 대한 그리드화 된 유출값을 얻을 수 있었다. 또한 본 연구에서는 기상 예측자료를 유출량에 대한 예측으로 변환하기 위하여 Stacking 앙상블 기반의 수문학적 후처리 기법을 사용하였다. Stacking 앙상블 기법은 Base-learner와 Meta-learner의 조합으로 이루어 지는데 본 연구에서 새롭게 사용되는 패널티 기반의 분위회귀분석 방법론은 기존의 방법론과의 비교에 있어서 유용한 것으로 파악되었다. 결과적으로 본 연구에서는 총 7일의 앞선 시간의 예측에 있어서 한반도 전체의 유출량에서 비교적 짧은 시간에 대한 예측인 1일과 2일에서의 예측은 실질적으로 사용이 가능한 것으로 파악되었다.

  • PDF

협업필터링과 스태킹 모형을 이용한 상품추천시스템 개발 (Development of Product Recommender System using Collaborative Filtering and Stacking Model)

  • 박성종;김영민;안재준
    • 융합정보논문지
    • /
    • 제9권6호
    • /
    • pp.83-90
    • /
    • 2019
  • 사람들은 자신의 더 나은 선택을 위하여 끊임없이 노력한다. 이러한 이유로 추천시스템이 개발되었으며, 1990년대 초반부터 계속해서 발전하고 있다. 그 중, 협업필터링 기법은 추천시스템 분야에서 우수한 성능을 보였으며, 기계학습이 등장하면서 기계학습을 이용한 추천시스템에 관한 연구가 활발히 진행되었다. 본 연구는 앙상블 방법 중에서 스태킹 모형을 사용하여 추천시스템을 구축하며, 실제 고객의 상품 구매 데이터를 활용하여 협업필터링과 기계학습 기반 스태킹 모형으로 추천시스템을 개발하였다. 제시한 모형의 추천 성능은 기존의 협업필터링과 기계학습 기반 추천시스템과 비교하여 모형의 우수성을 확인하며, 연구결과는 스태킹 모형을 이용한 추천시스템 모형의 추천 성능이 개선됨을 확인하였다. 향후 본 연구에서 제안한 모형은 개인이나 기업이 더 나은 선택을 하여 상품을 추천할 때 도움을 줄 것으로 기대한다.

약물유전체학에서 약물반응 예측모형과 변수선택 방법 (Feature selection and prediction modeling of drug responsiveness in Pharmacogenomics)

  • 김규환;김원국
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.153-166
    • /
    • 2021
  • 약물유전체학 연구의 주요 목표는 고차원의 유전 변수를 기반으로 개인의 약물 반응성을 예측하는 것이다. 변수의 개수가 많기 때문에 변수의 개수를 줄이기 위해서는 변수 선택이 필요하며, 선택된 변수들은 머신러닝 알고리즘을 사용하여 예측 모델을 구축하는데 사용된다. 본 연구에서는 400명의 뇌전증 환자의 차세대 염기서열 분석 데이터에 로지스틱 회귀, ReliefF, TurF, 랜덤 포레스트, LASSO의 조합과 같은 여러 가지 혼합 변수 선택 방법을 적용하였다. 선택된 변수들에 랜덤포레스트, 그래디언트 부스팅, 서포트벡터머신을 포함한 머신러닝 방법들을 적용했고 스태킹을 통해 앙상블 모형을 구축하였다. 본 연구의 결과는 랜덤포레스트와 ReliefF의 혼합 변수 선택 방법을 이용한 스태킹 모형이 다른 모형보다 더 좋은 성능을 보인다는 것을 보여주었다. 5-폴드 교차 검증을 기반으로 하여 적합한 최적 모형의 평균 검증 정확도는 0.727이고 평균 검증 AUC 값은 0.761로 나타났다. 또한, 동일한 변수를 사용할 때 스태킹 모델이 단일 머신러닝 예측 모델보다 성능이 우수한 것으로 나타났다.

An Efficient Deep Learning Ensemble Using a Distribution of Label Embedding

  • Park, Saerom
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.27-35
    • /
    • 2021
  • 본 연구에서는 레이블 임베딩의 분포를 반영하는 딥러닝 모형을 위한 새로운 스태킹 앙상블 방법론을 제안하였다. 제안된 앙상블 방법론은 기본 딥러닝 분류기를 학습하는 과정과 학습된 모형으로 부터 얻어진 레이블 임베딩을 이용한 군집화 결과로부터 소분류기들을 학습하는 과정으로 이루어져 있다. 본 방법론은 주어진 다중 분류 문제를 군집화 결과를 활용하여 소 문제들로 나누는 것을 기본으로 한다. 군집화에 사용되는 레이블 임베딩은 처음 학습한 기본 딥러닝 분류기의 마지막 층의 가중치로부터 얻어질 수 있다. 군집화 결과를 기반으로 군집화 내의 클래스들을 분류하는 소분류기들을 군집의 수만큼 구축하여 학습한다. 실험 결과 기본 분류기로부터의 레이블 임베딩이 클래스 간의 관계를 잘 반영한다는 것을 확인하였고, 이를 기반으로 한 앙상블 방법론이 CIFAR 100 데이터에 대해서 분류 성능을 향상시킬 수 있다는 것을 확인할 수 있었다.

다중 인코더 기반의 트랜스포머 모델을 활용한 한반도 대규모 유역에 중장기 유출량 예측 전망 방법 제시 (A medium-range streamflow forecasting approach over South Korea using Double-encoder-based transformer model)

  • 이동기;윤성현;안국현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.101-101
    • /
    • 2023
  • 지난 수십 년 동안 다양한 딥러닝 방법이 개발되고 있으며 수문 분야에서는 이러한 딥러닝 모형이 기존의 수문모형의 역할을 대체하여 사용할 수 있다는 가능성이 제시되고 있다. 본 연구에서는 딥러닝 모형 중에 트랜스포머 모형에 다중 인코더를 사용하여 중장기 기간 (1 ~ 10일)의 리드 타임에 대한 한국의 유출량 예측 전망의 가능성을 확인하고자 하였다. 트랜스포머 모형은 인코더와 디코더 구조로 구성되어 있으며 어텐션 (attention) 기법을 사용하여 기존 모형의 정보를 손실하는 단점을 보완한 모형이다. 본 연구에서 사용된 다중 인코더 기반의 트랜스포머 모델은 트랜스포머의 인코더와 디코더 구조에서 인코더를 하나 더 추가한 모형이다. 그리고 결과 비교를 위해 기존에 수문모형을 활용한 스태킹 앙상블 모형 (Stacking ensemble model) 기반의 예측모형을 추가로 구축하였다. 구축된 모형들은 남한 전체를 총 469개의 대규모 격자로 나누어 각 격자의 유출량을 비교하여 평가하였다. 결과적으로 수문모형보다 딥러닝 모형인 다중 인코더 기반의 트랜스포머 모형이 더 긴 리드 타임에서 높은 성능을 나타냈으며 이를 통해 수문모형의 역할을 딥러닝 모형이 어느 정도는 대신할 수 있고 높은 성능을 가질 수 있는 것을 확인하였다.

  • PDF

머신러닝 기반 기업부도위험 예측모델 검증 및 정책적 제언: 스태킹 앙상블 모델을 통한 개선을 중심으로 (Machine learning-based corporate default risk prediction model verification and policy recommendation: Focusing on improvement through stacking ensemble model)

  • 엄하늘;김재성;최상옥
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.105-129
    • /
    • 2020
  • 본 연구는 부도위험 예측을 위해 K-IFRS가 본격적으로 적용된 2012년부터 2018년까지의 기업데이터를 이용한다. 부도위험의 학습을 위해, 기존의 대부분 선행연구들이 부도발생 여부를 기준으로 사용했던 것과 다르게, 본 연구에서는 머튼 모형을 토대로 각 기업의 시가총액과 주가 변동성을 이용하여 부도위험을 산정했으며, 이를 통해 기존 방법론의 한계로 지적되어오던 부도사건 희소성에 따른 데이터 불균형 문제와 정상기업 내에서 존재하는 부도위험 차이 반영 문제를 해소할 수 있도록 하였다. 또한, 시장의 평가가 반영된 시가총액 및 주가 변동성을 기반으로 부도위험을 도출하되, 부도위험과 매칭될 입력데이터로는 비상장 기업에서 활용될 수 있는 기업 정보만을 활용하여 학습을 수행함으로써, 포스트 팬데믹 시대에서 주가 정보가 존재하지 않는 비상장 기업에게도 시장의 판단을 모사하여 부도위험을 적절하게 도출할 수 있도록 하였다. 기업의 부도위험 정보가 시장에서 매우 광범위하게 활용되고 있고, 부도위험 차이에 대한 민감도가 높다는 점에서 부도위험 산출 시 안정적이고 신뢰성 높은 평가방법론이 요구된다. 최근 머신러닝을 활용하여 기업의 부도위험을 예측하는 연구가 활발하게 이루어지고 있으나, 대부분 단일 모델을 기반으로 예측을 수행한다는 점에서 필연적인 모델 편향 문제가 존재하고, 이는 실무에서 활용하기 어려운 요인으로 작용하고 있다. 이에, 본 연구에서는 다양한 머신러닝 모델을 서브모델로 하는 스태킹 앙상블 기법을 활용하여 개별 모델이 갖는 편향을 경감시킬 수 있도록 하였다. 이를 통해 부도위험과 다양한 기업정보들 간의 복잡한 비선형적 관계들을 포착할 수 있으며, 산출에 소요되는 시간이 적다는 머신러닝 기반 부도위험 예측모델의 장점을 극대화할 수 있다. 본 연구가 기존 머신러닝 기반 모델의 한계를 극복 및 개선함으로써 실무에서의 활용도를 높일 수 있는 자료로 활용되기를 바라며, 머신러닝 기반 부도위험 예측 모형의 도입 기준 정립 및 정책적 활용에도 기여할 수 있기를 희망한다.