• 제목/요약/키워드: Multi-Model Ensemble Technique

검색결과 16건 처리시간 0.028초

효율적인 의료진단을 위한 앙상블 분류 기법 (Ensemble Classification Method for Efficient Medical Diagnostic)

  • 정용규;허고은
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권3호
    • /
    • pp.97-102
    • /
    • 2010
  • 의료 데이터 마이닝의 목적은 효율적인 알고리즘 및 기법을 통하여 각종 질병을 예측 분류하고 신뢰도를 높이는데 있다. 기존의 연구로 단일모델을 기반으로 하는 알고리즘이 존재하며 나아가 모델의 더 좋은 예측과 분류 정확도를 위하여 다중모델을 기반으로 하는 앙상블 기법을 적용한 연구도 진행되고 있다. 본 논문에서는 의료데이터의 보다 높은 예측의 신뢰도를 위하여 기존의 앙상블 기법에 사분위간 범위를 적용한 I-ENSEMBLE을 제안한다. 갑상선 기능 저하증 진단을 위한 데이터를 통해 실험 적용한 결과 앙상블의 대표적인 기법인 Bagging, Boosting, Stacking기법 모두 기존에 비해 현저하게 향상된 정확도를 나타내었다. 또한 기존 단일모델 기법과 비교하여 다중모델인 앙상블 기법에 사분위간 범위를 적용했을 때 더 뚜렷한 효과를 나타냄을 확인하였다.

여름강수량의 단기예측을 위한 Multi-Ensemble GCMs 기반 시공간적 Downscaling 기법 개발 (Development of Multi-Ensemble GCMs Based Spatio-Temporal Downscaling Scheme for Short-term Prediction)

  • 권현한;민영미
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2009년도 학술발표회 초록집
    • /
    • pp.1142-1146
    • /
    • 2009
  • A rainfall simulation and forecasting technique that can generate daily rainfall sequences conditional on multi-model ensemble GCMs is developed and applied to data in Korea for the major rainy season. The GCM forecasts are provided by APEC climate center. A Weather State Based Downscaling Model (WSDM) is used to map teleconnections from ocean-atmosphere data or key state variables from numerical integrations of Ocean-Atmosphere General Circulation Models to simulate daily sequences at multiple rain gauges. The method presented is general and is applied to the wet season which is JJA(June-July-August) data in Korea. The sequences of weather states identified by the EM algorithm are shown to correspond to dominant synoptic-scale features of rainfall generating mechanisms. Application of the methodology to seasonal rainfall forecasts using empirical teleconnections and GCM derived climate forecast are discussed.

  • PDF

A Climate Prediction Method Based on EMD and Ensemble Prediction Technique

  • Bi, Shuoben;Bi, Shengjie;Chen, Xuan;Ji, Han;Lu, Ying
    • Asia-Pacific Journal of Atmospheric Sciences
    • /
    • 제54권4호
    • /
    • pp.611-622
    • /
    • 2018
  • Observed climate data are processed under the assumption that their time series are stationary, as in multi-step temperature and precipitation prediction, which usually leads to low prediction accuracy. If a climate system model is based on a single prediction model, the prediction results contain significant uncertainty. In order to overcome this drawback, this study uses a method that integrates ensemble prediction and a stepwise regression model based on a mean-valued generation function. In addition, it utilizes empirical mode decomposition (EMD), which is a new method of handling time series. First, a non-stationary time series is decomposed into a series of intrinsic mode functions (IMFs), which are stationary and multi-scale. Then, a different prediction model is constructed for each component of the IMF using numerical ensemble prediction combined with stepwise regression analysis. Finally, the results are fit to a linear regression model, and a short-term climate prediction system is established using the Visual Studio development platform. The model is validated using temperature data from February 1957 to 2005 from 88 weather stations in Guangxi, China. The results show that compared to single-model prediction methods, the EMD and ensemble prediction model is more effective for forecasting climate change and abrupt climate shifts when using historical data for multi-step prediction.

Multi-Time Window Feature Extraction Technique for Anger Detection in Gait Data

  • Beom Kwon;Taegeun Oh
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권4호
    • /
    • pp.41-51
    • /
    • 2023
  • 본 논문에서는 보행자의 걸음걸이로부터 분노 감정 검출을 위한 다중 시간 윈도 특징 추출 기술을 제안한다. 기존의 걸음걸이 기반 감정인식 기술에서는 보행자의 보폭, 한 보폭에 걸리는 시간, 보행 속력, 목과 흉부의 전방 기울기 각도(Forward Tilt Angle)를 계산하고, 전체 구간에 대해서 최솟값, 평균값, 최댓값을 계산해서 이를 특징으로 활용하였다. 하지만 이때 각 특징은 보행 전체 구간에 걸쳐 항상 균일하게 변화가 발생하는 것이 아니라, 때로는 지역적으로 변화가 발생한다. 이에 본 연구에서는 장기부터 중기 그리고 단기까지 즉, 전역적인 특징과 지역적인 특징을 모두 추출할 수 있는 다중 시간 윈도 특징 추출(Multi-Time Window Feature Extraction) 기술을 제안한다. 또한, 제안하는 특징 추출 기술을 통해 각 구간에서 추출된 특징들을 효과적으로 학습할 수 있는 앙상블 모델을 제안한다. 제안하는 앙상블 모델(Ensemble Model)은 복수의 분류기로 구성되며, 각 분류기는 서로 다른 다중 시간 윈도에서 추출된 특징으로 학습된다. 제안하는 특징 추출 기술과 앙상블 모델의 효과를 검증하기 위해 일반인에게 공개된 3차원 걸음걸이 데이터 세트를 사용하여 시험 평가를 수행했다. 그 결과, 4가지 성능 평가지표에 대해서 제안하는 앙상블 모델이 기존의 특징 추출 기술로 학습된 머신러닝(Machine Learning) 모델들과 비교하여 최고의 성능을 달성하는 것을 입증하였다.

An Ensemble Model for Credit Default Discrimination: Incorporating BERT-based NLP and Transformer

  • Sophot Ky;Ju-Hong Lee
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.624-626
    • /
    • 2023
  • Credit scoring is a technique used by financial institutions to assess the creditworthiness of potential borrowers. This involves evaluating a borrower's credit history to predict the likelihood of defaulting on a loan. This paper presents an ensemble of two Transformer based models within a framework for discriminating the default risk of loan applications in the field of credit scoring. The first model is FinBERT, a pretrained NLP model to analyze sentiment of financial text. The second model is FT-Transformer, a simple adaptation of the Transformer architecture for the tabular domain. Both models are trained on the same underlying data set, with the only difference being the representation of the data. This multi-modal approach allows us to leverage the unique capabilities of each model and potentially uncover insights that may not be apparent when using a single model alone. We compare our model with two famous ensemble-based models, Random Forest and Extreme Gradient Boosting.

IMPROVING THE ESP ACCURACY WITH COMBINATION OF PROBABILISTIC FORECASTS

  • Yu, Seung-Oh;Kim, Young-Oh
    • Water Engineering Research
    • /
    • 제5권2호
    • /
    • pp.101-109
    • /
    • 2004
  • Aggregating information by combining forecasts from two or more forecasting methods is an alternative to using forecasts from just a single method to improve forecast accuracy. This paper describes the development and use of a monthly inflow forecast model based on an optimal linear combination (OLC) of forecasts derived from naive, persistence, and Ensemble Streamflow Prediction (ESP) forecasts. Using the cross-validation technique, the OLC model made 1-month ahead probabilistic forecasts for the Chungju multi-purpose dam inflows for 15 years. For most of the verification months, the skill associated with the OLC forecast was superior to those drawn from the individual forecast techniques. Therefore this study demonstrates that OLC can improve the accuracy of the ESP forecast, especially during the dry season. This study also examined the value of the OLC forecasts in reservoir operations. Stochastic Dynamic Programming (SDP) derived the optimal operating policy for the Chungju multi-purpose dam operation and the derived policy was simulated using the 15-year observed inflows. The simulation results showed the SDP model that updated its probability from the new OLC forecast provided more efficient operation decisions than the conventional SDP model.

  • PDF

레이더 강우 앙상블과 유출 블랜딩 기법을 이용한 최적 유출 수문곡선 산정 (Estimation of optimal runoff hydrograph using radar rainfall ensemble and blending technique of rainfall-runoff models)

  • 이명진;강나래;김종성;김형수
    • 한국수자원학회논문집
    • /
    • 제51권3호
    • /
    • pp.221-233
    • /
    • 2018
  • 최근 기후변화로 인한 국지성 호우 및 태풍 피해가 자주 발생하고 있다. 이와 같은 피해를 저감하기 위해서는 정확한 강우의 예측과 홍수량 산정이 필요하다. 그러나 지점 및 레이더 강우 시 공간적 오차를 포함하고 있고, 유출 모형에 의한 유출수문곡선 역시 보정을 실시하더라도 관측유량과 오차를 가지고 있어 불확실성이 존재한다. 따라서 본 연구에서는 확률론적 강우 앙상블을 생성하여 강우의 불확실성을 확인하였다. 또한 유출 결과를 통해 수문 모형의 불확실성을 확인하였고, 블랜딩 기법을 이용하여 하나의 통합된 유출 수문곡선을 제시하였다. 생성된 강우앙상블은 강우강도 및 지형적인 영향으로 레이더가 과소 관측이 될 때, 강우 앙상블의 불확실성이 큰 것을 확인하였고, 블랜딩 기법을 적용하여 산정된 최적 유출 수문곡선은 유출모형의 불확실성을 크게 줄이는 것으로 나타났다. 본 연구 결과를 활용한다면, 정확한 홍수량 산정 및 예측을 통해 집중호우로 인한 피해를 줄일 수 있을 것으로 판단된다.

스태킹 앙상블 모델을 이용한 시간별 지상 오존 공간내삽 정확도 향상 (Improved Estimation of Hourly Surface Ozone Concentrations using Stacking Ensemble-based Spatial Interpolation)

  • 김예진;강은진;조동진;이시우;임정호
    • 한국지리정보학회지
    • /
    • 제25권3호
    • /
    • pp.74-99
    • /
    • 2022
  • 지상 오존은 차량 및 산업 현장에서 배출된 질소화합물(Nitrogen oxides; NOx)과 휘발성 유기화합물(Volatile Organic Compounds; VOCs)의 광화학 반응을 통해 생성되어 식생 및 인체에 악영향을 끼친다. 국내에서는 실시간 오존 모니터링을 수행하고 있지만 관측소 기반으로, 미관측 지역의 공간 분포 분석에 어려움이 있다. 본 연구에서는 스태킹 앙상블 기법을 활용하여 매시간 남한 지역의 지상 오존 농도를 1.5km의 공간해상도로 공간내삽하였고, 5-fold 교차검증을 수행하였다. 스태킹 앙상블의 베이스 모델로는 코크리깅(Cokriging), 다중 선형 회귀(Multi-Linear Regression; MLR), 랜덤 포레스트(Random Forest; RF), 서포트 벡터 회귀(Support Vector Regression; SVR)를 사용하였다. 각 모델의 정확도 비교 평가 결과, 스태킹 앙상블 모델이 연구 기간 내 시간별 평균 R 및 RMSE이 0.76, 0.0065ppm으로 가장 높은 성능을 보여주었다. 스태킹 앙상블 모델의 지상 오존 농도 지도는 복잡한 지형 및 도시화 변수의 특징이 잘 드러나며 더 넓은 농도 범위를 보여주었다. 개발된 모델은 매시간 공간적으로 연속적인 공간 지도를 산출할 수 있을 뿐만 아니라 8시간 평균치 산출 및 시계열 분석에 있어서도 활용 가능성이 클 것으로 기대된다.

보안 인텔리전트 유형 분류를 위한 다중 프로파일링 앙상블 모델 (Ensemble Model using Multiple Profiles for Analytical Classification of Threat Intelligence)

  • 김영수
    • 한국콘텐츠학회논문지
    • /
    • 제17권3호
    • /
    • pp.231-237
    • /
    • 2017
  • 최근 기업의 보안 시스템으로부터 수집되는 보안 인텔리전스 수는 악성코드의 확산으로 인해 기하급수적으로 증가하고 있다. 빅 데이터 환경이 도래하면서 기업들은 침해사고에 대한 다양한 정보를 이용할 수 있게 되면서 기업이 수집할 수 있는 침해사고 정보가 다양해지고 있다. 이에 따라 보안 인텔리전스를 구성하고 있는 침해사고의 다양한 속성을 사용하여 보다 정확하게 유사침해사고를 그룹별로 분류할 필요성이 요구되고 있다. 본 연구에서는 유사도 비교 분석 이론에 근거하여 침해사고를 공격유형과 침해자원을 고려한 다중 프로파일을 개발하고, 이를 활용하여 보안 인텔리전스를 구성하고 있는 침해사고 유형 분류의 정확성을 개선하는 다중 프로파일 기반 앙상블 모델을 제안한다. 제안 모델은 침입탐지시스템에서 수집된 계층적 침해자원에 대한 유사도 분석을 통해 새로운 침해사고를 효과적으로 분석할 수 있다. 사실적이고 의미 있는 침해사고의 구성을 통한 유형 분류는 새로운 침해사고에 대한 유사 침해사고를 정확하게 분류 제공함으로써 분석의 실용성을 향상시킨다.

머신러닝 CatBoost 다중 분류 알고리즘을 이용한 조류 발생 예측 모형 성능 평가 연구 (Evaluation of Multi-classification Model Performance for Algal Bloom Prediction Using CatBoost)

  • 김준오;박정수
    • 한국물환경학회지
    • /
    • 제39권1호
    • /
    • pp.1-8
    • /
    • 2023
  • Monitoring and prediction of water quality are essential for effective river pollution prevention and water quality management. In this study, a multi-classification model was developed to predict chlorophyll-a (Chl-a) level in rivers. A model was developed using CatBoost, a novel ensemble machine learning algorithm. The model was developed using hourly field monitoring data collected from January 1 to December 31, 2015. For model development, chl-a was classified into class 1 (Chl-a≤10 ㎍/L), class 2 (10<Chl-a≤50 ㎍/L), and class 3 (Chl-a>50 ㎍/L), where the number of data used for the model training were 27,192, 11,031, and 511, respectively. The macro averages of precision, recall, and F1-score for the three classes were 0.58, 0.58, and 0.58, respectively, while the weighted averages were 0.89, 0.90, and 0.89, for precision, recall, and F1-score, respectively. The model showed relatively poor performance for class 3 where the number of observations was much smaller compared to the other two classes. The imbalance of data distribution among the three classes was resolved by using the synthetic minority over-sampling technique (SMOTE) algorithm, where the number of data used for model training was evenly distributed as 26,868 for each class. The model performance was improved with the macro averages of precision, rcall, and F1-score of the three classes as 0.58, 0.70, and 0.59, respectively, while the weighted averages were 0.88, 0.84, and 0.86 after SMOTE application.