• 제목/요약/키워드: SHAP model

검색결과 64건 처리시간 0.023초

분리학습 모델을 이용한 수출액 예측 및 수출 유망국가 추천 (Export Prediction Using Separated Learning Method and Recommendation of Potential Export Countries)

  • 장영진;원종관;이채록
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.69-88
    • /
    • 2022
  • 최근 코로나19 팬데믹으로 인해 전 세계 경제와 외교 상황에 급격한 변화가 일어나고 있으며, 수출 의존도가 높은 한국은 이러한 변화에 큰 영향을 받고 있다. 본 연구에서는 기업의 수출전략 수립 및 의사결정 지원을 위해 차년도 수출액 예측 모델을 구축하고, 모델의 예측 결과를 바탕으로 수출 유망국가 추천 방식을 제안한다. 본 연구에서는 모델이 다양한 정보를 학습할 수 있도록 국가별, 품목별, 거시경제 변수 등 선행 연구에서 중요하게 사용된 변수를 다방면으로 수집하였다. 수집한 데이터를 분석한 결과, 국가와 품목에 따라서 수출액의 분포가 매우 비대칭적인 것을 확인할 수 있었다. 따라서, 모델의 예측 성능을 향상시키고 설명력을 확보하기 위해서 분리학습 방식을 사용하였다. 분리학습은 전체 데이터를 동질적인 하위 그룹으로 분리하고 개별 모델을 구축하는 방식으로, 본 연구에서는 수출액을 기준으로 5개 구간으로 데이터를 분리하였다. 모델 학습 과정에서 구간별 특성을 반영하여 구간1부터 구간4까지는 LightGBM을 사용하고, 구간5는 지수이동평균을 사용하였으며 이를 통해 모델의 예측 성능을 향상시킬 수 있었다. 모델의 설명력 확보를 위해서 추가로 구간별 모델의 SHAP-value를 계산하고 중요도가 높은 변수를 제시했다. 또한, 본 연구에서는 예측 모델을 기반으로 2단계 수출 유망국가 추천 방식을 제안했다. 효율적인 수출 전략 수립을 위해서 BCG 매트릭스와 국가별 점수 산출 방식을 사용하였고, 품목별 유망 국가 순위와 수출 관련 주요 정보들을 제공하였다. 본 연구는 다양한 정보를 학습한 머신러닝 모델로 여러 국가와 품목에 대한 예측을 실시하고, 이 과정에서 분리학습 방식으로 예측 성능을 향상시켰다는 점에서 의의가 있다. 또한, 현재 무역 관련 서비스들이 과거 데이터에 기반한 정보를 제공하고 있음을 고려할 때, 본 연구에서 제안한 예측 모델과 유망국가 추천 방식은 기업들의 미래 수출 전략 수립 및 동향 파악에 유용하게 사용될 수 있을 것으로 기대된다.

미국 프로농구(NBA)의 플레이오프 진출에 영향을 미치는 주요 변수 예측: 3점과 턴오버 속성을 중심으로 (Prediction of Key Variables Affecting NBA Playoffs Advancement: Focusing on 3 Points and Turnover Features)

  • 안세환;김영민
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.263-286
    • /
    • 2022
  • 본 연구는 웹 크롤링을 이용하여 1990년부터 2022년까지 총 32개년에 해당하는 NBA 통계 정보를 획득하고, 탐색적 데이터 분석을 통해 관심 변수를 관찰하고 관련된 파생변수를 생성한다. 입력 데이터에 대한 정제 과정을 거쳐 무의미한 변수들을 제거하고, 남은 변수에 대한 상관관계 분석, t 검정 및 분산분석을 수행하였다. 관심 변수에 대해 플레이오프 진출/미진출 그룹 간 평균의 차이를 검정하였고, 이를 보완하기 위해 순위를 기준으로 하는 3개 집단(상위/중위/하위) 간 평균 차이를 재확인하였다. 입력 데이터 중 올해 시즌 데이터만을 테스트 세트로 활용하였고, 모델 훈련을 위해서는 훈련 세트와 검증 세트를 분할하여 5-fold 교차검증을 수행하였다. 교차검증 결과와 시험 세트를 이용한 최종 분석 결과를 비교하여 성능 지표에서 차이가 없음을 확인함으로써 과적합 문제를 해결하였다. 원시 데이터의 품질 수준이 높고, 통계적 가정을 만족하기 때문에 적은 수준의 데이터 세트임에도 불구하고 대부분 모델에서 좋은 결과를 나타냈다. 본 연구는 단순히 머신러닝을 이용하여 NBA의 경기 결과를 예측하거나 플레이오프 진출 여부만을 분류하는 것에서 그치지 않고, 입력 특성의 중요도를 파악하여 높은 중요도를 갖는 주요 변수에 본 연구의 관심 대상 변수가 포함되는지를 확인하였다. Shap value의 시각화를 통해 특성 중요도의 결과만으로 해석할 수 없었던 한계를 극복하고, 변수의 진입/제거 과정에서 중요도 산출에 일관성이 부족하다는 점을 보완할 수 있었다. 본 연구에서 관심 대상으로 분류했던 3점 및 실책과 관련된 다수의 변수가 미국 프로농구에서의 플레이오프 진출에 영향을 미치는 주요 변수에 포함되는 것으로 나타났다. 본 연구는 기존의 스포츠 데이터 분석 분야에서 다루었던 경기 결과, 플레이오프 및 우승 예측 등의 주제를 포함하고 분석을 위해 여러 머신러닝 모델을 비교 분석했다는 점에서 유사성이 있지만, 사전에 관심 속성을 설정하고, 이를 통계적으로 검증함으로써 머신러닝 분석 결과와 비교하였다는 측면에서 차이가 있다. 또한 XAI 모델 중 하나인 SHAP를 이용하여 설명 가능한 시각화 결과를 제시함으로써 기존 연구와 차별화하였다.

빅데이터 기반 2형 당뇨 예측 알고리즘 개발 (Development of Type 2 Prediction Prediction Based on Big Data)

  • 심현;김현욱
    • 한국전자통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.999-1008
    • /
    • 2023
  • 당뇨병과 같은 만성 질환의 조기 예측은 중요한 이슈이며, 그중에서도 당뇨 예측의 정확도 향상은 매우 중요하다. 당뇨 예측을 위한 다양한 기계 학습 및 딥 러닝 기반 방법론을 도입하고 있으나, 이러한 기술들은 다른 방법론보다 더 우수한 성능을 위해 대량의 데이터를 필요로 하며, 복잡한 데이터 모델 때문에 학습 비용이 높다. 본 연구에서는 pima 데이터셋과 k-fold 교차 검증을 사용한 DNN이 당뇨 진단 모델의 효율성을 감소시킨다는 주장을 검증하고자 한다. 의사 결정 트리, SVM, 랜덤 포레스트, 로지스틱 회귀, KNN 및 다양한 앙상블 기법과 같은 기계 학습 분류 방법을 사용하여 어떤 알고리즘이 최상의 예측 결과를 내는지 결정하였다. 모든 분류 모델에 대한 훈련 및 테스트 후 제안된 시스템은 ADASYN 방법과 함께 XGBoost 분류기에서 최상의 결과를 제공하였으며, 정확도는 81%, F1 계수는 0.81, AUC는 0.84였다. 또한 도메인 적응 방법이 제안된 시스템의 다양성을 보여주기 위해 구현되었다. LIME 및 SHAP 프레임워크를 사용한 설명 가능한 AI 접근 방식이 모델이 최종 결과를 어떻게 예측하는지 이해하기 위해 구현되었다.

Machine learning-based probabilistic predictions of shear resistance of welded studs in deck slab ribs transverse to beams

  • Vitaliy V. Degtyarev;Stephen J. Hicks
    • Steel and Composite Structures
    • /
    • 제49권1호
    • /
    • pp.109-123
    • /
    • 2023
  • Headed studs welded to steel beams and embedded within the concrete of deck slabs are vital components of modern composite floor systems, where safety and economy depend on the accurate predictions of the stud shear resistance. The multitude of existing deck profiles and the complex behavior of studs in deck slab ribs makes developing accurate and reliable mechanical or empirical design models challenging. The paper addresses this issue by presenting a machine learning (ML) model developed from the natural gradient boosting (NGBoost) algorithm capable of producing probabilistic predictions and a database of 464 push-out tests, which is considerably larger than the databases used for developing existing design models. The proposed model outperforms models based on other ML algorithms and existing descriptive equations, including those in EC4 and AISC 360, while offering probabilistic predictions unavailable from other models and producing higher shear resistances for many cases. The present study also showed that the stud shear resistance is insensitive to the concrete elastic modulus, stud welding type, location of slab reinforcement, and other parameters considered important by existing models. The NGBoost model was interpreted by evaluating the feature importance and dependence determined with the SHapley Additive exPlanations (SHAP) method. The model was calibrated via reliability analyses in accordance with the Eurocodes to ensure that its predictions meet the required reliability level and facilitate its use in design. An interactive open-source web application was created and deployed to the cloud to allow for convenient and rapid stud shear resistance predictions with the developed model.

BiLSTM 기반의 설명 가능한 태양광 발전량 예측 기법 (Explainable Photovoltaic Power Forecasting Scheme Using BiLSTM)

  • 박성우;정승민;문재욱;황인준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권8호
    • /
    • pp.339-346
    • /
    • 2022
  • 최근 화석연료의 무분별한 사용으로 인한 자원고갈 문제 및 기후변화 문제 등이 심각해짐에 따라 화석연료를 대체할 수 있는 신재생에너지에 대한 관심이 증가하고 있다. 특히 신재생에너지 중 태양광 에너지는 다른 신재생에너지원에 비해 고갈될 염려가 적고, 공간적인 제약이 크지 않아 전국적으로 수요가 증가하고 있다. 태양광 발전 시스템에서 생산된 전력을 효율적으로 사용하기 위해서는 보다 정확한 태양광 발전량 예측 모델이 필요하다. 이를 위하여 다양한 기계학습 및 심층학습 기반의 태양광 발전량 예측 모델이 제안되었지만, 심층학습 기반의 예측 모델은 모델 내부에서 일어나는 의사결정 과정을 해석하기가 어렵다는 단점을 보유하고 있다. 이러한 문제를 해결하기 위하여 설명 가능한 인공지능 기술이 많은 주목을 받고 있다. 설명 가능한 인공지능 기술을 통하여 예측 모델의 결과 도출 과정을 해석할 수 있다면 모델의 신뢰성을 확보할 수 있을 뿐만 아니라 해석된 도출 결과를 바탕으로 모델을 개선하여 성능 향상을 기대할 수도 있다. 이에 본 논문에서는 BiLSTM(Bidirectional Long Short-Term Memory)을 사용하여 모델을 구성하고, 모델에서 어떻게 예측값이 도출되었는지를 SHAP(SHapley Additive exPlanations)을 통하여 설명하는 설명 가능한 태양광 발전량 예측 기법을 제안한다.

주거환경에 대한 거주민의 만족도와 영향요인 분석 - 직방 아파트 리뷰 빅데이터와 딥러닝 기반 BERT 모형을 활용하여 - (Analysis of Resident's Satisfaction and Its Determining Factors on Residential Environment: Using Zigbang's Apartment Review Bigdata and Deeplearning-based BERT Model)

  • 권준현;이수기
    • 지역연구
    • /
    • 제39권2호
    • /
    • pp.47-61
    • /
    • 2023
  • 주거환경에 대한 만족도는 주거지 선택 및 이주 등에 영향을 미치는 주요인으로, 도시에서의 삶의 질과 직접적으로 연결된다. 최근 온라인 부동산 서비스의 증가로 주거환경에 대한 사람들의 만족도를 쉽게 확인할 수 있으며, 사람들이 평가하는 내용을 바탕으로 주거환경 만족 요인에 대한 분석이 가능하다. 이는 기존에 활용되던 설문조사 등의 방식보다 더 많은 양의 평가를 효율적으로 활용할 수 있음을 의미한다. 본 연구는 서울특별시를 대상으로 온라인 부동산 서비스인 '직방'에서 수집된 약 3만여 건의 아파트 리뷰를 분석에 활용하였다. 리뷰에 포함된 추천 평점을 토대로, 아파트 리뷰를 긍정적, 부정적으로 분류하고, 딥 러닝 기반 자연어 처리 모델인 BERT(Bidirectional Encoder Representations from Transformers)를 사용하여 리뷰를 자동으로 분류하는 모델을 개발하였다. 이후 SHAP(SHAPley Additive exPlanation)를 이용하여 분류에 중요한 역할을 하는 단어 토큰을 도출함으로 주거환경 만족도의 영향요인을 도출하였다. 더 나아가 Word2Vec을 이용하여 관련 키워드를 분석함으로써 주거환경에 대한 만족도 개선을 위한 우선 고려사항을 제시하였다. 본 연구는 거주자의 정성평가 자료인 아파트 리뷰 빅데이터와 딥러닝을 활용하여 주거환경에 대한 만족도를 긍정적, 부정적으로 자동 분류하는 모형을 제안하여 그 영향요인을 도출하는데 의의가 있다. 분석결과는 주거환경 만족도 향상을 위한 기초자료로 활용될 수 있으며 향후 아파트 단지 인근 주거환경 평가, 신규 단지 및 기반시설의 설계 및 평가 등에 활용될 수 있다.

XGBoost를 이용한 교통노드 및 교통링크 기반의 교통사고 예측모델 개발 (Development of Traffic Accident Prediction Model Based on Traffic Node and Link Using XGBoost)

  • 김운식;김영규;고중훈
    • 산업경영시스템학회지
    • /
    • 제45권2호
    • /
    • pp.20-29
    • /
    • 2022
  • This study intends to present a traffic node-based and link-based accident prediction models using XGBoost which is very excellent in performance among machine learning models, and to develop those models with sustainability and scalability. Also, we intend to present those models which predict the number of annual traffic accidents based on road types, weather conditions, and traffic information using XGBoost. To this end, data sets were constructed by collecting and preprocessing traffic accident information, road information, weather information, and traffic information. The SHAP method was used to identify the variables affecting the number of traffic accidents. The five main variables of the traffic node-based accident prediction model were snow cover, precipitation, the number of entering lanes and connected links, and slow speed. Otherwise, those of the traffic link-based accident prediction model were snow cover, precipitation, the number of lanes, road length, and slow speed. As the evaluation results of those models, the RMSE values of those models were each 0.2035 and 0.2107. In this study, only data from Sejong City were used to our models, but ours can be applied to all regions where traffic nodes and links are constructed. Therefore, our prediction models can be extended to a wider range.

Explainable AI와 Transformer를 이용한 수술 중 저혈압 실시간 예측 모델 개발 (Development of a real-time prediction model for intraoperative hypotension using Explainable AI and Transformer)

  • 정은서;김상현;우지영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.35-36
    • /
    • 2024
  • 전신 마취 수술 중 저혈압의 발생은 다양한 합병증을 유발하며 이를 사전에 예측하여 대응하는 것은 매우 중요한 일이다. 따라서 본 연구에서는 SHAP 모델을 통해 변수 선택을 진행하고, Transformer 모델을 이용해 저혈압 발생 여부를 예측함으로써 임상적 의사결정을 지원한다. 또한 기존 연구들과는 달리, 수술실에서 수집되는 데이터를 기반으로 하여 높은 범용성을 가진다. 비침습적 혈압 예측에서 RMSE 9.46, MAPE 4.4%를 달성하였고, 저혈압 여부를 예측에서는 저혈압 기준 F1-Score 0.75로 우수한 결과를 얻었다.

  • PDF

머신러닝을 활용한 수도권 약수터 수질 예측 모델 개발 (Development of a water quality prediction model for mineral springs in the metropolitan area using machine learning)

  • 임영우;엄지연;곽기영
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.307-325
    • /
    • 2023
  • 코로나19 팬데믹의 장기화로 인해 실내 생활에 지쳐가는 사람들이 우울감, 무기력증 등을 해소하기 위해 근거리의 산과 국립공원을 찾는 빈도가 폭발적으로 증가하였다. 자연으로 나온 수많은 사람들이 오가는 걸음을 멈추고 숨을 돌리며 쉬어가는 장소가 있는데 바로 약수터이다. 산이나 국립공원이 아니더라도 근린공원 또는 산책로에서도 간간이 찾아볼 수 있는 약수터는 수도권에만 약 6백여개가 위치해 있다. 하지만 불규칙적이고 수작업으로 수행되는 수질검사로 인해 사람들은 실시간으로 검사 결과를 알 수 없는 상태에서 약수를 음용하게 된다. 따라서 본 연구에서는 약수터 수질에 영향을 미치는 요인을 탐색하고 다양한 곳에 흩어져 있는 데이터를 수집하여 실시간으로 약수터 수질을 예측할 수 있는 모델을 개발하고자 한다. 데이터 수집의 한계로 인해 서울과 경기로 지역을 한정한 후 데이터 관리가 잘 이루어지고 있는 18개 시의 약 300여개 약수터를 대상으로 2015~2020년의 수질 검사 데이터를 확보하였다. 약수터 수질 적합 여부에 영향을 미칠 것으로 여겨지는 다양한 요인들 중 두 차례의 검토를 거쳐 총 10개의 요인을 최종 선별하였다. 최근 주목받고 있는 자동화 머신러닝 기술인 AutoML 기법을 활용하여 20여가지의 머신러닝 기법들 중 예측 성능 기준 상위 5개의 모델을 도출하였으며 그 중 catboost 모델이 75.26%의 예측 분류 정확도로 가장 높은 성능을 가지고 있음을 확인하였다. 추가로 SHAP 기법을 통해 분석에 사용한 변인들이 예측에 미치는 절대적인 영향력을 살펴본 결과 직전 수질 검사에서 부적합 판정을 받았는지 여부가 가장 중요한 요인이었으며 그 외 평균 기온, 과거 연속 2번 수질 부적합 판정 기록 유무, 수질 검사 당일 기온, 약수터 고도 등이 수질 부적합 여부에 영향을 미치고 있음을 확인하였다.

Form-finding of lifting self-forming GFRP elastic gridshells based on machine learning interpretability methods

  • Soheila, Kookalani;Sandy, Nyunn;Sheng, Xiang
    • Structural Engineering and Mechanics
    • /
    • 제84권5호
    • /
    • pp.605-618
    • /
    • 2022
  • Glass fiber reinforced polymer (GFRP) elastic gridshells consist of long continuous GFRP tubes that form elastic deformations. In this paper, a method for the form-finding of gridshell structures is presented based on the interpretable machine learning (ML) approaches. A comparative study is conducted on several ML algorithms, including support vector regression (SVR), K-nearest neighbors (KNN), decision tree (DT), random forest (RF), AdaBoost, XGBoost, category boosting (CatBoost), and light gradient boosting machine (LightGBM). A numerical example is presented using a standard double-hump gridshell considering two characteristics of deformation as objective functions. The combination of the grid search approach and k-fold cross-validation (CV) is implemented for fine-tuning the parameters of ML models. The results of the comparative study indicate that the LightGBM model presents the highest prediction accuracy. Finally, interpretable ML approaches, including Shapely additive explanations (SHAP), partial dependence plot (PDP), and accumulated local effects (ALE), are applied to explain the predictions of the ML model since it is essential to understand the effect of various values of input parameters on objective functions. As a result of interpretability approaches, an optimum gridshell structure is obtained and new opportunities are verified for form-finding investigation of GFRP elastic gridshells during lifting construction.