• 제목/요약/키워드: SHapley Additive exPlanations (SHAP) algorithm

검색결과 8건 처리시간 0.024초

Investigation of characteristic values in TDR waveform using SHapley Additive exPlanations (SHAP) for dielectric constant estimation during curing time

  • Won-Taek Hong;WooJin Han;Yong-Hoon Byun;Hyung-Koo Yoon
    • Smart Structures and Systems
    • /
    • 제34권1호
    • /
    • pp.25-32
    • /
    • 2024
  • As materials cure, the internal electrical flow changes, leading to variations in the dielectric constant over time. This study aims to assess the impact of voltage values extracted from time domain reflectometry (TDR) waveforms, measured during the curing of materials, on predicting the dielectric constant. The experiments are conducted over a curing period ranging from 60 to 8640 minutes, with 30 TDR trials. From the measured waveforms, values of V0, V1, V2, Vf, and Δt are deduced. Additionally, curing time is included as an input variable. Groups A and B are distinguished based on the presence or absence of Δt, indicating a physical relationship between Δt and the dielectric constant. The dielectric constant is set as the output variable. The SHapley Additive exPlanations (SHAP) algorithm is applied to the compiled data. The results indicate that Δt and V1 are the most influential input variables in both Group-A and Group-B. The study also presents the distribution of SHAP values and interacts SHAP values to infer the interrelationships among the input variables. To validate the reliability of these findings, the partial dependence (PD) algorithm is applied to estimate the marginal effects of each input variable, with outcomes closely aligning with those of the SHAP algorithm. This research suggests that understanding the contributions and proportional relationships of each input variable can aid in interpreting the relationships among various material properties.

Experimental Analysis of Bankruptcy Prediction with SHAP framework on Polish Companies

  • Tuguldur Enkhtuya;Dae-Ki Kang
    • International journal of advanced smart convergence
    • /
    • 제12권1호
    • /
    • pp.53-58
    • /
    • 2023
  • With the fast development of artificial intelligence day by day, users are demanding explanations about the results of algorithms and want to know what parameters influence the results. In this paper, we propose a model for bankruptcy prediction with interpretability using the SHAP framework. SHAP (SHAPley Additive exPlanations) is framework that gives a visualized result that can be used for explanation and interpretation of machine learning models. As a result, we can describe which features are important for the result of our deep learning model. SHAP framework Force plot result gives us top features which are mainly reflecting overall model score. Even though Fully Connected Neural Networks are a "black box" model, Shapley values help us to alleviate the "black box" problem. FCNNs perform well with complex dataset with more than 60 financial ratios. Combined with SHAP framework, we create an effective model with understandable interpretation. Bankruptcy is a rare event, then we avoid imbalanced dataset problem with the help of SMOTE. SMOTE is one of the oversampling technique that resulting synthetic samples are generated for the minority class. It uses K-nearest neighbors algorithm for line connecting method in order to producing examples. We expect our model results assist financial analysts who are interested in forecasting bankruptcy prediction of companies in detail.

Hybrid machine learning with moth-flame optimization methods for strength prediction of CFDST columns under compression

  • Quang-Viet Vu;Dai-Nhan Le;Thai-Hoan Pham;Wei Gao;Sawekchai Tangaramvong
    • Steel and Composite Structures
    • /
    • 제51권6호
    • /
    • pp.679-695
    • /
    • 2024
  • This paper presents a novel technique that combines machine learning (ML) with moth-flame optimization (MFO) methods to predict the axial compressive strength (ACS) of concrete filled double skin steel tubes (CFDST) columns. The proposed model is trained and tested with a dataset containing 125 tests of the CFDST column subjected to compressive loading. Five ML models, including extreme gradient boosting (XGBoost), gradient tree boosting (GBT), categorical gradient boosting (CAT), support vector machines (SVM), and decision tree (DT) algorithms, are utilized in this work. The MFO algorithm is applied to find optimal hyperparameters of these ML models and to determine the most effective model in predicting the ACS of CFDST columns. Predictive results given by some performance metrics reveal that the MFO-CAT model provides superior accuracy compared to other considered models. The accuracy of the MFO-CAT model is validated by comparing its predictive results with existing design codes and formulae. Moreover, the significance and contribution of each feature in the dataset are examined by employing the SHapley Additive exPlanations (SHAP) method. A comprehensive uncertainty quantification on probabilistic characteristics of the ACS of CFDST columns is conducted for the first time to examine the models' responses to variations of input variables in the stochastic environments. Finally, a web-based application is developed to predict ACS of the CFDST column, enabling rapid practical utilization without requesting any programing or machine learning expertise.

CNC 가공 공정 불량 예측 및 변수 영향력 분석 (Defect Prediction and Variable Impact Analysis in CNC Machining Process)

  • 홍지수;정영진;강성우
    • 품질경영학회지
    • /
    • 제52권2호
    • /
    • pp.185-199
    • /
    • 2024
  • Purpose: The improvement of yield and quality in product manufacturing is crucial from the perspective of process management. Controlling key variables within the process is essential for enhancing the quality of the produced items. In this study, we aim to identify key variables influencing product defects and facilitate quality enhancement in CNC machining process using SHAP(SHapley Additive exPlanations) Methods: Firstly, we conduct model training using boosting algorithm-based models such as AdaBoost, GBM, XGBoost, LightGBM, and CatBoost. The CNC machining process data is divided into training data and test data at a ratio 9:1 for model training and test experiments. Subsequently, we select a model with excellent Accuracy and F1-score performance and apply SHAP to extract variables influencing defects in the CNC machining process. Results: By comparing the performances of different models, the selected CatBoost model demonstrated an Accuracy of 97% and an F1-score of 95%. Using Shapley Value, we extract key variables that positively of negatively impact the dependent variable(good/defective product). We identify variables with relatively low importance, suggesting variables that should be prioritized for management. Conclusion: The extraction of key variables using SHAP provides explanatory power distinct from traditional machine learning techniques. This study holds significance in identifying key variables that should be prioritized for management in CNC machining process. It is expected to contribute to enhancing the production quality of the CNC machining process.

MLOps를 위한 효율적인 AI 모델 드리프트 탐지방안 연구 (A Study on Efficient AI Model Drift Detection Methods for MLOps)

  • 이예은;이태진
    • 인터넷정보학회논문지
    • /
    • 제24권5호
    • /
    • pp.17-27
    • /
    • 2023
  • 오늘날 AI(Artificial Intelligence) 기술이 발전하면서 실용성이 증가함에 따라 실생활 속 다양한 응용 분야에서 널리 활용되고 있다. 이때 AI Model은 기본적으로 학습 데이터의 다양한 통계적 속성을 기반으로 학습된 후 시스템에 배포되지만, 급변하는 데이터의 상황 속 예상치 못한 데이터의 변화는 모델의 성능저하를 유발한다. 특히 보안 분야에서 끊임없이 생성되는 새로운 공격과 알려지지 않은 공격에 대응하기 위해서는 배포된 모델의 Drift Signal을 찾는 것이 중요해짐에 따라 모델 전체의 Lifecycle 관리 필요성이 점차 대두되고 있다. 일반적으로 모델의 정확도 및 오류율(Loss)의 성능변화를 통해 탐지할 수 있지만, 모델 예측 결과에 대한 실제 라벨이 필요한 점에서 사용 환경의 제약이 존재하며, 실제 드리프트가 발생한 지점의 탐지가 불확실한 단점이 있다. 그 이유는 모델의 오류율의 경우 다양한 외부 환경적 요인, 모델의 선택과 그에 따른 파라미터 설정, 그리고 새로운 입력데이터에 따라 크게 영향을 받기에 해당 값만을 기반으로 데이터의 실질적인 드리프트 발생 시점을 정밀하게 판단하는 것은 한계가 존재하게 된다. 따라서 본 논문에서는 XAI(eXplainable Artificial Intelligence) 기반 Anomaly 분석기법을 통해 실질적인 드리프트가 발생한 시점을 탐지하는 방안을 제안한다. DGA(Domain Generation Algorithm)를 탐지하는 분류모델을 대상으로 시험한 결과, 배포된 이후 데이터의 SHAP(Shapley Additive exPlanations) Value를 통해 Anomaly score를 추출하였고, 그 결과 효율적인 드리프트 시점탐지가 가능함을 확인하였다.

Machine learning-based probabilistic predictions of shear resistance of welded studs in deck slab ribs transverse to beams

  • Vitaliy V. Degtyarev;Stephen J. Hicks
    • Steel and Composite Structures
    • /
    • 제49권1호
    • /
    • pp.109-123
    • /
    • 2023
  • Headed studs welded to steel beams and embedded within the concrete of deck slabs are vital components of modern composite floor systems, where safety and economy depend on the accurate predictions of the stud shear resistance. The multitude of existing deck profiles and the complex behavior of studs in deck slab ribs makes developing accurate and reliable mechanical or empirical design models challenging. The paper addresses this issue by presenting a machine learning (ML) model developed from the natural gradient boosting (NGBoost) algorithm capable of producing probabilistic predictions and a database of 464 push-out tests, which is considerably larger than the databases used for developing existing design models. The proposed model outperforms models based on other ML algorithms and existing descriptive equations, including those in EC4 and AISC 360, while offering probabilistic predictions unavailable from other models and producing higher shear resistances for many cases. The present study also showed that the stud shear resistance is insensitive to the concrete elastic modulus, stud welding type, location of slab reinforcement, and other parameters considered important by existing models. The NGBoost model was interpreted by evaluating the feature importance and dependence determined with the SHapley Additive exPlanations (SHAP) method. The model was calibrated via reliability analyses in accordance with the Eurocodes to ensure that its predictions meet the required reliability level and facilitate its use in design. An interactive open-source web application was created and deployed to the cloud to allow for convenient and rapid stud shear resistance predictions with the developed model.

3D 프린팅 소재 화학물질의 독성 예측을 위한 Data-centric XAI 기반 분자 구조 Data Imputation과 QSAR 모델 개발 (Data-centric XAI-driven Data Imputation of Molecular Structure and QSAR Model for Toxicity Prediction of 3D Printing Chemicals)

  • 정찬혁;김상윤;허성구;;신민혁;유창규
    • Korean Chemical Engineering Research
    • /
    • 제61권4호
    • /
    • pp.523-541
    • /
    • 2023
  • 3D 프린터의 활용이 높아짐에 따라 발생하는 화학물질에 대한 노출 빈도가 증가하고 있다. 그러나 3D 프린팅 발생 화학물질의 독성 및 유해성에 대한 연구는 미비하며, 분자 구조 데이터의 결측치로 인해 in silico 기법을 사용한 독성예측 연구는 저조한 실정이다. 본 연구에서는 화학물질의 분자구조 정보를 나타내는 주요 분자표현자의 결측치를 보간하여 3D 프린팅의 독성 및 유해성을 예측한 Data-centric QSAR 모델을 개발하였다. 먼저 MissForest 알고리즘을 사용해 3D 프린팅으로 발생되는 유해물질의 분자표현자 결측치를 보완하였으며, 서로 다른 4가지 기계학습 모델(결정트리, 랜덤포레스트, XGBoost, SVM)을 기반으로 Data-centric QSAR 모델을 개발하여 생물 농축 계수(Log BCF)와 옥탄올-공기분배계수(Log Koa), 분배계수(Log P)를 예측하였다. 또한, 설명 가능한 인공지능(XAI) 방법론 중 TreeSHAP (SHapley Additive exPlanations) 기법을 활용하여 Data-centric QSAR 모델의 신뢰성을 입증하였다. MissForest 알고리즘 기반 결측지 보간 기법은, 기존 분자구조 데이터에 비하여 약 2.5배 많은 분자구조 데이터를 확보할 수 있었다. 이를 바탕으로 개발된 Data-centric QSAR 모델의 성능은 Log BCF, Log Koa와 Log P를 각각 73%, 76%, 92% 의 예측 성능으로 예측할 수 있었다. 마지막으로 Tree-SHAP 분석결과 개발된 Data-centric QSAR 모델은 각 독성치와 물리적으로 상관성이 높은 분자표현자를 통하여 선택함을 설명할 수 있었고 독성 정보에 대한 높은 예측 성능을 확보할 수 있었다. 본 연구에서 개발한 방법론은 다른 프린팅 소재나 화학공정, 그리고 반도체/디스플레이 공정에서 발생 가능한 오염물질의 독성 및 인체 위해성 평가에 활용될 수 있을 것으로 사료된다.

GOCI-II 대기상한 반사도와 기계학습을 이용한 남한 지역 시간별 에어로졸 광학 두께 산출 (Retrieval of Hourly Aerosol Optical Depth Using Top-of-Atmosphere Reflectance from GOCI-II and Machine Learning over South Korea)

  • 양세영;최현영;임정호
    • 대한원격탐사학회지
    • /
    • 제39권5_3호
    • /
    • pp.933-948
    • /
    • 2023
  • 대기 중 에어로졸은 인체에 악영향을 끼칠 뿐 아니라 기후 시스템에도 직간접적인 영향을 미치므로 에어로졸의 특성과 시공간적인 분포에 대한 이해는 매우 중요하다. 이를 위해 위성기반 관측을 통해 에어로졸 광학 두께(Aerosol Optical Depth, AOD)를 산출하여 에어로졸을 모니터링하는 다양한 연구가 수행되어 왔다. 하지만 이는 주로 조견표를 활용한 역 산출 알고리즘에 기반하여 이루어지기 때문에 많은 계산량을 요구하며 불확실성이 존재한다. 따라서, 본 연구에서는 Geostationary Ocean Color Imager-II (GOCI-II)의 대기상한반사도와 30일 동안의 대기상한반사도 중 최솟값과 관측 시점 값의 차이 값, 수치 모델 기반 기상학적 변수 등을 활용하여 기계학습 기반 고해상도 AOD 직접 산출 알고리즘을 개발하였다. Light Gradient Boosting Machine (LGBM) 기법이 사용되었으며, 추정된 결과는 지상 관측 자료인 Aerosol Robotic Network (AERONET) AOD를 활용하여 랜덤, 시간 및 공간별 N-fold 교차검증을 통해 검증되었다. 세 가지 교차검증 결과 R2=0.70-0.80, RMSE=0.08-0.09, 기대오차(Expected Error, EE) 안에 있는 비율은 75.2-85.1% 수준으로 안정적인 성능을 보였다. Shapley Additive exPlanations (SHAP) 분석에서는 반사도 관련 변수들이 기여도의 상위권 대부분을 차지하고 있는 것을 통해 반사도 자료가 AOD 추정에 많은 기여를 하는 것을 확인하였다. 서울과 울산 지역에 대한 시간 별 AOD의 공간 분포를 분석한 결과, 개발된 LGBM 모델은 시간의 흐름에 따라 AERONET AOD 값과 유사한 수준으로 AOD를 추정하고 있었다. 이를 통해 높은 시공간 해상도(i.e., 시간별, 250 m)에서의 AOD 산출이 가능함을 확인하였다. 또한, 산출 커버리지 비교에서 LGBM 모델의 평균 산출 빈도가 GOCI-II L2 AOD 산출물 대비 8.8%가량 증가한 것을 통해 기존 물리모델기반 AOD 산출 과정에서 발생하던 밝은 지표면에 대한 과도한 마스킹의 문제점을 개선시킨 것을 확인하였다.