• 제목/요약/키워드: Model interpretability

검색결과 47건 처리시간 0.028초

기계학습 알고리즘을 활용한 지역 별 아파트 실거래가격지수 예측모델 비교: LIME 해석력 검증 (Comparative Analysis for Real-Estate Price Index Prediction Models using Machine Learning Algorithms: LIME's Interpretability Evaluation)

  • 조보근;박경배;하성호
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제29권3호
    • /
    • pp.119-144
    • /
    • 2020
  • Purpose Real estate usually takes charge of the highest proportion of physical properties which individual, organizations, and government hold and instability of real estate market affects the economic condition seriously for each economic subject. Consequently, practices for predicting the real estate market have attention for various reasons, such as financial investment, administrative convenience, and wealth management. Additionally, development of machine learning algorithms and computing hardware enhances the expectation for more precise and useful prediction models in real estate market. Design/methodology/approach In response to the demand, this paper aims to provide a framework for forecasting the real estate market with machine learning algorithms. The framework consists of demonstrating the prediction efficiency of each machine learning algorithm, interpreting the interior feature effects of prediction model with a state-of-art algorithm, LIME(Local Interpretable Model-agnostic Explanation), and comparing the results in different cities. Findings This research could not only enhance the academic base for information system and real estate fields, but also resolve information asymmetry on real estate market among economic subjects. This research revealed that macroeconomic indicators, real estate-related indicators, and Google Trends search indexes can predict real-estate prices quite well.

Knowledge-guided artificial intelligence technologies for decoding complex multiomics interactions in cells

  • Lee, Dohoon;Kim, Sun
    • Clinical and Experimental Pediatrics
    • /
    • 제65권5호
    • /
    • pp.239-249
    • /
    • 2022
  • Cells survive and proliferate through complex interactions among diverse molecules across multiomics layers. Conventional experimental approaches for identifying these interactions have built a firm foundation for molecular biology, but their scalability is gradually becoming inadequate compared to the rapid accumulation of multiomics data measured by high-throughput technologies. Therefore, the need for data-driven computational modeling of interactions within cells has been highlighted in recent years. The complexity of multiomics interactions is primarily due to their nonlinearity. That is, their accurate modeling requires intricate conditional dependencies, synergies, or antagonisms between considered genes or proteins, which retard experimental validations. Artificial intelligence (AI) technologies, including deep learning models, are optimal choices for handling complex nonlinear relationships between features that are scalable and produce large amounts of data. Thus, they have great potential for modeling multiomics interactions. Although there exist many AI-driven models for computational biology applications, relatively few explicitly incorporate the prior knowledge within model architectures or training procedures. Such guidance of models by domain knowledge will greatly reduce the amount of data needed to train models and constrain their vast expressive powers to focus on the biologically relevant space. Therefore, it can enhance a model's interpretability, reduce spurious interactions, and prove its validity and utility. Thus, to facilitate further development of knowledge-guided AI technologies for the modeling of multiomics interactions, here we review representative bioinformatics applications of deep learning models for multiomics interactions developed to date by categorizing them by guidance mode.

입자 군집 최적화를 이용한 FCM 기반 퍼지 모델의 동정 방법론 (Identification Methodology of FCM-based Fuzzy Model Using Particle Swarm Optimization)

  • 오성권;김욱동;박호성;손명희
    • 전기학회논문지
    • /
    • 제60권1호
    • /
    • pp.184-192
    • /
    • 2011
  • In this study, we introduce a identification methodology for FCM-based fuzzy model. The two underlying design mechanisms of such networks involve Fuzzy C-Means (FCM) clustering method and Particle Swarm Optimization(PSO). The proposed algorithm is based on FCM clustering method for efficient processing of data and the optimization of model was carried out using PSO. The premise part of fuzzy rules does not construct as any fixed membership functions such as triangular, gaussian, ellipsoidal because we build up the premise part of fuzzy rules using FCM. As a result, the proposed model can lead to the compact architecture of network. In this study, as the consequence part of fuzzy rules, we are able to use four types of polynomials such as simplified, linear, quadratic, modified quadratic. In addition, a Weighted Least Square Estimation to estimate the coefficients of polynomials, which are the consequent parts of fuzzy model, can decouple each fuzzy rule from the other fuzzy rules. Therefore, a local learning capability and an interpretability of the proposed fuzzy model are improved. Also, the parameters of the proposed fuzzy model such as a fuzzification coefficient of FCM clustering, the number of clusters of FCM clustering, and the polynomial type of the consequent part of fuzzy rules are adjusted using PSO. The proposed model is illustrated with the use of Automobile Miles per Gallon(MPG) and Boston housing called Machine Learning dataset. A comparative analysis reveals that the proposed FCM-based fuzzy model exhibits higher accuracy and superb predictive capability in comparison to some previous models available in the literature.

코스피 예측을 위한 EMD를 이용한 혼합 모형 (EMD based hybrid models to forecast the KOSPI)

  • 김효원;성병찬
    • 응용통계연구
    • /
    • 제29권3호
    • /
    • pp.525-537
    • /
    • 2016
  • 본 연구에서는 시계열 자료의 비정상성과 비선형성과 같은 복잡성을 효과적으로 포용할 수 있는 경험적모드분해법(empirical mode decomposition; EMD)을 토대로 시계열 자료의 분석 및 예측을 위한 혼합(hybrid) 모형을 연구한다. EMD에 의하여 생성되는 내재모드함수(intrinsic mode function; IMF)는 해석 및 예측의 편리성을 개선하기 위하여 누적에너지의 개념을 사용하여 그룹화하였으며, 그룹화된 IMF 및 residue의 성분들은 그 성질에 따라서 ARIMA 모형 및 지수평활법과 결합된 혼합 모형으로 예측된다. 제안된 방법은 일별 코스피 지수의 예측을 위해서 적용하였다. 다양한 형태의 혼합 모형을 사용하여 코스피 지수를 예측하였으며 전통적인 예측 방법과 비교하였다. 분석 결과, 그룹화된 성분들은 코스피 지수의 움직임을 단기적, 중기적, 장기적으로 해석하는데 편리함을 주었으며, 그룹화된 IMF 및 residue를 각각 ARIMA 모형과 지수평활법으로 조합한 혼합 모형이 우수한 예측력을 보여주었다.

FCM기반 퍼지추론 시스템의 구조 설계: WLSE 및 LSE의 비교 연구 (Structural Design of FCM-based Fuzzy Inference System : A Comparative Study of WLSE and LSE)

  • 김욱동;오성권;김현기
    • 전기학회논문지
    • /
    • 제59권5호
    • /
    • pp.981-989
    • /
    • 2010
  • In this study, we introduce a new architecture of fuzzy inference system. In the fuzzy inference system, we use Fuzzy C-Means clustering algorithm to form the premise part of the rules. The membership functions standing in the premise part of fuzzy rules do not assume any explicit functional forms, but for any input the resulting activation levels of such radial basis functions directly depend upon the distance between data points by means of the Fuzzy C-Means clustering. As the consequent part of fuzzy rules of the fuzzy inference system (being the local model representing input output relation in the corresponding sub-space), four types of polynomial are considered, namely constant, linear, quadratic and modified quadratic. This offers a significant level of design flexibility as each rule could come with a different type of the local model in its consequence. Either the Least Square Estimator (LSE) or the weighted Least Square Estimator (WLSE)-based learning is exploited to estimate the coefficients of the consequent polynomial of fuzzy rules. In fuzzy modeling, complexity and interpretability (or simplicity) as well as accuracy of the obtained model are essential design criteria. The performance of the fuzzy inference system is directly affected by some parameters such as e.g., the fuzzification coefficient used in the FCM, the number of rules(clusters) and the order of polynomial in the consequent part of the rules. Accordingly we can obtain preferred model structure through an adjustment of such parameters of the fuzzy inference system. Moreover the comparative experimental study between WLSE and LSE is analyzed according to the change of the number of clusters(rules) as well as polynomial type. The superiority of the proposed model is illustrated and also demonstrated with the use of Automobile Miles per Gallon(MPG), Boston housing called Machine Learning dataset, and Mackey-glass time series dataset.

표준시방서 기반의 의미론적 분석을 반영한 건설 현장 사진 자동 분류 모델 개발 (Development of an Automatic Classification Model for Construction Site Photos with Semantic Analysis based on Korean Construction Specification )

  • 박민건;김경환
    • 한국건설관리학회논문집
    • /
    • 제25권3호
    • /
    • pp.58-67
    • /
    • 2024
  • 4차 산업 시대에서의 데이터는 산업의 생산성을 높이는 데 매우 중요한 역할을 하고 있다. 활용 가능한 데이터가 부족한 건설산업의 디지털화 수준을 높이기 위해서 본 연구에서는 건설 현장 사진을 공종별로 분류하는 모델을 연구하였다. 이미지만을 가지고 분류하는 기존의 이미지 분류 모델과 달리, 본 연구는 표준시방서에서 객체와 공종 간의 중요도를 추출하여 이를 분류 과정에 반영하는 방식으로 공종에 대한 의미론적인 분석을 포함한 분류 모델을 제안하였다. 객체와 공종 간의 중요도는 사진 내에서 탐지한 객체와 표준시방서의 정보를 연결하여 추출한 후 모델에 반영하였고, 이러한 방식으로 개발된 모델을 분류 프로그램에 적용하여 실제 실무에서의 유용성을 확인해 보았다. 제안한 모델은 결과에 해석가능성과 신뢰도를 높여주는 것뿐만 아니라 현장 기사들이 사진을 분류하는데 용이성을 주게 되며, 이러한 연구의 결과는 건설산업의 디지털화에 기여할 수 있을 것이다.

이노베이션 상태공간 지수평활 모형을 이용한 시간별 전력 수요의 예측 (Hourly electricity demand forecasting based on innovations state space exponential smoothing models)

  • 원다영;성병찬
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.581-594
    • /
    • 2016
  • 본 논문은 이노베이션 상태공간모형을 근간으로 기존의 지수평활법을 포괄할 수 있는 다중 계절형 모형을 소개한다. 특히 이 모형은, 기존 모형의 한계를 극복하고 동일한 계절 내의 다양성을 표현할 수 있도록 계절 성분을 행렬로 표현하는 정교한 구조를 가지고 있다. 이런 구조를 이용하면 비슷한 패턴을 가지는 계절 성분의 모수를 그룹별로 분류할 수 있다. 따라서, 다중 계절형 모형은 모수절약 원칙을 달성할 수 있으며 모형의 해석이 용이한 장점을 가지고 있을 뿐만 아니라, 잠재적으로 임의의 개수의 계절성도 수용 가능하다. 본 연구에서는 다중 계절형 모형을 이용하여 시간 단위로 관측된 한국 전력 수요량을 분석하고 예측한다. 특히, 시간별 전력 수요량의 계절성은 1일 및 1주일의 두 가지로 고려되었고 이를 토대로 유사한 요일들은 공통 계절로 그룹화하였다. 모형의 예측 성능을 평가하기 위하여 기존 지수평활법의 예측 결과와 비교하였다. 그 결과, 다중 계절형 모형이 기존 지수평활법보다 예측력이 우수함을 확인하였다.

증권 금융 상품 거래 고객의 이탈 예측 및 원인 추론 (A Securities Company's Customer Churn Prediction Model and Causal Inference with SHAP Value)

  • 나광택;이진영;김은찬;이효찬
    • 한국빅데이터학회지
    • /
    • 제5권2호
    • /
    • pp.215-229
    • /
    • 2020
  • 산업 분야를 막론하고 머신러닝의 관심이 매우 높아지고 있으나, 머신러닝이 지닌 설명 불가능성은 여전히 문제로 남아있어 적극적인 업무 적용에 어려움이 있다. 본고에서는 증권사 금융 고객을 대상으로 이탈예측 모델 개발 사례를 소개하고 SHAP Value 기법을 사용하여 설명 가능한 머신러닝 모델 개발 시도와 해석 가능성 도출에 대한 연구 결과를 소개한다. 총 6가지 고객이탈 모델을 비교 분석하였으며, SHAP Value와 고객의 자산 변화에 따른 유형 분류 및 데이터 분석을 통해 고객 이탈 원인을 추론한다. 본 연구 결과를 토대로, 향후 마케팅 담당자의 실제 고객 마케팅 수행에 있어 원인 추론이 가능한 이탈 예측 결괏값을 사용하고 고객별 마케팅 여부를 점검하는 등의 종합적 판단 지표로 활용할 수 있을 것으로 판단된다.

시계열 데이터와 랜덤 포레스트를 활용한 시간당 초미세먼지 농도 예측 (Hourly Prediction of Particulate Matter (PM2.5) Concentration Using Time Series Data and Random Forest)

  • 이득우;이수원
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권4호
    • /
    • pp.129-136
    • /
    • 2020
  • 최근 환경 문제에서 중요한 화두로 떠오른 초미세먼지(PM2.5)는 미세먼지(PM10)보다도 작은 부유물질이다. PM2.5는 안구나 호흡기 질환을 일으키며 뇌혈관에까지 침투할 수 있어서 시간별로 수치를 예측하여 대비하는 것이 중요하다. 그러나 PM2.5의 생성과 이동에 관한 명확한 설명이 아직까지는 제시되지 않고 있어서 예측에 어려움이 따른다. 따라서 PM2.5 예측뿐만 아니라 예측 결과에 대한 설명력을 갖는 예측 방법이 제시될 필요가 있다. 본 연구에서는 서울시의 시간당 PM2.5를 예측하고자 하며, 이를 위해 각기 다른 지상관측 데이터를 시계열로 전처리하고 부트스트랩수를 조정한 랜덤 포레스트(Random Forest)를 데이터 학습 및 예측에 사용하는 방법을 제안한다. 이 방법은 예측 모델이 입력 데이터의 시각별 정보를 균형 있게 학습하게 하며 예측 결과에 대한 설명이 가능하다는 장점을 갖는다. 예측 정확도 평가를 위해 기존 모델과의 비교실험을 수행한 결과 제안 방법은 모든 레이블에서 가장 뛰어난 예측 성능을 보였으며, PM2.5의 생성과 관련된 변수와 중국의 영향과 관련된 변수가 예측 결과에 중요한 영향을 미치는 것을 보여주었다.

항공사진과 지형공간정보체계를 이용한 수치영상지도 제작연구 (Production of Digital Image Map using Aerial Photo and Geospatial Information System)

  • 손덕재
    • 대한공간정보학회지
    • /
    • 제5권2호
    • /
    • pp.207-220
    • /
    • 1997
  • 본 연구에서는 항공사진과 지형공간정보체계를 이용하여 수치영상지도를 제작하기 위한 효율적 방안을 고찰하고, 저가의 개인용 컴퓨터시스템을 기본으로 하는 지형공간정보체계를 이용하여 수치항공사진 영상과 수치지형도를 중첩함으로써, 지형판독성과 활용성이 높은 수치영상지도를 제작하는 실험적 방안을 연구한다. 이를 위하여 지상좌표의 결정, 수치영상처리, 수치표고모형의 생성에 대하여 고찰한 다음, 수치영상지도제작에 필요한 영상자료 입출력, 수치편위미분수정, 항공사진을 이용한 정사투영상의 생성에 관련된 방법을 고찰하고, 수치영상지도를 실험제작하여 그 활용방안을 제시하였다.

  • PDF