• Title/Summary/Keyword: Classification and Regression Trees

검색결과 64건 처리시간 0.033초

퍼지의사결정을 이용한 RC구조물의 건전성평가 (Integrity Assessment for Reinforced Concrete Structures Using Fuzzy Decision Making)

  • 손용우;정영채;김종길
    • 한국전산구조공학회논문집
    • /
    • 제17권2호
    • /
    • pp.131-140
    • /
    • 2004
  • 철근콘크리트 구조물의 보수ㆍ보강 등의 유지관리를 위해서는 내구성과 내하성을 동시에 고려한 건전성평가의 의사결정기준이 절실히 요구된다. 본 논문은 CART-ANFIS을 사용하는 철근콘크리트 구조물에 대하여 효율적인 모델을 나타내었다. 철근콘크리트 구조물의 손상과 진단 등에 활용되어온 분류형 전문가시스템의 일종인 퍼지이론을 이용한 결정목 구조와 기존의 인공신경망을 이용한 결정목 구조의 건전성평가를 비교 분석한다. 손상된 철근콘크리트의 내구성 회복을 위한 보강설계 이론과 내하력 증가를 위한 보장설계 이론을 정립시켜 손상검출의 산정식을 유도하였다. 본 연구의 건전성 평가시스템 모델을 이용함으로서 보다 효율적인 철근콘크리트 유지관리 뿐만 아니라 생애주기비용 예측을 수행 할 수 있다.

의사결정나무 분석법을 활용한 우울 노인의 특성 분석 (Analysis of the Characteristics of the Older Adults with Depression Using Data Mining Decision Tree Analysis)

  • 박명화;최소라;신아미;구철회
    • 대한간호학회지
    • /
    • 제43권1호
    • /
    • pp.1-10
    • /
    • 2013
  • Purpose: The purpose of this study was to develop a prediction model for the characteristics of older adults with depression using the decision tree method. Methods: A large dataset from the 2008 Korean Elderly Survey was used and data of 14,970 elderly people were analyzed. Target variable was depression and 53 input variables were general characteristics, family & social relationship, economic status, health status, health behavior, functional status, leisure & social activity, quality of life, and living environment. Data were analyzed by decision tree analysis, a data mining technique using SPSS Window 19.0 and Clementine 12.0 programs. Results: The decision trees were classified into five different rules to define the characteristics of older adults with depression. Classification & Regression Tree (C&RT) showed the best prediction with an accuracy of 80.81% among data mining models. Factors in the rules were life satisfaction, nutritional status, daily activity difficulty due to pain, functional limitation for basic or instrumental daily activities, number of chronic diseases and daily activity difficulty due to disease. Conclusion: The different rules classified by the decision tree model in this study should contribute as baseline data for discovering informative knowledge and developing interventions tailored to these individual characteristics.

New Approaches to Xerostomia with Salivary Flow Rate Based on Machine Learning Algorithm

  • Yeon-Hee Lee;Q-Schick Auh;Hee-Kyung Park
    • Journal of Korean Dental Science
    • /
    • 제16권1호
    • /
    • pp.47-62
    • /
    • 2023
  • Purpose: We aimed to investigate the objective cutoff values of unstimulated flow rates (UFR) and stimulated salivary flow rates (SFR) in patients with xerostomia and to present an optimal machine learning model with a classification and regression tree (CART) for all ages. Materials and Methods: A total of 829 patients with oral diseases were enrolled (591 females; mean age, 59.29±16.40 years; 8~95 years old), 199 patients with xerostomia and 630 patients without xerostomia. Salivary and clinical characteristics were collected and analyzed. Result: Patients with xerostomia had significantly lower levels of UFR (0.29±0.22 vs. 0.41±0.24 ml/min) and SFR (1.12±0.55 vs. 1.39±0.94 ml/min) (P<0.001), respectively, compared to those with non-xerostomia. The presence of xerostomia had a significantly negative correlation with UFR (r=-0.603, P=0.002) and SFR (r=-0.301, P=0.017). In the diagnosis of xerostomia based on the CART algorithm, the presence of stomatitis, candidiasis, halitosis, psychiatric disorder, and hyperlipidemia were significant predictors for xerostomia, and the cutoff ranges for xerostomia for UFR and SFR were 0.03~0.18 ml/min and 0.85~1.6 ml/min, respectively. Conclusion: Xerostomia was correlated with decreases in UFR and SFR, and their cutoff values varied depending on the patient's underlying oral and systemic conditions.

Machine Learning Approaches to Corn Yield Estimation Using Satellite Images and Climate Data: A Case of Iowa State

  • Kim, Nari;Lee, Yang-Won
    • 한국측량학회지
    • /
    • 제34권4호
    • /
    • pp.383-390
    • /
    • 2016
  • Remote sensing data has been widely used in the estimation of crop yields by employing statistical methods such as regression model. Machine learning, which is an efficient empirical method for classification and prediction, is another approach to crop yield estimation. This paper described the corn yield estimation in Iowa State using four machine learning approaches such as SVM (Support Vector Machine), RF (Random Forest), ERT (Extremely Randomized Trees) and DL (Deep Learning). Also, comparisons of the validation statistics among them were presented. To examine the seasonal sensitivities of the corn yields, three period groups were set up: (1) MJJAS (May to September), (2) JA (July and August) and (3) OC (optimal combination of month). In overall, the DL method showed the highest accuracies in terms of the correlation coefficient for the three period groups. The accuracies were relatively favorable in the OC group, which indicates the optimal combination of month can be significant in statistical modeling of crop yields. The differences between our predictions and USDA (United States Department of Agriculture) statistics were about 6-8 %, which shows the machine learning approaches can be a viable option for crop yield modeling. In particular, the DL showed more stable results by overcoming the overfitting problem of generic machine learning methods.

빅데이터 기반 2형 당뇨 예측 알고리즘 개발 (Development of Type 2 Prediction Prediction Based on Big Data)

  • 심현;김현욱
    • 한국전자통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.999-1008
    • /
    • 2023
  • 당뇨병과 같은 만성 질환의 조기 예측은 중요한 이슈이며, 그중에서도 당뇨 예측의 정확도 향상은 매우 중요하다. 당뇨 예측을 위한 다양한 기계 학습 및 딥 러닝 기반 방법론을 도입하고 있으나, 이러한 기술들은 다른 방법론보다 더 우수한 성능을 위해 대량의 데이터를 필요로 하며, 복잡한 데이터 모델 때문에 학습 비용이 높다. 본 연구에서는 pima 데이터셋과 k-fold 교차 검증을 사용한 DNN이 당뇨 진단 모델의 효율성을 감소시킨다는 주장을 검증하고자 한다. 의사 결정 트리, SVM, 랜덤 포레스트, 로지스틱 회귀, KNN 및 다양한 앙상블 기법과 같은 기계 학습 분류 방법을 사용하여 어떤 알고리즘이 최상의 예측 결과를 내는지 결정하였다. 모든 분류 모델에 대한 훈련 및 테스트 후 제안된 시스템은 ADASYN 방법과 함께 XGBoost 분류기에서 최상의 결과를 제공하였으며, 정확도는 81%, F1 계수는 0.81, AUC는 0.84였다. 또한 도메인 적응 방법이 제안된 시스템의 다양성을 보여주기 위해 구현되었다. LIME 및 SHAP 프레임워크를 사용한 설명 가능한 AI 접근 방식이 모델이 최종 결과를 어떻게 예측하는지 이해하기 위해 구현되었다.

설명가능한 의사결정을 위한 마이닝 기술 (Research on Mining Technology for Explainable Decision Making)

  • 정경용
    • 융합신호처리학회논문지
    • /
    • 제24권4호
    • /
    • pp.186-191
    • /
    • 2023
  • 데이터 처리 기술은 의사결정을 위해 중요한 역할을 하며, 데이터 결측값 및 이상값 처리, 예측, 추천 모델 등이 포함 된다. 이는 모든 과정과 결과의 타당성, 신뢰성, 정확성에 대한 명확한 설명이 필요하다. 또한 의사결정트리, 추론 등을 이용한 설명가능한 모델을 통해 데이터의 문제를 해결하고, 다양한 유형의 학습을 고려하여 모델 경량화를 진행할 필요가 있다. 육하원칙을 적용한 다중 계층 마이닝 분류 방법은 데이터 전처리 후 트랜잭션에서 빈번하게 발생하는 변수와 속성 간의 다차원 관계를 발견하는 방법이다. 이는 트랜잭션에서 마이닝을 이용하여 유의미한 관계를 발견하고, 회귀분석을 통해 데이터를 모델링 하는 방법을 설명한다. 이에따라 확장 가능한 모델과 로지스틱 회귀모델을 개발하고, 데이터 정제, 관련성 분석, 데이터 변환, 데이터 증강을 통해 클래스 레이블을 생성하여 설명가능한 의사결정을 위한 미이닝 기술을 제안한다.

전술제대 공격작전간 전투원 생존성에 관한 연구 (Analysis of Survivability for Combatants during Offensive Operations at the Tactical Level)

  • 김재오;조형준;김각규
    • 응용통계연구
    • /
    • 제28권5호
    • /
    • pp.921-932
    • /
    • 2015
  • 본 연구에서는 증강된 보병대대의 과학화 전투훈련 데이터 중 공격작전에 관한 장병들의 생존분석을 실시하였다. 과학화 전투훈련은 KCTC(Korea Combat Training Center)로 불리는 전투훈련장에서 MILES(Multiple Integrated Lazer Engagement System)와 중앙통제장비체계 등 과학화된 훈련장비와 체계 운용하 훈련부대가 적 전술 및 무기체계를 사용하는 전문 대항군과 실시하는 쌍방 자유기동훈련이다. 이는 훈련기간 동안 훈련지역의 모든 데이터가 저장되어 훈련통제 뿐 아니라 분석 및 사후검토를 할 수 있는 첨단화된 군사 훈련으로 통계적 분석이 가능한 데이터를 제공한다. 분석방법은 모수적 분포 가정이 필요하지 않은 Cox의 비례위험모형을 적용하였으며, 보다 풍부하고 용이한 해석을 위해 의사결정나무모형(CART(Classification and Regression Trees), GUIDE(Generalized, Unbiased, Interaction Detection and Estimation), CTREE(Conditional Inference Trees))을 활용하였다. Cox 비례위험모형의 비례성 가정을 확인하여 이를 위배하는 변수에 대해서 층화하여 분석하고, Cox 비례위험모형 결과 복무기간에 관한 해석이 용이하지 않아 단변량으로 local 회귀분석을 통해 추가적인 해석을 시도하였다. CART, GUIDE, CTREE는 모형의 특성별로 나무모형을 형성하며 이를 통하여 다양한 해석이 가능하다.

MULTIFACTOR DIMENSIONALITY REDUCTION(MDR)을 이용한 한우 도체중에서의 주요 SNP 규명 (Main SNP Identification of Hanwoo Carcass Weight with Multifactor Dimensionality Reduction(MDR) Method)

  • 이제영;김동철
    • 응용통계연구
    • /
    • 제21권1호
    • /
    • pp.53-63
    • /
    • 2008
  • 일반적으로 인간의 질병과 가축의 경제적인 특성은 하나의 유전자가 아닌 여러 유전자의 상호작용으로 일어난다고 믿고 있다. 따라서 본 연구에서는 세대를 거듭할수록 대립유전자의 유전이 안정적으로 발생되어지고 개체의 기능적인 유전적 가치를 직접적으로 추정할 수 있는 single nucleotide polymorphism(SNP)을 한우의 경제적 특성인도체중(carcass cold weight)에 대하여 모수적인 방법인 ANOVA와 비모수적인 방법인 multifactor dimensionality reduction(MDR)을 이용하여 하나의 유전자의 효과와 두 개의 유전자의 상호작용 효과를 비교하였다. ANOVA에서는 하나의 유전자 SNP1이 도체중에 유의한 효과가 있었고 상호작용 효과에서는 도체중에 유의한 효과는 없었다. MDR에서는 하나의 유전자의 효과인 SNP1과 두 개의 유전자의 상호작용인 SNP1*SNP2의 효과가 컸으며 SNP1과 SNP1*SNP2를 비교했을 시에는 SNP1*SNP2의 효과가 더 크게 나타났다. 이는 개별 SNP유전자 보다 복합 SNP유전자의 상호작용이 경제적인 특성인 도체증에 더 영향을 준다는 것을 알 수 있었다.

SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용 (Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm)

  • 이슬기;신택수
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.111-124
    • /
    • 2018
  • 본 연구는 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다. 본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다. 이에 대한 분석결과는 다음과 같다. 첫째, 모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. 둘째, stepwise를 통해 선정된 변수만을 투입하여 분류한 결과 전체 변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 셋째, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때 인공신경망의 정확도가 SVM보다 높았다. 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과 SVM은 88.5%, 인공신경망은 87.9%의 분류 정확도를 보여 주었다. 마지막으로, 본 연구에서 제안하는 meta-learning 알고리즘인 스태킹(stacking)을 적용한 결과로서, SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 meta-learning 알고리즘 중에서는 가장 높은 것으로 나타났다.

비용효율적 지능형 침입탐지시스템 구현을 위한 유전자 알고리즘 기반 통합 모형 (An Integrated Model based on Genetic Algorithms for Implementing Cost-Effective Intelligent Intrusion Detection Systems)

  • 이현욱;김지훈;안현철
    • 지능정보연구
    • /
    • 제18권1호
    • /
    • pp.125-141
    • /
    • 2012
  • 본 연구는 최근 그 중요성이 한층 높아지고 있는 침입탐지시스템(IDS, Intrusion Detection System)의 침입탐지모형을 개선하기 위한 방안으로 유전자 알고리즘에 기반한 새로운 통합모형을 제시한다. 본 연구의 제안모형은 서로 상호보완적 관계에 있는 이분류 모형인 로지스틱 회귀분석(LOGIT, Logistic Regression), 의사결정나무(DT, Decision Tree), 인공신경망 (ANN, Artificial Neural Network), 그리고 SVM(Support Vector Machine)의 예측결과에 적절한 가중치를 부여해 최종 예측결과를 산출하도록 하였는데, 이 때 최적 가중치의 탐색을 위한 방법으로는 유전자 알고리즘을 사용한다. 아울러, 본 연구에서는 1차적으로 오탐지율을 최소화하는 최적의 모형을 산출한 뒤, 이어 비대칭 오류비용 개념을 반영해 오탐지로 인해 발생할 수 있는 전체 비용을 최소화할 수 있는 최적 임계치를 탐색, 최종적으로 가장 비용 효율적인 침입탐지모형을 도출하고자 하였다. 본 연구에서는 제안모형의 우수성을 확인하기 위해, 국내 한 공공기관의 보안센서로부터 수집된 로그 데이터를 바탕으로 실증 분석을 수행하였다. 그 결과, 본 연구에서 제안한 유전자 알고리즘 기반 통합모형이 인공신경망이나 SVM만으로 구성된 단일모형에 비해 학습용과 검증용 데이터셋 모두에서 더 우수한 탐지율을 보임을 확인할 수 있었다. 비대칭 오류비용을 고려한 전체 비용의 관점에서도 단일모형으로 된 비교모형에 비해 본 연구의 제안모형이 더 낮은 비용을 나타냄을 확인할 수 있었다. 이렇게 실증적으로 그 효과가 검증된 본 연구의 제안 모형은 앞으로 보다 지능화된 침입탐지시스템을 개발하는데 유용하게 활용될 수 있을 것으로 기대된다.