• 제목/요약/키워드: Predictive decision tree

검색결과 112건 처리시간 0.026초

SMOTE와 Light GBM 기반의 불균형 데이터 개선 기법 (Imbalanced Data Improvement Techniques Based on SMOTE and Light GBM)

  • 한영진;조인휘
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권12호
    • /
    • pp.445-452
    • /
    • 2022
  • 디지털 세상에서 불균형 데이터에 대한 클래스 분포는 중요한 부분이며 사이버 보안에 큰 의미를 차지한다. 불균형 데이터의 비정상적인 활동을 찾고 문제를 해결해야 한다. 모든 트랜잭션의 패턴을 추적할 수 있는 시스템이 필요하지만, 일반적으로 패턴이 비정상인 불균형 데이터로 기계학습을 하면 소수 계층에 대한 성능은 무시되고 저하되며 예측 모델은 부정확하게 편향될 수 있다. 본 논문에서는 불균형 데이터 세트를 해결하기 위한 접근 방식으로 Synthetic Minority Oversampling Technique(SMOTE)와 Light GBM 알고리즘을 이용하여 추정치를 결합하여 대상 변수를 예측하고 정확도를 향상시켰다. 실험 결과는 Logistic Regression, Decision Tree, KNN, Random Forest, XGBoost 알고리즘과 비교하였다. 정확도, 재현율에서는 성능이 모두 비슷했으나 정밀도에서는 2개의 알고리즘 Random Forest 80.76%, Light GBM 97.16% 성능이 나왔고, F1-score에서는 Random Forest 84.67%, Light GBM 91.96% 성능이 나왔다. 이 실험 결과로 Light GBM은 성능이 5개의 알고리즘과 비교하여 편차없이 비슷하거나 최대 16% 향상됨을 접근 방식으로 확인할 수 있었다.

자동차 사고 경상환자의 장기입원 예측 모델 개발 (Development of Long-Term Hospitalization Prediction Model for Minor Automobile Accident Patients)

  • 이덕규;남동현;허성필
    • 한국산업정보학회논문지
    • /
    • 제28권6호
    • /
    • pp.11-20
    • /
    • 2023
  • 자동차보험 교통사고 진료비는 매년 증가하고 있다. 본 연구는 교통사고 진료비용 상승의 주요 항목인 경상환자 중 장기입원환자(18일 이상)를 예측하는 모델을 decision tree 등 5개 알고리즘을 이용하여 생성하고, 장기입원에 영향을 미치는 요인을 분석했다. 그 결과, 예측 모델의 정확도는 91.377 ~ 91.451이며 각 모델 사이에 큰 차이점은 없었으나 random forest와 XGBoost 모델이 91.451로 가장 높았다. 설명변수 중요도에 있어서 병원 소재지, 상병명, 병원 종류 등 장기환자군과 비 장기입원 환자군 사이에 모델마다 상당한 차이가 있었다. 모델 평가는 훈련 데이터의 교차검증(10회)한 모델별 평균 정확도와 실험 데이터의 정확도를 상호 비교한 결과로 검정했다. 설명변수 유의성 검증을 위해 범주형 변수는 카이제곱 테스트를 실시하였다. 본 논문의 연구 결과는 경상 환자들의 과잉진료 및 사회적 보험료 비용을 줄이는 진료행태 분석에 도움이 될 것이다.

국방 C5ISR 분야 품질문제의 빅데이터 분석 및 예측 모델에 대한 연구 (A Study on the Big Data Analysis and Predictive Models for Quality Issues in Defense C5ISR)

  • 허형조;고수진;백승현
    • 품질경영학회지
    • /
    • 제51권4호
    • /
    • pp.551-571
    • /
    • 2023
  • Purpose: The purpose of this study is to propose useful suggestions by analyzing the causal effect relationship between the failure rate of quality and the process variables in the C5ISR domain of the defense industry. Methods: The collected data through the in house Systems were analyzed using Big data analysis. Data analysis between quality data and A/S history data was conducted using the CRISP-DM(Cross-Industry Standard Process for Data Mining) analysis process. Results: The results of this study are as follows: After evaluating the performance of candidate models for the influence of inspection data and A/S history data, logistic regression was selected as the final model because it performed relatively well compared to the decision tree with an accuracy of 82%/67% and an AUC of 0.66/0.57. Based on this model, we estimated the coefficients using 'R', a data analysis tool, and found that a specific variable(continuous maximum discharge current time) had a statistically significant effect on the A/S quality failure rate and it was analysed that 82% of the failure rate could be predicted. Conclusion: As the first case of applying big data analysis to quality issues in the defense industry, this study confirms that it is possible to improve the market failure rates of defense products by focusing on the measured values of the main causes of failures derived through the big data analysis process, and identifies improvements, such as the number of data samples and data collection limitations, to be addressed in subsequent studies for a more reliable analysis model.

한국 NPL시장 수익률 예측에 관한 연구 (A study on the prediction of korean NPL market return)

  • 이현수;정승환;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.123-139
    • /
    • 2019
  • 국내 NPL (Non performing loan) 시장은 1998년에 형성되었지만, 본격적으로 활성화 된 시기는 2009년으로 역사가 짧은 시장이다. 이로 인해 NPL 시장에 대한 연구도 아직까지는 활발히 진행되지 않고 있는 상황이다. 본 연구는 NPL 시장의 각 물건 별 기준 수익률 달성 유무를 예측할 수 있는 모델을 제안한다. 모델 구축에 사용되는 종속변수는 물건 별 최종 수익률이 기준 수익률 수치 도달 여부를 나타내는 이항변수를 사용하였고, 독립변수로는 물건의 특성을 나타내는 11개의 변수를 대상으로 one to one t-test와 logistic regression stepwise, decision tree를 수행하여 의미있는 7개의 독립변수를 선별하였다. 그리고 통상적으로 사용되는 기준 수익률 수치(12%)가 의미있는 기준 수치인지 확인하기 위해 수치 값을 조절해가며 종속변수를 산출하여 예측모델을 구축해보았다. 그 결과 12%의 기준 수익률 수치로 산출한 종속변수를 이용하여 구축한 예측모델의 평균 Hit ratio가 64.60%로 가장 우수하다는 결과를 얻었다. 다음으로 선별된 7개의 독립변수들과 12%를 기준으로한 수익률 달성유무 종속변수를 이용하여 판별분석, 로지스틱 회귀분석, 의사결정나무, 인공신경망, 유전자알고리즘 선형 모델의 5가지 방법론을 적용해 예측모델을 구축해보았다. 5가지 방법론으로 도출한 예측 모델 간 Hit ratio를 비교한 결과 인공신경망을 이용하여 구축한 예측모델의 Hit ratio가 67.4%로 가장 우수한 결과를 도출해내었다. 본 연구를 통해 추후 NPL시장 신규 물건 매매에 있어서 7가지의 독립변수들과 인공신경망 예측 모델을 활용하는 것이 효과적임을 증명하였다. 물건의 12% 수익률 달성 여부를 사전에 예측해봄으로써 유동화회사가 투자 의사결정을 하는 데에 도움을 줄 것으로 예상하며, 나아가 NPL 시장의 거래가 적정한 가격 선에서 진행됨으로 인해 유동성이 더욱 높아질 것이라 기대한다.

데이터 마이닝을 이용한 당뇨환자의 관리요인에 관한 연구 (A Study on Factors of Management of Diabetes Mellitus using Data Mining)

  • 김유미;장동민;김성수;박일수;강성홍
    • 한국산학기술학회논문지
    • /
    • 제10권5호
    • /
    • pp.1100-1108
    • /
    • 2009
  • 본 연구의 목적은 당뇨환자 관리와 관련된 요인을 규명하는데 있다. 2005년 국민건강 영양조사에 참여한 20세 이상의 성인 당뇨환자를 대상으로 하였다. 데이터마이닝 기법을 이용하여 로지스틱 회귀모형, 의사결정나무, 신경망 모형으로 당뇨환자관리모형을 개발한 결과 의사결정나무가 가장 설명력이 뛰어났다. 당뇨인지율과 관련된 요인으로는 연령, 거주지 및 직업이었고 중 연령이 가장 중요한 요인으로 나타났다. 당뇨치료율과 관련된 요인으로는 당뇨인지여부, 거주지 및 직업이었고 그 중 당뇨인지여부가 가장 중요한 변수로 나타났다. 당뇨환자의 관리프로그램은 당뇨환자의 특성별 군집으로 분류하고 그에 따라 관리해야 한다.

머신러닝 기반 KOSDAQ 시장의 관리종목 지정 예측 연구: 재무적 데이터를 중심으로 (Study on Predicting the Designation of Administrative Issue in the KOSDAQ Market Based on Machine Learning Based on Financial Data)

  • 윤양현;김태경;김수영
    • 벤처창업연구
    • /
    • 제17권1호
    • /
    • pp.229-249
    • /
    • 2022
  • 본 연구는 다양한 머신러닝 기법을 통해 코스닥(KOSDAQ) 시장 내 관리종목 지정을 예측할 수 있는 모델에 대해 연구하였다. 증권시장 내 기업이 관리종목으로 지정이 되면 시장에서는 이를 부정적인 정보로 인식하여 해당 기업과 투자자에게 손실을 가져오게 된다. 본 연구를 통해 기업의 재무적 데이터를 바탕으로 조기에 관리종목 지정을 예측하고, 투자자들의 포트폴리오 리스크 관리에 도움을 주기 위한 머신러닝 접근이 타당한지 살펴본다. 본 연구를 위해 활용한 독립변수는 수익성, 안정성, 활동성, 성장성을 나타내는 21개의 재무비율을 활용하였으며, K-IFRS가 적용된 2011년부터 2020년까지 관리종목과 비관리종목의 기업의 재무 데이터를 표본으로 추출하였다. 로지스틱 회귀분석, 의사결정나무, 서포트 벡터 머신, 랜덤 포레스트, LightGBM을 활용하여 관리종목 지정 예측 연구를 수행하였다. 연구결과는 분류 정확도가 82.73%인 LightGBM이 가장 우수한 예측 모형이었으며 분류 정확도가 가장 낮은 예측 모형은 정확도가 71.94%인 의사결정나무였다. 의사결정나무 기반 학습 모형의 변수 중요도의 상위 3개 변수를 확인한 결과 각 모형에서 공통적으로 나온 재무변수는 ROE(당기순이익), 자본금회전율(Capital stock turnover ratio)로 해당 재무변수가 관리종목 지정에 있어 상대적으로 중요한 변수임을 확인하였다. 대체적으로 앙상블을 이용한 학습 모형이 단일 학습 모형보다 예측 성능이 높은 것을 확인하였다. 기존 선행연구가 K-IFRS에 대한 고려를 하지 않았고, 다소 제한된 머신러닝에 의존하였다. 따라서 본 연구의 필요성과 함께 현실적 요구를 충족시키는 결과를 제시하였음을 알 수 있으며, 시장참여자들에게 있어 관리종목 지정에 대한 사전 예측을 확인할 수 있도록 기여했다고 볼 수 있다.

Prediction of concrete compressive strength using non-destructive test results

  • Erdal, Hamit;Erdal, Mursel;Simsek, Osman;Erdal, Halil Ibrahim
    • Computers and Concrete
    • /
    • 제21권4호
    • /
    • pp.407-417
    • /
    • 2018
  • Concrete which is a composite material is one of the most important construction materials. Compressive strength is a commonly used parameter for the assessment of concrete quality. Accurate prediction of concrete compressive strength is an important issue. In this study, we utilized an experimental procedure for the assessment of concrete quality. Firstly, the concrete mix was prepared according to C 20 type concrete, and slump of fresh concrete was about 20 cm. After the placement of fresh concrete to formworks, compaction was achieved using a vibrating screed. After 28 day period, a total of 100 core samples having 75 mm diameter were extracted. On the core samples pulse velocity determination tests and compressive strength tests were performed. Besides, Windsor probe penetration tests and Schmidt hammer tests were also performed. After setting up the data set, twelve artificial intelligence (AI) models compared for predicting the concrete compressive strength. These models can be divided into three categories (i) Functions (i.e., Linear Regression, Simple Linear Regression, Multilayer Perceptron, Support Vector Regression), (ii) Lazy-Learning Algorithms (i.e., IBk Linear NN Search, KStar, Locally Weighted Learning) (iii) Tree-Based Learning Algorithms (i.e., Decision Stump, Model Trees Regression, Random Forest, Random Tree, Reduced Error Pruning Tree). Four evaluation processes, four validation implements (i.e., 10-fold cross validation, 5-fold cross validation, 10% split sample validation & 20% split sample validation) are used to examine the performance of predictive models. This study shows that machine learning regression techniques are promising tools for predicting compressive strength of concrete.

데이터마이닝을 활용한 사랑의 형태에 따른 연인관계 몰입수준 및 관계 지속여부 예측 (Prediction of commitment and persistence in heterosexual involvements according to the styles of loving using a datamining technique)

  • 박윤주
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.69-85
    • /
    • 2016
  • 연인과의 성공적인 관계형성은 인생의 만족감을 결정짓는 핵심적인 요소 중 하나이다. 기존에 심리학 분야에서는 성공적인 연인관계에 영향을 미치는 요인들에 대한 다양한 연구가 수행되어 왔으나, 주로 통계적인 분석기법에 기반하고 있기 때문에 복잡한 비선형의 관계를 분석하고, 특징을 추출하는 데에는 한계가 있었다. 이에, 본 연구는, 기존의 통계적인 분석 기법과 더불어, 데이터마이닝의 의사결정나무 분석기법을 활용하여 사랑의 형태에 따른 연인관계의 몰입(commitment) 수준과 관계지속 여부를 분석하였다. 특히, 기존 연구에서 도출된 주요 변인들 이외에 사랑의 여섯 가지 형태인 에로스(eros), 루두스(ludus), 스트로게(storge), 매니아(mania), 프래그마(pragma) 그리고 아가페(agape)를 추가적으로 고려하여, 이들이 연인관계에서 서로에 대한 몰입수준 및 연인관계 지속여부에 어떠한 영향을 미치는지 분석하고, 예측하는 모형을 수립하였다. 본 연구에는 실제 남녀커플 105쌍, 총 210명에 대한 데이터가 활용되었다. 본 연구결과 연인관계 몰입수준 및 관계 지속여부의 영향요인으로, 기존에 심리학 분야에서 제시된 변수들 이외에, 에로스, 아가페, 프래그마 등이 유의한 영향을 미친다는 것을 확인하였다. 특히, 남성은 아가페적 사랑의 형태가 몰입에 중요한 영향을 미치는 반면, 여성은 에로스적 사랑의 형태가 더욱 중요한 영향을 미치는 것으로 나타났다. 또한, 연인관계 지속여부에는 남성의 나르시시즘, 만족, 투자 및 매니아적 성향이 영향을 주고 있는 것으로 나타난 반면, 여성의 경우, 여성이 남성을 매니아적으로 사랑하는 정도만이 영향을 주고 있어, 남성이 관계의 지속 또는 결별에 더욱 결정적인 영향을 미치고 있는 것을 알 수 있었다. 이러한 연구는 데이터마이닝의 적용분야를 심리학 영역으로 확장한 융합연구로, 연인관계에 대한 새로운 분석을 시도하였다는 점에서 의의가 있으며, 조화로운 연인관계를 형성하는데 실질적인 시사점을 제공할 수 있을 것으로 기대된다.

머신러닝을 활용한 TV 오디션 프로그램의 우승자 예측 모형 개발: 프로듀스X 101 프로그램을 중심으로 (Development of a Model for Winner Prediction in TV Audition Program Using Machine Learning Method: Focusing on Program)

  • 곽주영;윤현식
    • 지식경영연구
    • /
    • 제20권3호
    • /
    • pp.155-171
    • /
    • 2019
  • In the entertainment industry which has great uncertainty, it is essential to predict public preference first. Thanks to various mass media channels such as cable TV and internet-based streaming services, the reality audition program has been getting big attention every day and it is being used as a new window to new entertainers' debut. This phenomenon means that it is changing from a closed selection process to an open selection process, which delegates selection rights to the public. This is characterized by the popularity of the public being reflected in the selection process. Therefore, this study aims to implement a machine learning model which predicts the winner of , which has recently been popular in South Korea. By doing so, this study is to extend the research method in the cultural industry and to suggest practical implications. We collected the data of winners from the 1st, 2nd, and 3rd seasons of the Produce 101 and implemented the predictive model through the machine learning method with the accumulated data. We tried to develop the best predictive model that can predict winners of by using four machine learning methods such as Random Forest, Decision Tree, Support Vector Machine (SVM), and Neural Network. This study found that the audience voting and the amount of internet news articles on each participant were the main variables for predicting the winner and extended the discussion by analyzing the precision of prediction.

인공지능을 이용한 학습부진 특성 추출 및 예측 모델 연구 (Extracting characteristics of underachievers learning using artificial intelligence and researching a prediction model)

  • 양자영;문경희;박성호
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.510-518
    • /
    • 2022
  • 국가수준에서 시행되는 진단평가는 학교에서 학습부진이 있는 학생을 조기 발견하는 것이 매우 중요하다. 본연구는 부산교육종단의 2019년 중학교 1학년의 데이터를 입력하여 2020년 성취여부를 판별하는 인공지능 모델을 구축하고 분석하였다. 머신러닝 알고리즘으로 중학교 국어, 영어, 수학 기초학력을 예측하는 예측모형을 개발하고, 다음 학년 예측에도 78%, 82%, 83% 의 정확도를 보이는 것을 확인하였다. 또한, 중학교 과목별 성취예측 의사결정트리를 그려서 과정을 분석해보면서, 성취 예측에 영향을 미치는 특성들은 어떠한 것들이 있는지 살펴보았다.