• 제목/요약/키워드: decision tree regression

검색결과 324건 처리시간 0.024초

교통사고 데이터의 패턴 분석과 Hybrid Model을 이용한 피해자 상해 심각도 예측 (Pattern Analysis of Traffic Accident data and Prediction of Victim Injury Severity Using Hybrid Model)

  • 주영지;홍택은;신주현
    • 스마트미디어저널
    • /
    • 제5권4호
    • /
    • pp.75-82
    • /
    • 2016
  • 우리나라의 경제 성장과 도로 환경의 변화를 통해 국내 자동차 시장이 성장하였으나, 이로 인해 교통사고율 또한 증가하였고, 인명 피해가 심각한 수준이다. 이에 따라, 정부에서는 교통사고 데이터를 개방하고 문제를 해결하기 위한 정책을 수립 및 추진 중이다. 본 논문에서는 교통사고 데이터를 이용하여 클래스의 불균형을 해소하고, Hybrid Model 구축을 통한 교통사고 예측을 위해 원본 교통사고 데이터와 Sampling을 수행한 데이터를 학습 데이터로 사용한다. 두 학습데이터에 연관규칙 학습기법인 FP-Growth 알고리즘을 이용하여 교통사고 상해 심각도와 연관된 패턴을 학습한다. 두 학습 데이터의 연관 패턴을 분석을 통해 같은 연관된 패턴을 추출하고 의사결정트리와 다항 로지스틱 회귀분석기법에 연관된 속성에 가중치를 부여하여 융합형 Hybrid Model을 구축하고 교통사고 피해자 상해 심각도를 예측하는 방법에 대해 제안한다.

Word2vec과 앙상블 분류기를 사용한 효율적 한국어 감성 분류 방안 (Effective Korean sentiment classification method using word2vec and ensemble classifier)

  • 박성수;이건창
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.133-140
    • /
    • 2018
  • 감성 분석에서 정확한 감성 분류는 중요한 연구 주제이다. 본 연구는 최근 많은 연구가 이루어지는 word2vec과 앙상블 방법을 이용하여 효과적으로 한국어 리뷰를 감성 분류하는 방법을 제시한다. 연구는 20 만 개의 한국 영화 리뷰 텍스트에 대해, 품사 기반 BOW 자질과 word2vec를 사용한 자질을 생성하고, 두 개의 자질 표현을 결합한 통합 자질을 생성했다. 감성 분류를 위해 Logistic Regression, Decision Tree, Naive Bayes, Support Vector Machine의 단일 분류기와 Adaptive Boost, Bagging, Gradient Boosting, Random Forest의 앙상블 분류기를 사용하였다. 연구 결과로 형용사와 부사를 포함한 BOW자질과 word2vec자질로 구성된 통합 자질 표현이 가장 높은 감성 분류 정확도를 보였다. 실증결과, 단일 분류기인 SVM이 가장 높은 성능을 나타내었지만, 앙상블 분류기는 단일 분류기와 비슷하거나 약간 낮은 성능을 보였다.

데이터마이닝을 활용한 한국프로야구 승패예측모형 수립에 관한 연구 (Using Data Mining Techniques to Predict Win-Loss in Korean Professional Baseball Games)

  • 오윤학;김한;윤재섭;이종석
    • 대한산업공학회지
    • /
    • 제40권1호
    • /
    • pp.8-17
    • /
    • 2014
  • In this research, we employed various data mining techniques to build predictive models for win-loss prediction in Korean professional baseball games. The historical data containing information about players and teams was obtained from the official materials that are provided by the KBO website. Using the collected raw data, we additionally prepared two more types of dataset, which are in ratio and binary format respectively. Dividing away-team's records by the records of the corresponding home-team generated the ratio dataset, while the binary dataset was obtained by comparing the record values. We applied seven classification techniques to three (raw, ratio, and binary) datasets. The employed data mining techniques are decision tree, random forest, logistic regression, neural network, support vector machine, linear discriminant analysis, and quadratic discriminant analysis. Among 21(= 3 datasets${\times}$7 techniques) prediction scenarios, the most accurate model was obtained from the random forest technique based on the binary dataset, which prediction accuracy was 84.14%. It was also observed that using the ratio and the binary dataset helped to build better prediction models than using the raw data. From the capability of variable selection in decision tree, random forest, and stepwise logistic regression, we found that annual salary, earned run, strikeout, pitcher's winning percentage, and four balls are important winning factors of a game. This research is distinct from existing studies in that we used three different types of data and various data mining techniques for win-loss prediction in Korean professional baseball games.

성별에 따른 대사증후군의 위험요인 탐색을 위한 융복합 연구 (Convergence study to detect metabolic syndrome risk factors by gender difference)

  • 이소은;이현실
    • 디지털융복합연구
    • /
    • 제19권12호
    • /
    • pp.477-486
    • /
    • 2021
  • 본 연구의 목적은 국민건강영양조사 2016-2019년 자료 중 성인을 대상으로 대사증후군의 위험요인 탐색하고, 성별에 따른 위험요인의 차이를 규명하여 대사증후군 예방 및 치료에 기초자료로 제공하기 위함이다. 다양한 선행연구를 통해 대사증후군 위험요인을 수집하고, 4개의 머신러닝(Logistic Regression, Decision Tree, Naïve Bayes, Random Forest)의 방법을 이용하여 분석하였다. 남성과 여성 모두에서 Random Forest의 대사증후군 예측 정확도가 높았다. 대사증후군 유병에 영향을 주는 상위 위험요인으로는 여성과 남성 모두에서 BMI, 식이(지방, 비타민 C, 비타민 A, 단백질, 에너지 섭취), 기저질환의 개수, 연령으로 나타났다. 여성의 경우 교육수준과 초경 연령, 폐경 여부가 추가적으로 주요 위험요인으로 나타났고, 남성에 비해 연령과 기저질환의 개수에서 영향력이 큰 것으로 나타났다. 대사증후군을 예방하기 위해선 BMI, 식이, 질환의 이환, 초경 및 폐경여부를 고려하여 접근해야하며 후속 연구를 통해 다양한 중재 전략을 수립하고 검증해야 할 것이다.

BCI에서 기계 학습을 위한 간질 뇌파 특징 선택을 통한 차원 감소 방법 분석 (Analysis of Dimensionality Reduction Methods Through Epileptic EEG Feature Selection for Machine Learning in BCI)

  • 양통;;임창균
    • 한국전자통신학회논문지
    • /
    • 제13권6호
    • /
    • pp.1333-1342
    • /
    • 2018
  • 지금까지 뇌파(Electroencephalography - EEG)는 뇌전증 진단 및 치료를 위한 가장 중요하고 편리한 방법이었다. 그러나 뇌전증 뇌파 신호의 파형 특성은 매우 약하고 비 정지 상태이며 배경 노이즈가 강하기 때문에 식별하기가 어렵다. 이 논문에서는 간질 뇌파의 특징 선택을 통한 차원 감소를 통한 분류 방법의 효과를 분석한다. 우리는 차원 감소를 위해 주 요소 분석, 커널 요소 분석, 선형 판별 분석 방법을 사용하였다. 차원 감소방법의 성능 분석을 위해 Support Vector Machine: SVM), Logistic Regression(: LR), K-Nearestneighbor(: K-NN), Decision Tree(: DR), Random Forest(: RF) 분류 방법들을 사용해 평가하였다. 실험 결과에 따르면, PCA는 SVM, LR 및 K-NN에서 75% 정확도를 나타냈다. KPCA는 SVM과 K-KNN에서 85%의 성능을 보였으며 LDA는 K-NN를 이용했을 때 100 %의 정확도 보여주었다. 따라서 LDA를 이용한 차원 감소가 뇌전증 EEG 신호에 대한 최고의 분류 결과 보여주었다.

PM10 예측 성능 향상을 위한 이진 분류 모델 비교 분석 (Comparative Analysis of the Binary Classification Model for Improving PM10 Prediction Performance)

  • 정용진;이종성;오창헌
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.56-62
    • /
    • 2021
  • 미세먼지 예보에 대한 높은 정확도가 요구됨에 따라 기계 학습의 알고리즘을 적용하여 예측 정확도를 높이려는 다양한 시도들이 이루어지고 있다. 그러나 미세먼지의 특성과 불균형적인 농도별 발생 비율에 대한 문제로 예측 모델의 학습 및 예측이 잘 이루어지지 않는다. 이러한 문제를 해결하기 위해 특정 농도를 기준으로 미세먼지를 저농도와 고농도로 구분하여 예측을 수행하는 등 다양한 연구가 진행되고 있다. 본 논문에서는 미세먼지 농도의 불균형 특성으로 인한 예측 성능 향상의 문제를 해결하기 위한 미세먼지 농도의 이진 분류 모델을 제안하였다. 분류 알고리즘 중 logistic regression, decision tree, SVM 및 MLP를 이용하여 PM10에 대한 이진분류 모델들을 설계하였다. 오차 행렬을 통해 성능을 비교한 결과, 4가지 모델 중 MLP 모델이 89.98%의 정확도로 가장 높은 이진 분류 성능을 보였다.

SMOTE와 Light GBM 기반의 불균형 데이터 개선 기법 (Imbalanced Data Improvement Techniques Based on SMOTE and Light GBM)

  • 한영진;조인휘
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권12호
    • /
    • pp.445-452
    • /
    • 2022
  • 디지털 세상에서 불균형 데이터에 대한 클래스 분포는 중요한 부분이며 사이버 보안에 큰 의미를 차지한다. 불균형 데이터의 비정상적인 활동을 찾고 문제를 해결해야 한다. 모든 트랜잭션의 패턴을 추적할 수 있는 시스템이 필요하지만, 일반적으로 패턴이 비정상인 불균형 데이터로 기계학습을 하면 소수 계층에 대한 성능은 무시되고 저하되며 예측 모델은 부정확하게 편향될 수 있다. 본 논문에서는 불균형 데이터 세트를 해결하기 위한 접근 방식으로 Synthetic Minority Oversampling Technique(SMOTE)와 Light GBM 알고리즘을 이용하여 추정치를 결합하여 대상 변수를 예측하고 정확도를 향상시켰다. 실험 결과는 Logistic Regression, Decision Tree, KNN, Random Forest, XGBoost 알고리즘과 비교하였다. 정확도, 재현율에서는 성능이 모두 비슷했으나 정밀도에서는 2개의 알고리즘 Random Forest 80.76%, Light GBM 97.16% 성능이 나왔고, F1-score에서는 Random Forest 84.67%, Light GBM 91.96% 성능이 나왔다. 이 실험 결과로 Light GBM은 성능이 5개의 알고리즘과 비교하여 편차없이 비슷하거나 최대 16% 향상됨을 접근 방식으로 확인할 수 있었다.

매장문화재 예측을 위한 통계적 분류 분석 (Classification Analysis for the Prediction of Underground Cultural Assets)

  • 유혜경;이진영;나종화
    • 한국산업정보학회논문지
    • /
    • 제14권3호
    • /
    • pp.106-113
    • /
    • 2009
  • 본 논문에서는 통계적 분류방법을 이용하여 문화재 자료의 분석을 수행하였다. 분류방법으로는 선형판별분석, 로지스틱회귀분석, 의사결정나무분석, 신경망분석, SVM분석을 사용하였다. 각각의 분류방법에 대한 개념 및 이론에 대해 간략히 소개하고, 실제자료 분석에서는 국내 I시 자료를 사용하여 매장문화재에 대한 분류방법별 적합모형을 구축하였다. 구축된 모형에 대한 성능비교와 함께, 새로운 자료에 대한 적용성 평가를 위해 모의실험을 수행하였다. 분석에 사용된 도구로는 최근 가장 관심을 갖는 R 언어를 사용하였으며, 구체적 분석과정을 제시하였다.

SMOTE와 분류 기법을 활용한 산사태 위험 지역 결정 방법 (Method for Assessing Landslide Susceptibility Using SMOTE and Classification Algorithms)

  • 윤형구
    • 한국지반공학회논문집
    • /
    • 제39권6호
    • /
    • pp.5-12
    • /
    • 2023
  • 산사태 위험 지역을 사전에 조사하여 설정하는 것은 다수의 피해를 줄이기 위해 필요하다. 해당 연구의 목적은 machine learning 기법 중 분류 알고리즘을 활용하여 대상 지반의 안전율 분류를 수행할 수 있는 방법론을 제시하는 것이다. 산사태 위험 지역은 high risk area(HRA) 모델을 적용하였으며, 8개의 지반공학 물성치를 통해 위험 지역을 판단하였다. 분류 알고리즘은 decision tree(DT), K-Nearest Neighbor(KNN), logistic regression(LR) 그리고 random forest(RF)의 4가지가 활용 되었으며, 안전율 1.2~2.0 범위에 8가지 지반공학 물성치의 분류 정확도를 계산하였다. 정확도는 안전율이 1.2~1.7 범위에서 신뢰성 높게 나타났지만, 그 외 범위인 1.8~2.0 사이에서는 상대적으로 낮은 정확도를 보였다. 이를 극복하기 위하여 synthetic minority over-sampling technique(SMOTE) 알고리즘을 적용하여 데이터 개수를 증폭하였으며, 증폭한 데이터를 통해 분류 알고리즘을 적용하면 안전율 1.8~2.0 범위에서 정확도가 평균적으로 약 250% 증가한 것으로 나타났다. 해당 연구 결과는 SMOTE 알고리즘이 데이터 개수를 향상시켜 분류 알고리즘의 정확도가 개선된 것을 보여주며, 타 분야에도 정확도 향상에 적용 가능하다고 판단된다.

국방 C5ISR 분야 품질문제의 빅데이터 분석 및 예측 모델에 대한 연구 (A Study on the Big Data Analysis and Predictive Models for Quality Issues in Defense C5ISR)

  • 허형조;고수진;백승현
    • 품질경영학회지
    • /
    • 제51권4호
    • /
    • pp.551-571
    • /
    • 2023
  • Purpose: The purpose of this study is to propose useful suggestions by analyzing the causal effect relationship between the failure rate of quality and the process variables in the C5ISR domain of the defense industry. Methods: The collected data through the in house Systems were analyzed using Big data analysis. Data analysis between quality data and A/S history data was conducted using the CRISP-DM(Cross-Industry Standard Process for Data Mining) analysis process. Results: The results of this study are as follows: After evaluating the performance of candidate models for the influence of inspection data and A/S history data, logistic regression was selected as the final model because it performed relatively well compared to the decision tree with an accuracy of 82%/67% and an AUC of 0.66/0.57. Based on this model, we estimated the coefficients using 'R', a data analysis tool, and found that a specific variable(continuous maximum discharge current time) had a statistically significant effect on the A/S quality failure rate and it was analysed that 82% of the failure rate could be predicted. Conclusion: As the first case of applying big data analysis to quality issues in the defense industry, this study confirms that it is possible to improve the market failure rates of defense products by focusing on the measured values of the main causes of failures derived through the big data analysis process, and identifies improvements, such as the number of data samples and data collection limitations, to be addressed in subsequent studies for a more reliable analysis model.