• 제목/요약/키워드: decision tree regression

검색결과 323건 처리시간 0.022초

A Statistical Analysis of Professional Baseball Team Data: The Case of the Lotte Giants

  • Cho, Young-Seuk;Han, Jun-Tae;Park, Chan-Keun;Heo, Tae-Young
    • 응용통계연구
    • /
    • 제23권6호
    • /
    • pp.1191-1199
    • /
    • 2010
  • Knowing what factors into a player's ability to affect the outcome of a sports game is crucial. This knowledge helps determine the relative degree of contribution by each team member as well as sets appropriate annual salaries. This study uses statistical analysis to investigate how much the outcome of a professional baseball game is influenced by the records of individual players. We used the Lotte Giants' data on 252 games played between 2007 and 2008 that included environmental data(home or away games and opponents) as well as pitchers' and batters' data. Using a SAS Enterprise Miner, we performed a logistic regression analysis and decision tree analysis on the data. The results obtained through the two analytic methods are compared and discussed.

학업성취도에 대한 대입전형 요인들의 영향력 분석 (The influence analysis of admission variables on academic achievements)

  • 조장식
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권4호
    • /
    • pp.729-736
    • /
    • 2010
  • 본 논문에서는 부산 소재 K 대학교 신입생들의 학업성취도에 대해 신입생의 특성변수를 포함한 전형관련 변수들에 대한 영향력 분석을 연구한다. 이를 위해 모수적인 방법인 다중회귀분석과 비모수적인 방법인 의사결정나무 분석을 통하여 학업성취도에 대한 전형관련 변수들에 대한 주효과와 상호 작용효과를 각각 분석하였다.

의사결정나무 분석법을 활용한 우울 노인의 특성 분석 (Analysis of the Characteristics of the Older Adults with Depression Using Data Mining Decision Tree Analysis)

  • 박명화;최소라;신아미;구철회
    • 대한간호학회지
    • /
    • 제43권1호
    • /
    • pp.1-10
    • /
    • 2013
  • Purpose: The purpose of this study was to develop a prediction model for the characteristics of older adults with depression using the decision tree method. Methods: A large dataset from the 2008 Korean Elderly Survey was used and data of 14,970 elderly people were analyzed. Target variable was depression and 53 input variables were general characteristics, family & social relationship, economic status, health status, health behavior, functional status, leisure & social activity, quality of life, and living environment. Data were analyzed by decision tree analysis, a data mining technique using SPSS Window 19.0 and Clementine 12.0 programs. Results: The decision trees were classified into five different rules to define the characteristics of older adults with depression. Classification & Regression Tree (C&RT) showed the best prediction with an accuracy of 80.81% among data mining models. Factors in the rules were life satisfaction, nutritional status, daily activity difficulty due to pain, functional limitation for basic or instrumental daily activities, number of chronic diseases and daily activity difficulty due to disease. Conclusion: The different rules classified by the decision tree model in this study should contribute as baseline data for discovering informative knowledge and developing interventions tailored to these individual characteristics.

한국남자프로농구 경기기록 분석을 통한 승패결정요인 추정: 2010-2011시즌, 2011-2012시즌 정규리그 기록 적용 (Estimating the determinants of victory and defeat through analyzing records of Korean pro-basketball)

  • 김세형;이준우;이미숙
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권5호
    • /
    • pp.993-1003
    • /
    • 2012
  • 한국남자프로농구 경기기록을 이용하여 승패결정요인을 분석하였다. 2010년 10월부터 2011년 3월까지, 2011년 10월부터 2012년 3월까지 치러진 정규리그 (540경기)의 기록을 분석하여 승패결정요인을 추정하였다. 한국농구연맹은 7개 공격변인과 7개 수비변인에 대한 자료를 제공하고 있다. 이들 자료 중에 공헌도와 공격력에 적용되는 6개 공격변인 (2점슛 성공률, 3점슛 성공률, 자유투 성공률, 공격리바운드, 어시스트, 턴오버)과 4개 수비변인 (수비리바운드, 스틸, 굿디펜스, 블록슛)이 승패에 미치는 영향을 통계적으로 분석하기 위해 로지스틱회귀분석과 의사결정나무분석을 적용하였다. 두 분석은 PASW와 Answer Tree 통계프로그램을 사용하였으며 모든 유의수준은 .05로 설정하였다. 로지스틱회귀분석 결과, 6개 공격변인 중 2점슛 성공률, 3점슛 성공률, 턴오버가 통계적으로 승패에 유의미한 영향을 미치고 4개 수비변인 중 굿디펜스를 제외한 수비리바운드, 스틸, 블록슛이 통계적으로 승패에 유의미한 영향을 미치는 것으로 나타났다. 그리고 공격변인 의사결정나무분석 결과에서는 2점슛 성공률이 51%-58%이며, 3P%가 31%를 초과하고 TO가 11개 이하일때 승리할 수 있는 확률이 80.85%로 가장 높게 나타났다. 이에 반해 수비변인 의사결정나무분석 결과, 수비리바운드가 24개를 초과하고 스틸이 6개를 초과하며, 블록슛이 2개를 초과할 때 승리할 수 있는 확률이 94.12%로 가장 높게 나타났다.

Two-Stage Logistic Regression for Cancer Classi cation and Prediction from Copy-Numbe Changes in cDNA Microarray-Based Comparative Genomic Hybridization

  • Kim, Mi-Jung
    • 응용통계연구
    • /
    • 제24권5호
    • /
    • pp.847-859
    • /
    • 2011
  • cDNA microarray-based comparative genomic hybridization(CGH) data includes low-intensity spots and thus a statistical strategy is needed to detect subtle differences between different cancer classes. In this study, genes displaying a high frequency of alteration in one of the different classes were selected among the pre-selected genes that show relatively large variations between genes compared to total variations. Utilizing copy-number changes of the selected genes, this study suggests a statistical approach to predict patients' classes with increased performance by pre-classifying patients with similar genetic alteration scores. Two-stage logistic regression model(TLRM) was suggested to pre-classify homogeneous patients and predict patients' classes for cancer prediction; a decision tree(DT) was combined with logistic regression on the set of informative genes. TLRM was constructed in cDNA microarray-based CGH data from the Cancer Metastasis Research Center(CMRC) at Yonsei University; it predicted the patients' clinical diagnoses with perfect matches (except for one patient among the high-risk and low-risk classified patients where the performance of predictions is critical due to the high sensitivity and specificity requirements for clinical treatments. Accuracy validated by leave-one-out cross-validation(LOOCV) was 83.3% while other classification methods of CART and DT performed as comparisons showed worse performances than TLRM.

석면 해체 작업의 위험성평가모델 비교 분석 (A Comparative Analysis of Risk Assessment Models for Asbestos Demolition)

  • 김동규;김민승;이수민;김유진;한승우
    • 한국건축시공학회:학술대회논문집
    • /
    • 한국건축시공학회 2022년도 가을 학술논문 발표대회
    • /
    • pp.99-100
    • /
    • 2022
  • As the danger of exposure to the asbestos has been revealed, the importance of demolition asbestos in existing buildings has been raised. Extensive body of study has been conducted to evaluate the risk of demolition asbestos, but there were confined types of variables caused by not reflecting categorical information and limitations in collecting quantitative information. Thus, this study aims to derive a model that predicts the risk in workplace of demolition asbestos by collecting categorical and continuous variables. For this purpose, categorical and continuous variables were collected from asbestos demolition reports, and the risk assessment score was set as the dependent variable. In this study, the influence of each variable was identified using logistic regression, and the risk prediction model methodologies were compared through decision tree regression and artificial neural network. As a result, a conditional risk prediction model was derived to evaluate the risk of demolition asbestos, and this model is expected to be used to ensure the safety of asbestos demolition workers.

  • PDF

Applied linear and nonlinear statistical models for evaluating strength of Geopolymer concrete

  • Prem, Prabhat Ranjan;Thirumalaiselvi, A.;Verma, Mohit
    • Computers and Concrete
    • /
    • 제24권1호
    • /
    • pp.7-17
    • /
    • 2019
  • The complex phenomenon of the bond formation in geopolymer is not well understood and therefore, difficult to model. This paper present applied statistical models for evaluating the compressive strength of geopolymer. The applied statistical models studied are divided into three different categories - linear regression [least absolute shrinkage and selection operator (LASSO) and elastic net], tree regression [decision and bagging tree] and kernel methods (support vector regression (SVR), kernel ridge regression (KRR), Gaussian process regression (GPR), relevance vector machine (RVM)]. The performance of the methods is compared in terms of error indices, computational effort, convergence and residuals. Based on the present study, kernel based methods (GPR and KRR) are recommended for evaluating compressive strength of Geopolymer concrete.

벌점화 분위수 회귀나무모형에 대한 연구 (Penalized quantile regression tree)

  • 김재오;조형준;방성완
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1361-1371
    • /
    • 2016
  • 분위수 회귀모형은 설명변수가 반응변수의 조건부 분위수 함수에 어떻게 관계되는지 탐색함으로서 많은 유용한 정보를 제공한다. 그러나 설명변수와 반응변수가 비선형 관계를 갖는다면 선형형태를 가정하는 전통적인 분위수 회귀모형은 적합하지 않다. 또한 고차원 자료 또는 설명변수간 상관관계가 높은 자료에 대해서 변수선택의 방법이 필요하다. 이러한 이유로 본 연구에서는 벌점화 분위수 회귀나무모형을 제안하였다. 한편 제안한 방법의 분할규칙은 과도한 계산시간과 분할변수 선택편향 문제를 극복한 잔차 분석을 기반으로 하였다. 본 연구에서는 모의실험과 실증 예제를 통해 제안한 방법의 우수한 성능과 유용성을 확인하였다.

데이터마이닝 기법을 활용한 맞춤형 고혈압 사후관리 모형 개발 (A Development of a Tailored Follow up Management Model Using the Data Mining Technique on Hypertension)

  • 박일수;용왕식;김유미;강성홍;한준태
    • 응용통계연구
    • /
    • 제21권4호
    • /
    • pp.639-647
    • /
    • 2008
  • 본 연구는 국민건강보험공단의 건강검진데이터, 자격 및 보험료 그리고 진료비 데이터를 활용하여 고혈압 관리를 위한 맞춤형 고혈압 사후관리모형(고혈압 진료예측모형 및 고혈압 진료순응도세분화모형)을 개발하고자 하였다. 모형 개발에는 데이터마이닝의 로지스틱 회귀모형, 의사결정나무 그리고 앙상블 모형을 활용하였다. 고혈압 진료예측모형에서는 3가지 모형 중 로지스틱 회귀모형이 가장 우수한 모형으로 채택되었으며, 고혈압 진료순응도세분화모형은 의사결정나무모형을 통해 개발되었다. 본 연구는 전국 규모의 수년간 축적된 자료를 데이터마이닝을 활용함으로써 고혈압의 진료 및 진료순응도에 이르는 고혈압 사후관리 프로세스 전반에 걸친 결과를 도출함으로써 우리나라 고혈압 사후관리체계 구축에 기여할 것으로 사료된다.

한국아동·청소년패널조사 데이터를 이용한 중학생 삶의 만족도 분석 (The Life Satisfaction Analysis of Middle School Students Using Korean Children and Youth Panel Survey Data)

  • 안지혜;윤유동;임희석
    • 디지털융복합연구
    • /
    • 제14권2호
    • /
    • pp.197-208
    • /
    • 2016
  • 본 연구에서는 데이터마이닝의 회귀분석 기법과 의사결정 나무분석 기법을 사용하여 중학생의 삶의 만족도에 영향을 끼치는 요인을 분석하였다. 이를 위해 청소년들을 대상으로 한 한국아동 청소년패널조사(KYCPS) 중1패널 데이터 3차 년도 자료를 활용하였다. 회귀분석을 통해 추출된 공통 영향요인은 자아 존중감, 우울, 전체 성적 만족도, 지역사회 인식, 진로 정체감, 연간 비행 피해 경험 유무, 형제자매 유무, 신뢰, 행동통제, 주의집중으로 나타났다. 이를 통해 중학생의 삶의 만족도는 개인의 정서문제, 자아인식, 또래 애착, 학습습관, 가정환경 요인 등이 복합적으로 영향을 미치는 것을 알 수 있다. 이 중에서 중학생의 삶의 만족도에 예측하기 위한 중요한 영향을 미치는 요인을 분석하기 위해서 의사결정 나무분석 기법을 사용하여 분석한 결과, 자아 존중감, 우울, 진로 정체감, 주의집중으로 나타났다.