• 제목/요약/키워드: decision tree regression

검색결과 323건 처리시간 0.03초

보행자-차량 충돌사고 특성분석 방법론 비교 연구 (Comparison of Methodologies for Characterizing Pedestrian-Vehicle Collisions)

  • 최새로나;정은비;오철
    • 대한교통학회지
    • /
    • 제31권6호
    • /
    • pp.53-66
    • /
    • 2013
  • 최근 운전자의 보행자-차량 충돌사고 감소를 목적으로 한 다양한 연구가 수행되고 있으며, 본 연구에서는 보행자-차량 사고 발생 특성 및 심각도 영향요인 분석을 위하여 다양한 분석방법론을 활용한 보행자 교통사고 분석을 수행하였다. 통계모형과 휴리스틱모형 적용시 각 기법에 따른 결과를 도출함으로써 보행자 사고분석시 분석목적에 적합한 방법론을 제시하는 것을 목적으로 하였다. 이를 위하여 최근 3년간 발생한 경기도 교통사고자료(2008-2010년)를 활용하여 보행자 교통사고의 발생특성을 분석하였다. 또한, 통계모형인 이항 로지스틱 회귀분석, 순서형 프로빗 모형을 이용하여 보행자 교통사고 심각도 증가에 통계적으로 유의한 영향을 미치는 변수를 도출하였으며, 휴리스틱모형인 서포트 벡터 머신, 의사결정나무를 적용하여 교통사고 심각도 분류를 위한 모형을 개발하고 그 결과를 비교분석 하였다. 본 연구의 분석결과는 보행자 교통안전분석의 기초자료로 활용할 수 있으며 향후 국내 보행자-차량 충돌사고 분석시 유용하게 활용될 수 있을 것으로 기대된다.

데이터 마이닝을 이용한 입원 암 환자 간호 중증도 예측모델 구축 (An Analysis of Nursing Needs for Hospitalized Cancer Patients;Using Data Mining Techniques)

  • 박선아
    • 종양간호연구
    • /
    • 제5권1호
    • /
    • pp.3-10
    • /
    • 2005
  • Back ground: Nurses now occupy one third of all hospital human resources. Therefore, efficient management of nursing manpower is getting more important. While it is very clear that nursing workload requirement analysis and patient severity classification should be done first for the efficient allocation of nursing workforce, these processes have been conducted manually with ad hoc rule. Purposes: This study was tried to make a predict model for patient classification according to nursing need. We tried to find the easier and faster method to classify nursing patients that can help efficient management of nursing manpower. Methods: The nursing patient classifications data of the hospitalized cancer patients in one of the biggest cancer center in Korea during 2003.1.1-2003.12.31 were assessed by trained nurses. This study developed a prediction model and analyzing nursing needs by data mining techniques. Patients were classified by three different data mining techniques, (Logistic regression, Decision tree and Neural network) and the results were assessed. Results: The data set was created using 165,073 records of 2,228 patients classification database. Main explaining variables were as follows in 3 different data mining techniques. 1) Logistic regression : age, month and section. 2) Decision tree : section, month, age and tumor. 3) Neural network : section, diagnosis, age, sex, metastasis, hospital days and month. Among these three techniques, neural network showed the best prediction power in ROC curve verification. As the result of the patient classification prediction model developed by neural network based on nurse needs, the prediction accuracy was 84.06%. Conclusion: The patient classification prediction model was developed and tested in this study using real patients data. The result can be employed for more accurate calculation of required nursing staff and effective use of labor force.

  • PDF

초음파를 이용한 한우 육량등급의 조기예측 (Early Prediction of Carcass Yield Grade by Ultrasound in Hanwoo)

  • 이용준;석홍기;김석중;송영한
    • Journal of Animal Science and Technology
    • /
    • 제45권2호
    • /
    • pp.327-334
    • /
    • 2003
  • 본 시험은 초음파를 이용하여 한우의 도체형질을 조기에 예측하기 위하여 거세한우 66두를 대상으로 18, 21 및 24개월령에 도체형질을 측정하고, 중회귀 분석 및 의사결정나무 분석을 이용하여 24개월령 출하시 도체형질을 예측하였다. 그 결과를 요약하면 다음과 같다. 도체육량등급에 따라 군을 분류하고 성장에 따른 도체형질의 변화를 관찰한 결과, 등지방 두께는 전기간에 걸쳐 각 도체육량등급간에 유의적(p<0.05)인 차이를 보이며 A, B, C등급 순으로 얇게 나타났다. 중회귀 분석에 의한 도체육량등급의 예측율은 18, 21 및 24개월령에서 각각 78.8%, 86.4% 및 90.9%를 나타냈으며, 의사결정나무 분석에 의한 도체육량등급 예측율은 각 개월령에 따라 78.8%, 89.4% 및 89.4%를 나타냈다.

학생정보를 이용한 대졸 취업에 미치는 영향력 분석 (Determinants of job finding using student's characteristic information)

  • 조장식
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권5호
    • /
    • pp.849-856
    • /
    • 2011
  • 본 논문은 K-대학교 졸업생들의 취업여부에 미치는 영향력을 분석하기 위해 입학, 재학 및 개인특성 관련 변수들을 사용하였다. 이를 위해 모수적인 방법인 로지스틱 회귀분석을 사용하여 독립변수들의 주효과를 분석하였다. 또한 회귀분석 방법에서 독립변수들의 주효과 결과에 대한 보완으로, 비모수적인 방법인 의사결정나무 분석을 통하여 취업여부에 영향을 주는 독립변수들의 상호작용효과를 분석하였다. 먼저 회귀분석결과, 입학관련 변수들 중에서는 외국어영역 점수가 높을수록 취업확률이 높게 나타났으며, 재학 관련 변수들 중에서는 평균평점이 높을수록 취업확률이 높게 나타났다. 그리고 계열은 예체능계열에 비해서 자연계열이 취업확률이 높게 나타났으며, 개인특성 관련 변수들은 졸업 당시 연령이 작을수록 취업확률이 높게 나타났으며, 졸업시기는 8월 졸업생들에 비해서 2월 졸업생들이 취업확률이 높은 것으로 나타났다. 한편, 의사결정나무분석 결과에서는 졸업시기가 2월이면서 평균평점이 3.51점보다 높으면서 연령이 26.51세보다 작고 자연계열인 경우 취업률이 특히 높게 나타났다. 또한 졸업시기가 8월이면서 예체능계열의 졸업생인 경우 취업률이 특히 낮은 것으로 나타났다.

영어강의의 효과성에 대한 연구 (Study on the effectiveness of english-medium class)

  • 조장식
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권6호
    • /
    • pp.1137-1144
    • /
    • 2012
  • 요즘 대부분의 대학들이 국제화를 목표로 재학생들의 어학능력 및 국제적 경쟁력 강화와 함께 영어강의의 중요성이 증대되고 있다. 본 연구에서는 강의평가점수를 이용해서 과목특성 변수들과 개인특성 변수들 별로 영어강의와 한국어강의의 효과성을 비교하였다. 또한 로지스틱회귀분석과 의사결정나무분석을 이용하여 어떤 요인들이 영어강의가 한국어강의에 비해서 효과적인지를 주효과와 상호작용효과 측면에서 분석하였다. 분석결과에 따르면 영어강의의 효과성에 영향을 미치는 변수로는 학년, 계열, 강좌규모, 평균평점, 계열, 전형방법 등으로 나타났다. 또한 영어강의 효과성이 특히 높은 그룹은 1학년이면서 인문계열인 경우, 그리고 1학년이면서 자연 및 예체능계열이고 평균평점이 높은 그룹이 높게 나타났다. 그리고 영어강의의 효과성 비율이 특히 낮은 그룹은 2-3학년 학생이면서 강좌규모가 크고 인문계열인 경우로 나타났다.

도로위의 기상요인이 교통사고에 미치는 영향 - 부산지역을 중심으로 - (The effect of road weather factors on traffic accident - Focused on Busan area -)

  • 이경준;정임국;노윤환;윤상경;조영석
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권3호
    • /
    • pp.661-668
    • /
    • 2015
  • 교통사고는 인구의 증가와 그에 따른 자동차의 증가로 인하여 매년 증가하고 있다. 그러한 교통사고의 원인은 운전자의 부주의뿐만 아니라 도로상의 기상상황에 의해 영향을 받는다. 특히, 강수량, 시계, 습도, 흐림 정도, 기온 등에 의해 많은 교통사고들이 영향을 받는다. 따라서 본 연구는 다양한 기상 요인의 영향 정도에 따른 교통사고 발생 유무의 분석을 목적으로 하였다. 부산 해운대구의 센텀남대로 및 해운대로의 2013년도 교통사고 발생 자료와 지역별 상세 기상 관측 자료인 AWS 기상자료(시간당 강수량, 강수유무, 기온, 풍속), 시간대, 요일을 활용하여 로지스틱 회귀모형 및 의사결정나무모형을 이용하여 분석하였다. 그 결과 기상 요인 중 강수유무와 기온이 교통사고 발생에 영향을 미치는 요인으로 나타났다. 이러한 결과는 도로위의 기상상태에 따른 교통사고의 발생을 예측하는데 유용하게 사용할 수 있을 것이다.

장애 음성 판별을 위한 의료/전자 융복합 소프트웨어 개발 (Development of medical/electrical convergence software for classification between normal and pathological voices)

  • 문지혜;이지연
    • 디지털융복합연구
    • /
    • 제13권12호
    • /
    • pp.187-192
    • /
    • 2015
  • 장애음성을 판별할 수 있는 소프트웨어가 개발 될 경우, 원격의료와 언어치료 등 여러 융복합 분야에서의 활용도가 매우 높다. 본 논문은 성대 진동에 대한 변화율을 나타내는 의료정보인 음향학적 파라미터와 신호처리 기반 고차 통계량에 기반을 둔 파라미터를 융합하여, CART(Classification And Regression Trees) 분석을 통해서 정상/장애음성 판별 프로그램을 구현하였다. 사용된 음향학적 파라미터는 Jitter(%)와 shimmer(%)이다. 그리고 본 연구에서 제안된 고차통계량 기반 파라미터는 왜도(Skewness)와 첨도(Kurtosis)의 평균과 분산이다. Kay Elemetrics의 데이터베이스에서 무작위로 발췌된 정상음성 53명, 장애 음성 173명의 /아/ 발화를 이용하여 결정트리(Decision tree) 기반장애음성 판별을 위해 평균적으로 83.15%의 성능을 보이는 알고리즘을 구현하였다. 그 결과를 바탕으로 추후 상용화를 고려하여 사용자 친화적인 프레임 워크에 의해 컨텐츠를 생성하는 융복합형 기능이 포함된 장애음성 판별 프로그램을 개발하였다.

낙찰률 예측 모형에 관한 연구 (A Study for the Development of a Bid Price Rate Prediction Model)

  • 최보승;강현철;한상태
    • Communications for Statistical Applications and Methods
    • /
    • 제18권1호
    • /
    • pp.23-34
    • /
    • 2011
  • 부동산 경매는 최근 새로운 부동산 투자방법 가운데 하나로 자리잡고있다. 이는 부동산 시장의 성장과 더불어 부동산 경매 시장 또한 증가하고 있는 추세에 기인한다 할 수 있다. 본 연구는 부동산 경매에 참여하는 사람 및 기관들에게 가장 중요한 지표라 할 수 있는 낙찰률의 변화를 설명하고 예측하는 모형을 구축하고자 하였다. 월별 평균 낙찰률을 예측하기 위하여 단순한 지역별, 기간별 평균값을 보완하고 의사결정나무 분석을 이용하여 예측오차를 보정하는 방법을 제안하였고 선형회귀모형을 이용하여 개별 경매 물건별 낙찰률을 예측하기 위한 모형을 구축하였다. 구축된 모형은 전국 아파트 경매 물건에 적용하여 예측 모형을 구현하였으며 그 응용방법으로 예측결과에 대한 등급화를 함께 수행하였다.

데일리 렌즈 데이터를 사용한 데이터마이닝 기법 비교 (Comparison of data mining methods with daily lens data)

  • 석경하;이태우
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권6호
    • /
    • pp.1341-1348
    • /
    • 2013
  • 데이터베이스 마케팅과 시장예측 등의 분야에서 분류문제를 해결하기 위해 다양한 데이터마이닝 기법들이 적용되고 있다. 본 연구에서는 데일리 렌즈 고객들의 거래 데이터를 기반으로 의사결정나무, 로지스틱 회귀모형과 같은 기존의 통계적 분류기법과 최근에 개발된 배깅, 부스팅, 라소, 랜덤 포리스트 그리고 지지벡터기계의 분류 성능을 비교하고자 한다. 비교 실험을 위해 데이터 정제, 탐색, 파생변수 생성, 그리고 변수 선택과정을 거쳤다. 실험결과 정분류율 측면에서는 지지벡터기계가 다른 모형보다 근소하게 높았지만 표준편차가 크게 나왔다. 정분류율과 표준편차의 관점에서는 랜덤 포리스트가 가장 좋은 결과를 보였다. 그러나 모형의 해석, 간명성 그리고 학습에 걸리는 시간을 고려하였을 때 라소모형이 적합하다는 결론을 내렸다.

교통사고 데이터의 패턴 분석과 Hybrid Model을 이용한 피해자 상해 심각도 예측 (Pattern Analysis of Traffic Accident data and Prediction of Victim Injury Severity Using Hybrid Model)

  • 주영지;홍택은;신주현
    • 스마트미디어저널
    • /
    • 제5권4호
    • /
    • pp.75-82
    • /
    • 2016
  • 우리나라의 경제 성장과 도로 환경의 변화를 통해 국내 자동차 시장이 성장하였으나, 이로 인해 교통사고율 또한 증가하였고, 인명 피해가 심각한 수준이다. 이에 따라, 정부에서는 교통사고 데이터를 개방하고 문제를 해결하기 위한 정책을 수립 및 추진 중이다. 본 논문에서는 교통사고 데이터를 이용하여 클래스의 불균형을 해소하고, Hybrid Model 구축을 통한 교통사고 예측을 위해 원본 교통사고 데이터와 Sampling을 수행한 데이터를 학습 데이터로 사용한다. 두 학습데이터에 연관규칙 학습기법인 FP-Growth 알고리즘을 이용하여 교통사고 상해 심각도와 연관된 패턴을 학습한다. 두 학습 데이터의 연관 패턴을 분석을 통해 같은 연관된 패턴을 추출하고 의사결정트리와 다항 로지스틱 회귀분석기법에 연관된 속성에 가중치를 부여하여 융합형 Hybrid Model을 구축하고 교통사고 피해자 상해 심각도를 예측하는 방법에 대해 제안한다.