• 제목/요약/키워드: gradient boosting regression tree

검색결과 28건 처리시간 0.027초

딥러닝 기반 80대·90대·100대 남녀 대상 폐암 진단 후 사망률 예측에 관한 연구 (A Study on the Prediction of Mortality Rate after Lung Cancer Diagnosis for Men and Women in 80s, 90s, and 100s Based on Deep Learning )

  • 변경근;이덕규;이세영
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권2호
    • /
    • pp.87-96
    • /
    • 2023
  • 최근 의학계에서도 딥러닝 기술을 이용한 질병의 치료결과 예측 연구가 활발하다. 그러나, 소규모 환자 데이터와 특정한 딥러닝 알고리즘을 선택·활용, 연구를 진행하여 특정 조건 아래에서 의미 있는 결과를 보여주었다. 본 연구에서는 연구 결과의 일반화를 위하여 환자 대상을 좀 더 확대·세분화하여 80대·90대·100대 남녀 대상으로 폐암 진단 후 사망률 예측 연구 결과를 도출하였다. 건강보험심사평가원의 대규모 진료 정보와 다종의 딥러닝 알고리즘을 제공하는 AutoML을 이용, 80대·90대·100대 남녀의 폐암 진단 후 84개월간의 사망률 예측을 위해 Decision Tree, Random Forest, Gradient Boosting, XGBoost, Logistic Regression 등 5개 알고리즘별 모델을 생성하고 이를 통해 예측 성능을 비교하고 사망률에 영향을 미치는 요인에 대한 분석도 추진하였다. 연구 결과, 80대와 90대에서 남성이 여성보다 사망 예측률이 더 높았으며 100대에서는 여성의 사망 예측률이 남성보다 높게 나타났다. 그리고 사망률에 가장 큰 영향을 미치는 요인으로는 치료기간으로 분석되었다.

Predicting Reports of Theft in Businesses via Machine Learning

  • JungIn, Seo;JeongHyeon, Chang
    • International Journal of Advanced Culture Technology
    • /
    • 제10권4호
    • /
    • pp.499-510
    • /
    • 2022
  • This study examines the reporting factors of crime against business in Korea and proposes a corresponding predictive model using machine learning. While many previous studies focused on the individual factors of theft victims, there is a lack of evidence on the reporting factors of crime against a business that serves the public good as opposed to those that protect private property. Therefore, we proposed a crime prevention model for the willingness factor of theft reporting in businesses. This study used data collected through the 2015 Commercial Crime Damage Survey conducted by the Korea Institute for Criminal Policy. It analyzed data from 834 businesses that had experienced theft during a 2016 crime investigation. The data showed a problem with unbalanced classes. To solve this problem, we jointly applied the Synthetic Minority Over Sampling Technique and the Tomek link techniques to the training data. Two prediction models were implemented. One was a statistical model using logistic regression and elastic net. The other involved a support vector machine model, tree-based machine learning models (e.g., random forest, extreme gradient boosting), and a stacking model. As a result, the features of theft price, invasion, and remedy, which are known to have significant effects on reporting theft offences, can be predicted as determinants of such offences in companies. Finally, we verified and compared the proposed predictive models using several popular metrics. Based on our evaluation of the importance of the features used in each model, we suggest a more accurate criterion for predicting var.

Forecasting of the COVID-19 pandemic situation of Korea

  • Goo, Taewan;Apio, Catherine;Heo, Gyujin;Lee, Doeun;Lee, Jong Hyeok;Lim, Jisun;Han, Kyulhee;Park, Taesung
    • Genomics & Informatics
    • /
    • 제19권1호
    • /
    • pp.11.1-11.8
    • /
    • 2021
  • For the novel coronavirus disease 2019 (COVID-19), predictive modeling, in the literature, uses broadly susceptible exposed infected recoverd (SEIR)/SIR, agent-based, curve-fitting models. Governments and legislative bodies rely on insights from prediction models to suggest new policies and to assess the effectiveness of enforced policies. Therefore, access to accurate outbreak prediction models is essential to obtain insights into the likely spread and consequences of infectious diseases. The objective of this study is to predict the future COVID-19 situation of Korea. Here, we employed 5 models for this analysis; SEIR, local linear regression (LLR), negative binomial (NB) regression, segment Poisson, deep-learning based long short-term memory models (LSTM) and tree based gradient boosting machine (GBM). After prediction, model performance comparison was evelauated using relative mean squared errors (RMSE) for two sets of train (January 20, 2020-December 31, 2020 and January 20, 2020-January 31, 2021) and testing data (January 1, 2021-February 28, 2021 and February 1, 2021-February 28, 2021) . Except for segmented Poisson model, the other models predicted a decline in the daily confirmed cases in the country for the coming future. RMSE values' comparison showed that LLR, GBM, SEIR, NB, and LSTM respectively, performed well in the forecasting of the pandemic situation of the country. A good understanding of the epidemic dynamics would greatly enhance the control and prevention of COVID-19 and other infectious diseases. Therefore, with increasing daily confirmed cases since this year, these results could help in the pandemic response by informing decisions about planning, resource allocation, and decision concerning social distancing policies.

노인장기요양보험 이용지원 상담 대상자 선정모형 개발 (A Target Selection Model for the Counseling Services in Long-Term Care Insurance)

  • 한은정;김동건
    • 응용통계연구
    • /
    • 제28권6호
    • /
    • pp.1063-1073
    • /
    • 2015
  • 우리나라 노인장기요양보험에서는 수급자와 그 가족부양자가 수급자의 심신기능 상태와 욕구에 따라 불이익이나 불편함이 없이 비용-효과적으로 장기요양 급여를 이용할 수 있도록 지원하고자 이용지원 상담을 제공하고 있다. 본 연구는 재가급여 이용자의 이용지원 정기상담 대상자 선정시 상담 대상자의 욕구를 반영하지 않아 이용지원 상담의 만족도와 효율성이 낮은 문제를 통계학적 모형을 활용하여 해결하고자 수행되었다. 모형 개발을 위해 2013년 3월 장기요양 재가급여를 이용한 수급자와 가족부양자를 대상으로 이용지원 상담에 대한 욕구와 관련 변수를 조사하였으며, 2,000명이 조사를 완료하였다. 조사 자료를 바탕으로 이용지원 상담 대상자 선정모형을 다양한 데이터마이닝 기법(로지스틱 회귀모형, 의사결정 나무모형, Lasso 모형, 자동 신경망모형, 그래디언트 부스팅, 앙상블 모형)을 통해 개발하였고, 이중 가장 안정적이고 현장 적용이 쉽고 성능이 좋은 Lasso 모형 결과를 최종모형으로 선정하였다. 본 연구가 이용지원 상담의 만족도를 높이고 업무를 효율화 하는데 기여할 것으로 기대된다.

Cross-Technology Localization: Leveraging Commodity WiFi to Localize Non-WiFi Device

  • Zhang, Dian;Zhang, Rujun;Guo, Haizhou;Xiang, Peng;Guo, Xiaonan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권11호
    • /
    • pp.3950-3969
    • /
    • 2021
  • Radio Frequency (RF)-based indoor localization technologies play significant roles in various Internet of Things (IoT) services (e.g., location-based service). Most such technologies require that all the devices comply with a specified technology (e.g., WiFi, ZigBee, and Bluetooth). However, this requirement limits its application scenarios in today's IoT context where multiple devices complied with different standards coexist in a shared environment. To bridge the gap, in this paper, we propose a cross-technology localization approach, which is able to localize target nodes using a different type of devices. Specifically, the proposed framework reuses the existing WiFi infrastructure without introducing additional cost to localize Non-WiFi device (i.e., ZigBee). The key idea is to leverage the interference between devices that share the same operating frequency (e.g., 2.4GHz). Such interference exhibits unique patterns that depend on the target device's location, thus it can be leveraged for cross-technology localization. The proposed framework uses Principal Components Analysis (PCA) to extract salient features of the received WiFi signals, and leverages Dynamic Time Warping (DTW), Gradient Boosting Regression Tree (GBRT) to improve the robustness of our system. We conduct experiments in real scenario and investigate the impact of different factors. Experimental results show that the average localization accuracy of our prototype can reach 1.54m, which demonstrates a promising direction of building cross-technology technologies to fulfill the needs of modern IoT context.

Predicting 30-day mortality in severely injured elderly patients with trauma in Korea using machine learning algorithms: a retrospective study

  • Jonghee Han;Su Young Yoon;Junepill Seok;Jin Young Lee;Jin Suk Lee;Jin Bong Ye;Younghoon Sul;Se Heon Kim;Hong Rye Kim
    • Journal of Trauma and Injury
    • /
    • 제37권3호
    • /
    • pp.201-208
    • /
    • 2024
  • Purpose: The number of elderly patients with trauma is increasing; therefore, precise models are necessary to estimate the mortality risk of elderly patients with trauma for informed clinical decision-making. This study aimed to develop machine learning based predictive models that predict 30-day mortality in severely injured elderly patients with trauma and to compare the predictive performance of various machine learning models. Methods: This study targeted patients aged ≥65 years with an Injury Severity Score of ≥15 who visited the regional trauma center at Chungbuk National University Hospital between 2016 and 2022. Four machine learning models-logistic regression, decision tree, random forest, and eXtreme Gradient Boosting (XGBoost)-were developed to predict 30-day mortality. The models' performance was compared using metrics such as area under the receiver operating characteristic curve (AUC), accuracy, precision, recall, specificity, F1 score, as well as Shapley Additive Explanations (SHAP) values and learning curves. Results: The performance evaluation of the machine learning models for predicting mortality in severely injured elderly patients with trauma showed AUC values for logistic regression, decision tree, random forest, and XGBoost of 0.938, 0.863, 0.919, and 0.934, respectively. Among the four models, XGBoost demonstrated superior accuracy, precision, recall, specificity, and F1 score of 0.91, 0.72, 0.86, 0.92, and 0.78, respectively. Analysis of important features of XGBoost using SHAP revealed associations such as a high Glasgow Coma Scale negatively impacting mortality probability, while higher counts of transfused red blood cells were positively correlated with mortality probability. The learning curves indicated increased generalization and robustness as training examples increased. Conclusions: We showed that machine learning models, especially XGBoost, can be used to predict 30-day mortality in severely injured elderly patients with trauma. Prognostic tools utilizing these models are helpful for physicians to evaluate the risk of mortality in elderly patients with severe trauma.

IoT 및 딥 러닝 기반 스마트 팜 환경 최적화 및 수확량 예측 플랫폼 (A Smart Farm Environment Optimization and Yield Prediction Platform based on IoT and Deep Learning)

  • 최호길;안희학;정이나;이병관
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권6호
    • /
    • pp.672-680
    • /
    • 2019
  • 본 논문은 농장의 바이오 센서 데이터를 수집해서 농장에서 재배중인 농작물의 질병을 진단하고, 그 해 수확량을 예측하는 IoT 및 딥 러닝 기반 스마트 팜 환경 최적화 및 수확량 예측 플랫폼을 제안한다. 이 플랫폼은 현재 날씨, 토양 미생물 등 수집 가능한 모든 정보를 수집하여 작물이 잘 성장할 수 있도록 농장 환경을 최적화하고, 농장에서 재배중인 작물의 잎을 이용하여 작물의 질병을 진단하고, 그리고, 농장의 모든 정보를 사용하여 올해 수확량을 예측한다. 실험 결과 AEOM(Agricultural Environment Optimization Module)의 평균 정확도는 RF(Random Forest)보다 약 15%, GBD(Gradient Boosting Tree)보다 약 8% 높고, 데이터가 증가해도 RF나 GBD에 비해 정확도가 덜 감소한다. 선형 회귀에 따르면 정확도의 기울기는 ReLU의 경우 -3.641E-4, Sigmoid의 경우 -4.0710E-4, 계단함수의 경우 -7.4534E-4이다. 따라서 ReLU 사용시 정확도 기울기가 가장 낮으므로 테스트 데이터의 양이 증가함에 따라 ReLU는 다른 두 가지 활성화 기능보다 더 정확하다. 본 논문에서 제안한 EOYPP는 농장 전체를 관리하는 플랫폼으로 실제 농장에 도입된다면 국내 스마트 팜의 발전에 크게 이바지할 것이다.

텍스트 마이닝을 활용한 지역 특성 기반 도시재생 유형 추천 시스템 제안 (Suggestion of Urban Regeneration Type Recommendation System Based on Local Characteristics Using Text Mining)

  • 김익준;이준호;김효민;강주영
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.149-169
    • /
    • 2020
  • 현 정부의 주요 국책사업 중 하나인 도시재생 뉴딜사업은 매년 100 곳씩, 5년간 500곳을대상으로 50조를 투자하여 낙후된 지역을 개발하는 것으로 언론과 지자체의 높은 이목이 집중되고 있다. 그러나, 현재 이 사업모델은 면적 규모에 따라 "우리동네 살리기, 주거정비지원형, 일반근린형, 중심시가지형, 경제기반형" 등 다섯 가지로 나뉘어 추진되어 그 지역 본래의 특성을 반영하지 못하고 있다. 국내 도시재생 성공 키워드는 "주민 참여", "지역특화" "부처협업", "민관협력"이다. 성공 키워드에 따르면 지자체에서 정부에게 도시재생 사업을 제안할 때 지역주민, 민간기업의 도움과 함께 도시의 특성을 정확히 이해하고 도시의 특성에 어울리는 방향으로 사업을 추진하는 것이 가장 중요하다는 것을 알 수 있다. 또한 도시재생 사업 후 발생하는 부작용 중 하나인 젠트리피케이션 문제를 고려하면 그 지역 특성에 맞는 도시재생 유형을 선정하여 추진하는 것이 중요하다. 이에 본 연구는 '도시재생 뉴딜 사업' 방법론의 한계점을 보완하기 위해, 기존 서울시가 지역 특성에 기반하여 추진하고 있는 "2025 서울시 도시재생 전략계획"의 도시재생 유형을 참고하여 도시재생 사업지에 맞는 도시재생 유형을 추천하는 시스템을 머신러닝 알고리즘을 활용하여 제안하고자 한다. 서울시 도시재생 유형은 "저이용저개발, 쇠퇴낙후, 노후주거, 역사문화자원 특화" 네 가지로 분류된다 (Shon and Park, 2017). 지역 특성을 파악하기 위해 총 4가지 도시재생 유형에 대해 사업이 진행된 22개의 지역에 대한 뉴스 미디어 10만여건의 텍스트 데이터를 수집하였다. 수집된 텍스트를 이용하여 도시재생 유형에 따른 지역별 주요 키워드를 도출하고 토픽모델링을 수행하여 유형별 차이가 있는 지 탐색해 보았다. 다음 단계로 주어진 텍스트를 기반으로 도시재생 유형을 추천하는 추천시스템 구축을 위해 텍스트 데이터를 벡터로 변환하여 머신러닝 분류모델을 개발하였고, 이를 검증한 결과 97% 정확도를 보였다. 따라서 본 연구에서 제안하는 추천 시스템은 도시재생 사업을 진행하는 과정에서 신규 사업지의 지역 특성에 기반한 도시재생 유형을 추천할 수 있을 것으로 기대된다.