• 제목/요약/키워드: decision tree regression

검색결과 324건 처리시간 0.024초

머신러닝을 통한 잉크 필요량 예측 알고리즘 (Machine Learning Algorithm for Estimating Ink Usage)

  • 권세욱;현영주;태현철
    • 산업경영시스템학회지
    • /
    • 제46권1호
    • /
    • pp.23-31
    • /
    • 2023
  • Research and interest in sustainable printing are increasing in the packaging printing industry. Currently, predicting the amount of ink required for each work is based on the experience and intuition of field workers. Suppose the amount of ink produced is more than necessary. In this case, the rest of the ink cannot be reused and is discarded, adversely affecting the company's productivity and environment. Nowadays, machine learning models can be used to figure out this problem. This study compares the ink usage prediction machine learning models. A simple linear regression model, Multiple Regression Analysis, cannot reflect the nonlinear relationship between the variables required for packaging printing, so there is a limit to accurately predicting the amount of ink needed. This study has established various prediction models which are based on CART (Classification and Regression Tree), such as Decision Tree, Random Forest, Gradient Boosting Machine, and XGBoost. The accuracy of the models is determined by the K-fold cross-validation. Error metrics such as root mean squared error, mean absolute error, and R-squared are employed to evaluate estimation models' correctness. Among these models, XGBoost model has the highest prediction accuracy and can reduce 2134 (g) of wasted ink for each work. Thus, this study motivates machine learning's potential to help advance productivity and protect the environment.

다중회귀 분석을 이용한 영화 흥행 예측 (Predicting Financial Success of a Movie Using Multiple Regression Analysis)

  • 정회윤;양형정
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2013년도 제48차 하계학술발표논문집 21권2호
    • /
    • pp.275-278
    • /
    • 2013
  • 영화의 흥행 요소를 파악하여 영화의 흥행 여부를 예측하는 것은 영화의 수익성 부분에서 아주 중요하다. 영화 시장이 과거와는 다르게 증가함에 따라, 다양한 영화 흥행에 관한 예측 연구들이 개발되었다. 본 논문에서는 영화 흥행 요소들을 수집하고 다중회귀 분석을 통해서 유의수준을 만족하는 흥행 요소들을 선택한다. 그 후, 이러한 요소들을 예측 방법들의 입력값으로 사용하여 영화 흥행을 예측한다. 성능을 비교하기 위해 본 논문에서 제안한 방법과 현재 개발된 영화 흥행 예측 방법(다중회귀, 의사결정트리, 인공신경망)들을 정확도와 평균제곱근오차를 통해 예측 모형의 성능을 비교한다. 그 결과, 다중 회귀 분석을 통해 유의한 흥행요소들만을 고려한 예측 방법의 정확도가 모든 흥행 요소들을 고려한 예측 방법보다 평균 8.2% 향상되었고, 현재까지 개발된 영화 흥행 예측 방법보다 더 높은 예측 성능을 보여준다.

  • PDF

기계학습을 활용한 수출증감률 예측 (Predicting Export Change Rate using Machine Learning Methods)

  • 안채린;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.536-538
    • /
    • 2023
  • 수출의존도가 높은 한국은 코로나19 팬데믹, 우크라이나-러시아 전쟁 등 대외환경의 변화에 따른 수출 여건에 민감할 수 밖에 없는 환경이다. 이에 발 빠르게 대응하기 위해 정확한 수출증감률 예측이 필요하며 이를 가장 잘 수행할 수 있는 예측모델을 찾고자 한다. 수출에 영향을 끼치는 주요변수 선정 후, min-max 정규화를 시행하고 변수간 상관계수와 다중공선성 확인을 통해 변수를 축소했다. 그리고 머신러닝 예측모델로 많이 사용되는 Linear Regression, Decision Tree, Gradient Boost Regressor, Random Forest 4가지 모델에 대입하여 수출 증감률 예측 정확도를 비교했다. 그 결과, Linear Regression의 MSE가 0.087로 가장 낮아 제일 우수한 모델이라는 결론에 도달했다.

데이터 마이닝을 활용한 외과수술환자의 회복실 체류시간 분석 (Length of stay in PACU among surgical patients using data mining technique)

  • 유제복;장희정
    • 한국산학기술학회논문지
    • /
    • 제14권7호
    • /
    • pp.3400-3411
    • /
    • 2013
  • 본 연구의 목적은 회복실 환자의 평균 체류시간을 알아보고, 체류시간에 미치는 요인들을 파악하여 회복실 체류 시간 예측을 위한 분석을 하기 위함이다. 본 연구의 대상자는 상급 종합병원에 입원한 전신 마취 하에 일반외과 수술을 받은 18세 이상 성인 남녀 환자 중 회복실로 입실한 환자를 1,500명을 대상으로 하였고 이중 1,293건을 분석하였다. 회복실 체류시간에 영향을 미치는 요인으로 32항목을 측정하였다. 평균 회복실 체류시간은 72.02분이었다. 수술주기별 관련요인과 회복실 체류시간의 관계를 살펴본 결과 나이, 수술종류, 수술시간, 진통제사용회수가 유의미한 관계를 나타내었다 회복실 체류시간에 가장 영향을 많이 주는 변수는 수술종류이며 그 다음 EKG 이상여부, 나이, 마취제, 수술시간으로 나타났다. 범주 I(30분~60분)은 2개의 경우, 범주 II(61분~90분)도 2개의 경우, 범주 III(91분~120분)은 4개의 경우로 분석되었다.

데이터마이닝을 활용한 사랑의 형태에 따른 연인관계 몰입수준 및 관계 지속여부 예측 (Prediction of commitment and persistence in heterosexual involvements according to the styles of loving using a datamining technique)

  • 박윤주
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.69-85
    • /
    • 2016
  • 연인과의 성공적인 관계형성은 인생의 만족감을 결정짓는 핵심적인 요소 중 하나이다. 기존에 심리학 분야에서는 성공적인 연인관계에 영향을 미치는 요인들에 대한 다양한 연구가 수행되어 왔으나, 주로 통계적인 분석기법에 기반하고 있기 때문에 복잡한 비선형의 관계를 분석하고, 특징을 추출하는 데에는 한계가 있었다. 이에, 본 연구는, 기존의 통계적인 분석 기법과 더불어, 데이터마이닝의 의사결정나무 분석기법을 활용하여 사랑의 형태에 따른 연인관계의 몰입(commitment) 수준과 관계지속 여부를 분석하였다. 특히, 기존 연구에서 도출된 주요 변인들 이외에 사랑의 여섯 가지 형태인 에로스(eros), 루두스(ludus), 스트로게(storge), 매니아(mania), 프래그마(pragma) 그리고 아가페(agape)를 추가적으로 고려하여, 이들이 연인관계에서 서로에 대한 몰입수준 및 연인관계 지속여부에 어떠한 영향을 미치는지 분석하고, 예측하는 모형을 수립하였다. 본 연구에는 실제 남녀커플 105쌍, 총 210명에 대한 데이터가 활용되었다. 본 연구결과 연인관계 몰입수준 및 관계 지속여부의 영향요인으로, 기존에 심리학 분야에서 제시된 변수들 이외에, 에로스, 아가페, 프래그마 등이 유의한 영향을 미친다는 것을 확인하였다. 특히, 남성은 아가페적 사랑의 형태가 몰입에 중요한 영향을 미치는 반면, 여성은 에로스적 사랑의 형태가 더욱 중요한 영향을 미치는 것으로 나타났다. 또한, 연인관계 지속여부에는 남성의 나르시시즘, 만족, 투자 및 매니아적 성향이 영향을 주고 있는 것으로 나타난 반면, 여성의 경우, 여성이 남성을 매니아적으로 사랑하는 정도만이 영향을 주고 있어, 남성이 관계의 지속 또는 결별에 더욱 결정적인 영향을 미치고 있는 것을 알 수 있었다. 이러한 연구는 데이터마이닝의 적용분야를 심리학 영역으로 확장한 융합연구로, 연인관계에 대한 새로운 분석을 시도하였다는 점에서 의의가 있으며, 조화로운 연인관계를 형성하는데 실질적인 시사점을 제공할 수 있을 것으로 기대된다.

이기종 머신러닝기법을 활용한 KOSPI200 옵션변동성 예측 (Estimation of KOSPI200 Index option volatility using Artificial Intelligence)

  • 신소희;오하영;김장현
    • 한국정보통신학회논문지
    • /
    • 제26권10호
    • /
    • pp.1423-1431
    • /
    • 2022
  • 블랙숄즈모형에서 옵션가격을 결정하는 변수 중 기초자산의 변동성은 현재 시점에서는 알 수 없고, 미래시점에 실현된 변동성을 사후에야 알 수 있다. 하지만 옵션이 거래되는 시장에서 관찰되는 가격이 있기 때문에 가격에 내재된 변동성을 역으로 산출한 내재변동성은 현재 시점에 구할 수 있다. 내재변동성을 구하기 위해서는 옵션가격과, 블랙숄즈 모형의 변동성을 제외한 옵션가격결정변수인 기초자산가격, 무위험이자율, 배당률, 행사가격, 잔존기간이 필요하다. 블랙숄즈모형의 변동성은 고정된 상수이나, 내재변동성 산출시 행사가격에 따라 변동성이 다르게 산출되는 변동성스마일현상을 보이기도 한다. 따라서 내재변동성 산출시 옵션 단일 종목이 아닌 시장전반의 변동성을 감안하는 것이 필요하다고 판단하여 본 연구에서는 V-KOSPI지수도 설명변수로 추가하였다. 머신러닝기법 중 지도학습방법을 사용하였으며, Linear Regression 계열, Tree 계열, SVR과 KNN 알고리즘 및 딥뉴럴네트워크로 학습 및 예측하였다. Training성능은 Decision Tree모형이 99.9%로 가장 높았고 Test성능은 Random Forest 알고리즘이 96.9%로 가장 높았다.

경영분석지표와 의사결정나무기법을 이용한 유상증자 예측모형 개발 (Development of Predictive Models for Rights Issues Using Financial Analysis Indices and Decision Tree Technique)

  • 김명균;조윤호
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.59-77
    • /
    • 2012
  • 기업의 성장성, 수익성, 안정성, 활동성, 생산성 등에 대한 다양한 분석이 은행, 신용평가기관, 투자자 등 많은 이해관계자에 의해 실시되고 있고, 이에 대한 다양한 경영분석 지표들 또한 정기적으로 발표되고 있다. 본 연구에서는 이러한 경영분석 지표를 이용하여 어떤 기업이 가까운 미래에 유상증자를 실시하는지를 데이터마이닝을 통해 예측하고자 한다. 본 연구를 통해 어떠한 지표가 유상증자 여부를 예측하는데 도움이 되는가를 살펴 볼 것이며, 그 지표들을 이용하여 예측할 경우 그 예측의 정확도가 어느 정도인지를 분석하고자 한다. 특히 1997년 IMF 금융위기 전후로 유상증자를 결정하는 변수들이 변화하는지, 그리고 예측의 정확성에 분명한 차이가 존재하는지 분석한다. 또한 유상증자 실시 시기를 경영분석 지표 발표 후 1년 내, 1~2년 내, 2~3년 내로 나누어 예측 시기에 따라 예측의 정확성과 결정 변수들의 차이가 존재하는지도 분석한다. 658개의 유가증권상장법인의 경영분석 데이터를 이용하여 실증 분석한 결과, IMF 이후의 유상증자 예측모형이 IMF 이전의 예측모형에 비해 예측 정확도가 높았고, 학습용 데이터의 예측 정확도와 검증용 데이터의 예측 정확도 차이도 IMF 이후가 낮게 나타났다. 이러한 결과는 IMF 이후 재무자료의 정확도가 높아졌고, 기업에게 유상증자의 목적이 더욱 명확해졌다고 해석될 수 있다. 또한 예측기간이 단기인 경우 경영분석 지표 중 안전성에 관련된 지표들의 중요성이 부각되었고, 장기인 경우에는 수익성과 안전성뿐만 아니라 활동성과 생산성 관련지표도 유상증자를 예측하는 데 중요한 것으로 파악되었다. 그리고 모든 예측모형에서 산업코드가 유상증자를 예측하는 중요변수로 포함되었는데 이는 산업별로 서로 다른 유상증자 유형이 존재한다는 점을 시사한다. 본 연구는 투자자나 재무담당자가 유상증자 여부를 장단기 시점에서 예측하고자 할 때 어떠한 경영분석지표를 고려하여 분석하는 것이 바람직한지에 대한 지침을 제공하는데 그 의의가 있다.

지능형 IoT서비스를 위한 기계학습 기반 동작 인식 기술

  • 최대웅;조현중
    • 한국전자파학회지:전자파기술
    • /
    • 제27권4호
    • /
    • pp.19-28
    • /
    • 2016
  • 최근 RFID와 같은 무선 센싱 네트워크 기술과 객체 추적을 위한 센싱 디바이스 및 다양한 컴퓨팅 자원들이 빠르게 발전함에 따라, 기존 웹의 형태는 소셜 웹에서 유비쿼터스 컴퓨팅 웹으로 자연스럽게 진화되고 있다. 유비쿼터스 컴퓨팅 웹에서 사물인터넷(IoT)은 기존의 컴퓨터를 대체할 수 있는데, 이것은 곧 한 사람과 주변 사물들 간에 연결되는 네트워크가 확장되는 것과 동시에 네트워크 안에서 생성되는 데이터의 수가 기하급수적으로 증가되는 것을 의미한다. 따라서 보다 지능적인 IoT 서비스를 위해서는, 수많은 미가공 데이터들 사이에서 사람의 의도와 상황을 실시간으로 정확히 파악할 수 있어야 한다. 이때 사물과의 상호작용을 위한 동작 인식 기술(Gesture recognition)은 집적적인 접촉을 필요로 하지 않기 때문에, 미래의 사람-사물 간 상호작용에 응용될 수 있는 잠재력을 갖고 있다. 한편, 기계학습 분야의 최신 알고리즘들은 다양한 문제에서 사람의 인지능력을 종종 뛰어넘는 성능을 보이고 있는데, 그 중에서도 의사결정나무(Decision Tree)를 기반으로 한 Decision Forest는 분류(Classification)와 회귀(Regression)를 포함한 전 영역에 걸쳐 우월한 성능을 보이고 있다. 따라서 본 논문에서는 지능형 IoT 서비스를 위한 다양한 동작 인식 기술들을 알아보고, 동작 인식을 위한 Decision Forest의 기본 개념과 구현을 위한 학습, 테스팅에 대해 구체적으로 소개한다. 특히 대표적으로 사용되는 3가지 학습방법인 배깅(Bagging), 부스팅(Boosting) 그리고 Random Forest에 대해 소개하고, 이것들이 동작 인식을 위해 어떠한 특징을 갖는지 기존의 연구결과를 토대로 알아보았다.

Application of Deep Learning: A Review for Firefighting

  • Shaikh, Muhammad Khalid
    • International Journal of Computer Science & Network Security
    • /
    • 제22권5호
    • /
    • pp.73-78
    • /
    • 2022
  • The aim of this paper is to investigate the prevalence of Deep Learning in the literature on Fire & Rescue Service. It is found that deep learning techniques are only beginning to benefit the firefighters. The popular areas where deep learning techniques are making an impact are situational awareness, decision making, mental stress, injuries, well-being of the firefighter such as his sudden fall, inability to move and breathlessness, path planning by the firefighters while getting to an fire scene, wayfinding, tracking firefighters, firefighter physical fitness, employment, prediction of firefighter intervention, firefighter operations such as object recognition in smoky areas, firefighter efficacy, smart firefighting using edge computing, firefighting in teams, and firefighter clothing and safety. The techniques that were found applied in firefighting were Deep learning, Traditional K-Means clustering with engineered time and frequency domain features, Convolutional autoencoders, Long Short-Term Memory (LSTM), Deep Neural Networks, Simulation, VR, ANN, Deep Q Learning, Deep learning based on conditional generative adversarial networks, Decision Trees, Kalman Filters, Computational models, Partial Least Squares, Logistic Regression, Random Forest, Edge computing, C5 Decision Tree, Restricted Boltzmann Machine, Reinforcement Learning, and Recurrent LSTM. The literature review is centered on Firefighters/firemen not involved in wildland fires. The focus was also not on the fire itself. It must also be noted that several deep learning techniques such as CNN were mostly used in fire behavior, fire imaging and identification as well. Those papers that deal with fire behavior were also not part of this literature review.

데이터마이닝 기법을 활용한 한국인의 고위험 음주 예측모형 개발 연구 (Developing the high-risk drinking predictive model in Korea using the data mining technique)

  • 박일수;한준태
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권6호
    • /
    • pp.1337-1348
    • /
    • 2017
  • 본 연구는 질병관리본부에서 실시한 전국 규모의 자료인 지역사회건강조사 2014년 자료를 이용하여 고위험 음주자들의 특성 및 요인을 파악하고 고위험 음주 예측모형을 개발했다. 예측모형 개발은 데이터마이닝 방법 중 로지스틱 회귀분석, 의사결정나무, 신경망 분석 3가지 방법을 적용했으며, 로지스틱 회귀분석의 주요 결과로는 40대 남자의 위험도가 높았고, 사무직과 판매서비스직의 위험도가 높았다. 특히 현재 흡연자인 경우 고위험 음주 위험도가 높았다. 3가지 방법 중 AUROC (area under a receiver operation characteristic curve) 측면에서 신경망 분석과 로지스틱 회귀분석이 가장 높게 나타났다. 또한 고위험 음주 예방을 위한 우선 관리 대상자를 선정함에 있어 신경망 분석과 로지스틱 회귀분석으로 개발된 예측모형의 사후확률을 기초로 두 가지 모형 모두 예측분포의 상위 10%인 집단에 해당되는 경우를 선정한 결과 신경망 분석이나 로지스틱 회귀모형 1가지 모형으로 적용하는 것보다 반응률 및 향상도가 다소 개선되는 것으로 나타났다. 본 연구에서 개발된 고위험 음주 예측모형과 우선 관리 대상자 선정 방법은 문제적 음주 예방 및 개선 교육, 절주 프로그램 개발 등에 보다 세분화되고 효과적인 건강관리 서비스를 제공을 위한 기초자료가 될 수 있을 것이다.