• 제목/요약/키워드: Gradient boosting

검색결과 240건 처리시간 0.026초

기계학습을 이용한 풀필먼트센터의 실시간 박스 추천에 관한 연구 (A Study on the Real-time Recommendation Box Recommendation of Fulfillment Center Using Machine Learning)

  • 차대욱;조희연;한지수;신광섭;민윤홍
    • 한국빅데이터학회지
    • /
    • 제8권2호
    • /
    • pp.149-163
    • /
    • 2023
  • 지속적인 이커머스 시장의 성장으로 풀필먼트센터가 처리해야 하는 주문량은 증가하였고, 다양한 고객 요구사항은 주문 처리의 복잡성을 높이고 있다. 이러한 추세와 함께 최근 인건비 증가로 인해 풀필먼트센터의 운영 효율성이 기업 경영 관점에서 더욱 중요해지고 있다. 본 연구는 풀필먼트센터의 출고 프로세스 중 포장 작업 영역에 적용 가능한 박스 추천을 중심으로 연구를 수행하였다. 박스 추천을 하기 위해 과거 실적 데이터를 기계학습 모형의 학습 데이터로 사용하였다. 상품 정보, 주문 정보, 포장 정보, 배송 정보 4가지 종류의 데이터를 전처리, 변수 가공 과정을 거쳐 기계학습 모델에 적용하였다. 입력 벡터로는 상품 규격 정보에 해당하는 width, length, height 3가지 특성을 사용하였으며, 상품의 실수 정보를 구간별 정수체계로 변환하는 변수 가공 과정을 통해 입력 벡터의 특성을 추출하였다. 기계학습 모형별 성능을 비교한 결과 GradientBoosting 모델을 적용하였을 경우 21개의 구간으로 상품 규격 정보를 정수로 변환하였을 때 95.2%로 가장 높은 정확도로 예측을 수행함을 확인하였다. 본 연구는 풀필먼트센터에서 잘못된 박스 선택으로 인해 발생하는 물류비용의 증가와 박스 포장 소요 시간의 비효율을 줄이기 위한 방안으로 기계학습 모형을 제시하며, 상품 규격 정보의 특성을 효과적으로 추출하기 위한 변수 가공 처리 방식을 제안한다.

오렌지마이닝을 활용한 기계학습 모델별 점토 압축지수의 오차율 및 예측 비교 (Comparison of Error Rate and Prediction of Compression Index of Clay to Machine Learning Models using Orange Mining)

  • 유재웅;김우영;김태형
    • 한국지반신소재학회논문집
    • /
    • 제23권3호
    • /
    • pp.15-22
    • /
    • 2024
  • 연약지반을 개량하고 그 위에 구조물을 시공하는 데 있어 지반 침하량을 예측하는 것은 매우 중요한 일이다. 침하량을 예측하기 위해 과거로부터 많은 연구들이 진행되었고 많은 예측 식이 제시되었다. 침하량은 점토의 압축지수를 통해 산정할 수 있다. 본 연구에서는 부산항 신항의 함수비, 간극비, 액성한계, 소성한계, 압축지수의 데이터를 수집하여 데이터 셋을 구축하고, 구축된 데이터 셋을 통해 각 데이터 사이의 상관분석을 실시하였다. 오렌지 마이닝 프로그램을 이용하여 기계학습 알고리즘인 Random Forest, Neural Network, Linear Regression, AdaBoost, Gradient Boosting을 적용하여 압축지수 예측모델을 제시하였다. 각 모델의 결과는 오차율을 나타내는 지표 중 하나인 RMSE 값과 MAPE 값 그리고 모델의 유의미함을 나타내는 R2 값을 비교하여 평가하였다. 그 결과, 함수비가 가장 큰 상관성을 보이며, 소성한계의 경우 다른 특성들보다 다소 낮은 상관성을 나타냈다. 각 모델을 비교한 결과 AdaBoost 모델이 가장 오차율이 낮고, 결정 계수 값이 크게 도출되었다.

불균형 데이터 처리를 통한 머신러닝 기반 TBM 굴진율 이상탐지 개선 (Enhancing machine learning-based anomaly detection for TBM penetration rate with imbalanced data manipulation)

  • 권기범;황병현;박현태;오주영;최항석
    • 한국터널지하공간학회 논문집
    • /
    • 제26권5호
    • /
    • pp.519-532
    • /
    • 2024
  • TBM (tunnel boring machine) 터널 프로젝트의 리스크 관리 측면에서 굴진율 예측은 중요하며, 이를 위한 머신러닝 기반 TBM 굴진율 예측 연구가 지속적으로 진행되어 왔다. 그러나, 기존 연구의 머신러닝 예측 모델은 정상 굴진율과 이상 굴진율 간의 불균형 데이터를 고려하는 데 한계가 있다. 본 연구에서는 데이터 증강 기법을 통해 불균형 데이터를 처리하여 머신러닝 기반 TBM 굴진율 이상탐지 성능을 개선하였다. 먼저, 상관관계 분석을 통해 유사 변수를 제거하여 6가지 입력특성을 선정하였다. 또한, 하위 10%와 상위 10%의 굴진율을 각각 이상 등급으로, 그 외 범위의 굴진율을 정상 등급으로 굴진율 등급을 구분하였다. 기존 학습 데이터와 SMOTE (synthetic minority oversampling technique)를 통해 증강된 학습 데이터를 각각 XGB (extreme gradient boosting)에 적용한 XGB 모델과 XGB-SMOTE 모델을 구축하였다. 굴진율 등급 예측 성능을 비교한 결과, XGB 모델은 정상 굴진율에 대한 예측 성능은 우수하나 이상 굴진율 예측 성능은 상대적으로 낮게 도출되었다. 반면, XGB-SMOTE 모델은 모든 굴진율 등급에서 일관되게 우수한 예측 성능을 보였다. 이는 SMOTE를 통한 이상 굴진율 데이터의 증강이 이상 굴진율을 유발하는 지반조건과 TBM 운영인자 간의 패턴 학습 수준을 향상시켰기 때문으로 판단된다. 결론적으로, 본 연구는 머신러닝 기반 TBM 굴진율 이상탐지 시 데이터 증강 기법을 활용한 불균형 데이터 처리가 효과적임을 보여준다.

일반화가속모형을 이용한 기술신용평가 주요 지표 분석 (Analysis of Important Indicators of TCB Using GBM)

  • 전우정;서영욱
    • 한국전자거래학회지
    • /
    • 제22권4호
    • /
    • pp.159-173
    • /
    • 2017
  • 기술력 기반의 중소벤처기업에 대한 기술금융 지원을 위해 정부는 2014년 7월부터 기술보증기금 및 일정 자격을 갖춘 민간 기술신용평가사에게 일종의 기술력 등급평가인 기술신용평가를 실시하여 은행의 여신에 활용토록 하였다. 본 논문에서는 최근까지의 기술신용평가 현황 및 한국신용정보원에서 축적하고 있는 기술평가 관련 가용 지표들에 대한 선행 연구를 개략적으로 살펴본 후 기술평가등급점수에 유의적인 영향을 미치는 지표(indicator)를 통상적인 다중회귀기법으로 탐색할 것이다. 본 논문의 관심 대상인 지표 별 등급 영향도와 모형의 적합도는 대표적인 기계학습 분류기(classifier)인 일반화가속모형(Generalized Boosting Model; GBM)을 적용하여 분석하였는 바, 주요 지표를 독립변수(feature)로 투입하여 지표의 상대적 중요성 및 분류 정확도를 산출하였다. 분석결과 회귀모형과 기계학습 모형 간 지표별 상대적인 중요도는 크게 차이나지 않는 것으로 분석되었으나, GBM 모형의 경우 회귀모형에 비해서 이노비즈인증, 연구소 및 연구개발전담부서 보유, 특허등록건수, 벤처확인 지표 등 기술개발역량이 상대적으로 기술등급에 더 큰 영향을 미치는 것으로 분석되었다.

머신러닝 기반의 자동차보험 사고 환자의 진료 기간 예측 기술 (Machine Learning-Based Prediction Technology for Medical Treatment Period of Automobile Insurance Accident Patients)

  • 변경근;이덕규;이형동
    • 융합보안논문지
    • /
    • 제23권1호
    • /
    • pp.89-95
    • /
    • 2023
  • 자동차보험 사고 환자의 진료비 감소를 위한 대책 마련에 도움을 주기 위해 본 연구에서는 자동차보험 사고 40대~50대 경상 환자들의 진료비에 가장 핵심 요소인 진료 기간을 예측하고 진료 기간에 영향을 미치는 요인을 분석하였다. 이를 위해 Decision Tree 등 5개 알고리즘을 활용한 머신러닝 모델을 생성하고 모델간에 그 성능을 비교·분석하였다. 진료 기간 예측에 정밀도, 재현율, FI 점수 등 3가지 평가 지표에서 좋은 성능을 나타낸 알고리즘은 Decision Tree, Gradient Boosting 및 XGBoost 등 3가지였다. 그리고 진료 기간 예측에 영향을 미치는 요인 분석 결과, 병원의 종류, 진료 지역, 나이, 성별 등으로 나타났다. 본 연구를 통해 AutoML을 활용한 손쉬운 연구 방법을 제시하였으며, 본 연구 결과가 자동차보험 사고 진료비 경감을 위한 정책에 도움이 되기를 기대한다.

머신러닝 및 딥러닝을 활용한 강우침식능인자 예측 평가 (Evaluation of Rainfall Erosivity Factor Estimation Using Machine and Deep Learning Models)

  • 이지민;이서로;이관재;김종건;임경재
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.450-450
    • /
    • 2021
  • 기후변화 보고서에 따르면 집중 호우의 강도 및 빈도 증가가 향후 몇 년동안 지속될 것이라 제시하였다. 이러한 집중호우가 빈번히 발생하게 된다면 강우 침식성이 증가하여 표토 침식에 더 취약하게 발생된다. Universal Soil Loss Equation (USLE) 입력 매개 변수 중 하나인 강우침식능인자는 토양 유실을 예측할때 강우 강도의 미치는 영향을 제시하는 인자이다. 선행 연구에서 USLE 방법을 사용하여 강우침식능인자를 산정하였지만, 60분 단위 강우자료를 이용하였기 때문에 정확한 30분 최대 강우강도 산정을 고려하지 못하는 한계점이 있다. 본 연구의 목적은 강우침식능인자를 이전의 진행된 방법보다 더 빠르고 정확하게 예측하는 머신러닝 모델을 개발하며, 총 월별 강우량, 최대 일 강우량 및 최대 시간별 강우량 데이터만 있어도 산정이 가능하도록 하였다. 이를 위해 본 연구에서는 강우침식능인자의 산정 값의 정확도를 높이기 위해 1분 간격 강우 데이터를 사용하며, 최근 강우 패턴을 반영하기 위해서 2013-2019년 자료로 이용했다. 우선, 월별 특성을 파악하기 위해 USLE 계산 방법을 사용하여 월별 강우침식능인자를 산정하였고, 국내 50개 지점을 대상으로 계산된 월별 강우침식능인자를 실측 값으로 정하여, 머신러닝 모델을 통하여 강우침식능인자 예측하도록 학습시켜 분석하였다. 이 연구에 사용된 머신러닝 모델들은 Decision Tree, Random Forest, K-Nearest Neighbors, Gradient Boosting, eXtreme Gradient Boost 및 Deep Neural Network을 이용하였다. 또한, 교차 검증을 통해서 모델 중 Deep Neural Network이 강우침식능인자 예측 정확도가 가장 높게 산정하였다. Deep Neural Network은 Nash-Sutcliffe Efficiency (NSE) 와 Coefficient of determination (R2)의 결과값이 0.87로서 모델의 예측성을 입증하였으며, 검증 모델을 테스트 하기 위해 국내 6개 지점을 무작위로 선별하여 강우침식능인자를 분석하였다. 본 연구 결과에서 나온 Deep Neural Network을 이용하면, 훨씬 적은 노력과 시간으로 원하는 지점에서 월별 강우침식능인자를 예측할 수 있으며, 한국 강우 패턴을 효율적으로 분석 할 수 있을 것이라 판단된다. 이를 통해 향후 토양 침식 위험을 지표화하는 것뿐만 아니라 토양 보전 계획을 수립할 수 있으며, 위험 지역을 우선적으로 선별하고 제시하는데 유용하게 사용 될 것이라 사료된다.

  • PDF

Inhalation Configuration Detection for COVID-19 Patient Secluded Observing using Wearable IoTs Platform

  • Sulaiman Sulmi Almutairi;Rehmat Ullah;Qazi Zia Ullah;Habib Shah
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권6호
    • /
    • pp.1478-1499
    • /
    • 2024
  • Coronavirus disease (COVID-19) is an infectious disease caused by the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) virus. COVID-19 become an active epidemic disease due to its spread around the globe. The main causes of the spread are through interaction and transmission of the droplets through coughing and sneezing. The spread can be minimized by isolating the susceptible patients. However, it necessitates remote monitoring to check the breathing issues of the patient remotely to minimize the interactions for spread minimization. Thus, in this article, we offer a wearable-IoTs-centered framework for remote monitoring and recognition of the breathing pattern and abnormal breath detection for timely providing the proper oxygen level required. We propose wearable sensors accelerometer and gyroscope-based breathing time-series data acquisition, temporal features extraction, and machine learning algorithms for pattern detection and abnormality identification. The sensors provide the data through Bluetooth and receive it at the server for further processing and recognition. We collect the six breathing patterns from the twenty subjects and each pattern is recorded for about five minutes. We match prediction accuracies of all machine learning models under study (i.e. Random forest, Gradient boosting tree, Decision tree, and K-nearest neighbor. Our results show that normal breathing and Bradypnea are the most correctly recognized breathing patterns. However, in some cases, algorithm recognizes kussmaul well also. Collectively, the classification outcomes of Random Forest and Gradient Boost Trees are better than the other two algorithms.

Very Short-Term Wind Power Ensemble Forecasting without Numerical Weather Prediction through the Predictor Design

  • Lee, Duehee;Park, Yong-Gi;Park, Jong-Bae;Roh, Jae Hyung
    • Journal of Electrical Engineering and Technology
    • /
    • 제12권6호
    • /
    • pp.2177-2186
    • /
    • 2017
  • The goal of this paper is to provide the specific forecasting steps and to explain how to design the forecasting architecture and training data sets to forecast very short-term wind power when the numerical weather prediction (NWP) is unavailable, and when the sampling periods of the wind power and training data are different. We forecast the very short-term wind power every 15 minutes starting two hours after receiving the most recent measurements up to 40 hours for a total of 38 hours, without using the NWP data but using the historical weather data. Generally, the NWP works as a predictor and can be converted to wind power forecasts through machine learning-based forecasting algorithms. Without the NWP, we can still build the predictor by shifting the historical weather data and apply the machine learning-based algorithms to the shifted weather data. In this process, the sampling intervals of the weather and wind power data are unified. To verify our approaches, we participated in the 2017 wind power forecasting competition held by the European Energy Market conference and ranked sixth. We have shown that the wind power can be accurately forecasted through the data shifting although the NWP is unavailable.

차량 번호판 인식을 위한 앙상블 학습기 기반의 최적 특징 선택 방법 (An Ensemble Classifier Based Method to Select Optimal Image Features for License Plate Recognition)

  • 조재호;강동중
    • 전기학회논문지
    • /
    • 제65권1호
    • /
    • pp.142-149
    • /
    • 2016
  • This paper proposes a method to detect LP(License Plate) of vehicles in indoor and outdoor parking lots. In restricted environment, there are many conventional methods for detecting LP. But, it is difficult to detect LP in natural and complex scenes with background clutters because several patterns similar with text or LP always exist in complicated backgrounds. To verify the performance of LP text detection in natural images, we apply MB-LGP feature by combining with ensemble machine learning algorithm in purpose of selecting optimal features of small number in huge pool. The feature selection is performed by adaptive boosting algorithm that shows great performance in minimum false positive detection ratio and in computing time when combined with cascade approach. MSER is used to provide initial text regions of vehicle LP. Throughout the experiment using real images, the proposed method functions robustly extracting LP in natural scene as well as the controlled environment.

입력자료 군집화에 따른 앙상블 머신러닝 모형의 수질예측 특성 연구 (The Effect of Input Variables Clustering on the Characteristics of Ensemble Machine Learning Model for Water Quality Prediction)

  • 박정수
    • 한국물환경학회지
    • /
    • 제37권5호
    • /
    • pp.335-343
    • /
    • 2021
  • Water quality prediction is essential for the proper management of water supply systems. Increased suspended sediment concentration (SSC) has various effects on water supply systems such as increased treatment cost and consequently, there have been various efforts to develop a model for predicting SSC. However, SSC is affected by both the natural and anthropogenic environment, making it challenging to predict SSC. Recently, advanced machine learning models have increasingly been used for water quality prediction. This study developed an ensemble machine learning model to predict SSC using the XGBoost (XGB) algorithm. The observed discharge (Q) and SSC in two fields monitoring stations were used to develop the model. The input variables were clustered in two groups with low and high ranges of Q using the k-means clustering algorithm. Then each group of data was separately used to optimize XGB (Model 1). The model performance was compared with that of the XGB model using the entire data (Model 2). The models were evaluated by mean squared error-ob servation standard deviation ratio (RSR) and root mean squared error. The RSR were 0.51 and 0.57 in the two monitoring stations for Model 2, respectively, while the model performance improved to RSR 0.46 and 0.55, respectively, for Model 1.