• 제목/요약/키워드: SVM regression

검색결과 257건 처리시간 0.022초

APPLICATION OF SUPPORT VECTOR MACHINE TO THE PREDICTION OF GEO-EFFECTIVE HALO CMES

  • Choi, Seong-Hwan;Moon, Yong-Jae;Vien, Ngo Anh;Park, Young-Deuk
    • 천문학회지
    • /
    • 제45권2호
    • /
    • pp.31-38
    • /
    • 2012
  • In this study we apply Support Vector Machine (SVM) to the prediction of geo-effective halo coronal mass ejections (CMEs). The SVM, which is one of machine learning algorithms, is used for the purpose of classification and regression analysis. We use halo and partial halo CMEs from January 1996 to April 2010 in the SOHO/LASCO CME Catalog for training and prediction. And we also use their associated X-ray flare classes to identify front-side halo CMEs (stronger than B1 class), and the Dst index to determine geo-effective halo CMEs (stronger than -50 nT). The combinations of the speed and the angular width of CMEs, and their associated X-ray classes are used for input features of the SVM. We make an attempt to find the best model by using cross-validation which is processed by changing kernel functions of the SVM and their parameters. As a result we obtain statistical parameters for the best model by using the speed of CME and its associated X-ray flare class as input features of the SVM: Accuracy=0.66, PODy=0.76, PODn=0.49, FAR=0.72, Bias=1.06, CSI=0.59, TSS=0.25. The performance of the statistical parameters by applying the SVM is much better than those from the simple classifications based on constant classifiers.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

Optimizing Clustering and Predictive Modelling for 3-D Road Network Analysis Using Explainable AI

  • Rotsnarani Sethy;Soumya Ranjan Mahanta;Mrutyunjaya Panda
    • International Journal of Computer Science & Network Security
    • /
    • 제24권9호
    • /
    • pp.30-40
    • /
    • 2024
  • Building an accurate 3-D spatial road network model has become an active area of research now-a-days that profess to be a new paradigm in developing Smart roads and intelligent transportation system (ITS) which will help the public and private road impresario for better road mobility and eco-routing so that better road traffic, less carbon emission and road safety may be ensured. Dealing with such a large scale 3-D road network data poses challenges in getting accurate elevation information of a road network to better estimate the CO2 emission and accurate routing for the vehicles in Internet of Vehicle (IoV) scenario. Clustering and regression techniques are found suitable in discovering the missing elevation information in 3-D spatial road network dataset for some points in the road network which is envisaged of helping the public a better eco-routing experience. Further, recently Explainable Artificial Intelligence (xAI) draws attention of the researchers to better interprete, transparent and comprehensible, thus enabling to design efficient choice based models choices depending upon users requirements. The 3-D road network dataset, comprising of spatial attributes (longitude, latitude, altitude) of North Jutland, Denmark, collected from publicly available UCI repositories is preprocessed through feature engineering and scaling to ensure optimal accuracy for clustering and regression tasks. K-Means clustering and regression using Support Vector Machine (SVM) with radial basis function (RBF) kernel are employed for 3-D road network analysis. Silhouette scores and number of clusters are chosen for measuring cluster quality whereas error metric such as MAE ( Mean Absolute Error) and RMSE (Root Mean Square Error) are considered for evaluating the regression method. To have better interpretability of the Clustering and regression models, SHAP (Shapley Additive Explanations), a powerful xAI technique is employed in this research. From extensive experiments , it is observed that SHAP analysis validated the importance of latitude and altitude in predicting longitude, particularly in the four-cluster setup, providing critical insights into model behavior and feature contributions SHAP analysis validated the importance of latitude and altitude in predicting longitude, particularly in the four-cluster setup, providing critical insights into model behavior and feature contributions with an accuracy of 97.22% and strong performance metrics across all classes having MAE of 0.0346, and MSE of 0.0018. On the other hand, the ten-cluster setup, while faster in SHAP analysis, presented challenges in interpretability due to increased clustering complexity. Hence, K-Means clustering with K=4 and SVM hybrid models demonstrated superior performance and interpretability, highlighting the importance of careful cluster selection to balance model complexity and predictive accuracy.

Censored varying coefficient regression model using Buckley-James method

  • Shim, Jooyong;Seok, Kyungha
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권5호
    • /
    • pp.1167-1177
    • /
    • 2017
  • The censored regression using the pseudo-response variable proposed by Buckley and James has been one of the most well-known models. Recently, the varying coefficient regression model has received a great deal of attention as an important tool for modeling. In this paper we propose a censored varying coefficient regression model using Buckley-James method to consider situations where the regression coefficients of the model are not constant but change as the smoothing variables change. By using the formulation of least squares support vector machine (LS-SVM), the coefficient estimators of the proposed model can be easily obtained from simple linear equations. Furthermore, a generalized cross validation function can be easily derived. In this paper, we evaluated the proposed method and demonstrated the adequacy through simulate data sets and real data sets.

양파 마늘의 잎 엽록소 함량 추정을 위한 SVM 회귀 활용 RGB 영상 적용성 평가 (Evaluation of Applicability of RGB Image Using Support Vector Machine Regression for Estimation of Leaf Chlorophyll Content of Onion and Garlic)

  • 이동호;정찬희;고승환;박종화
    • 대한원격탐사학회지
    • /
    • 제37권6_1호
    • /
    • pp.1669-1683
    • /
    • 2021
  • AI지능화 농업과 디지털 농업은 농업분야 과학화를 위해서 중요하다. 잎 엽록소 함량은 작물의 생육상태를 파악하는데 매우 중요한 지표 중 하나이다. 본 연구는 양파와 마늘을 대상으로 드론 기반 RGB 카메라와 다중분광(MSP)센서를 활용하여 SVM 회귀 모델을 제작하고, MSP 센서와 비교를 실시하여 RGB 카메라의 LCC 추정 적용성을 검토하고자 하였다. 연구 결과 RGB 기반 LCC 모형은 MSP 기반 LCC 모형보다 평균 R2에서 0.09, RMSE 18.66, nRMSE 3.46%로 더 낮은 결과를 보였다. 그러나 두 센서 정확도 차이는 크지 않았으며, 다양한 센서와 알고리즘을 활용한 선행연구들과 비교했을 때도 정확도는 크게 떨어지지 않았다. 또한 RGB 기반 LCC 모형은 실제 측정값과 비교하였을 때 현장 LCC 경향을 잘 반영하지만 높은 엽록소 농도에서 과소 추정되는 경향을 보였다. 본 연구로 도출된 결과는 RGB 카메라의 경제성, 범용성을 고려하였을 때 LCC 추정에 적용할 경우 가능성을 확인할 수 있었다. 본 연구에서 얻어진 결과는 인공지능 및 빅데이터 융합 기술을 적용한 AI지능화농업 기술로써 디지털 농업 등에 유용하게 활용될 수 있을 것으로 기대된다.

Expected shortfall estimation using kernel machines

  • Shim, Jooyong;Hwang, Changha
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권3호
    • /
    • pp.625-636
    • /
    • 2013
  • In this paper we study four kernel machines for estimating expected shortfall, which are constructed through combinations of support vector quantile regression (SVQR), restricted SVQR (RSVQR), least squares support vector machine (LS-SVM) and support vector expectile regression (SVER). These kernel machines have obvious advantages such that they achieve nonlinear model but they do not require the explicit form of nonlinear mapping function. Moreover they need no assumption about the underlying probability distribution of errors. Through numerical studies on two artificial an two real data sets we show their effectiveness on the estimation performance at various confidence levels.

기상 데이터와 대기 환경 데이터 기반 (초)미세먼지 분석과 예측 (Analysis and Prediction of (Ultra) Air Pollution based on Meteorological Data and Atmospheric Environment Data)

  • 박홍진
    • 한국정보전자통신기술학회논문지
    • /
    • 제14권4호
    • /
    • pp.328-337
    • /
    • 2021
  • 석면, 벤젠과 같이 발암물질 1급인 미세먼지는 각종 질병에 원인이 되고 있다. 초 미세먼지 확산은 코로나 바이러스 확산의 중요한 원인중 하나이다. 본 논문은 2015년부터 2019년까지 서울시 평균 기온, 강수량, 평균 풍속등의 기상 데이터와 SO2, NO2, O3,등의 대기 환경 데이터를 기반으로 미세먼지와 초 미세먼지를 분석하고 예측한다. 계절별과 월별로 미세먼지와 초미세먼지 현황을 파악·분석하며 미세먼지를 예측하기 위해 기계학습 모델 중 선형회귀, SVM, 앙상블 모델을 이용하여 비교 분석하였다. 또한 미세먼지와 초 미세먼지 발생에 영향을 미치는 중요한 피쳐(속성)를 파악한다. 본 논문이 파악한 결과 3월에 가장 (초)미세먼지가 높았고, 8월에서 9월까지 (초)미세먼지가 가장 낮았다. 기상 데이터일 경우 (초)미세먼지에 가장 영향을 미치는 데이터가 평균 기온이며, 기상 데이터와 대기 환경 데이터일 경우 NO2가 (초)미세먼지 발생에 가장 크게 작용하였다.

A Supervised Feature Selection Method for Malicious Intrusions Detection in IoT Based on Genetic Algorithm

  • Saman Iftikhar;Daniah Al-Madani;Saima Abdullah;Ammar Saeed;Kiran Fatima
    • International Journal of Computer Science & Network Security
    • /
    • 제23권3호
    • /
    • pp.49-56
    • /
    • 2023
  • Machine learning methods diversely applied to the Internet of Things (IoT) field have been successful due to the enhancement of computer processing power. They offer an effective way of detecting malicious intrusions in IoT because of their high-level feature extraction capabilities. In this paper, we proposed a novel feature selection method for malicious intrusion detection in IoT by using an evolutionary technique - Genetic Algorithm (GA) and Machine Learning (ML) algorithms. The proposed model is performing the classification of BoT-IoT dataset to evaluate its quality through the training and testing with classifiers. The data is reduced and several preprocessing steps are applied such as: unnecessary information removal, null value checking, label encoding, standard scaling and data balancing. GA has applied over the preprocessed data, to select the most relevant features and maintain model optimization. The selected features from GA are given to ML classifiers such as Logistic Regression (LR) and Support Vector Machine (SVM) and the results are evaluated using performance evaluation measures including recall, precision and f1-score. Two sets of experiments are conducted, and it is concluded that hyperparameter tuning has a significant consequence on the performance of both ML classifiers. Overall, SVM still remained the best model in both cases and overall results increased.

Data Mining을 이용한 전략시뮬레이션 게임 데이터 분석 (A Study of Analyzing Realtime Strategy Game Data using Data Mining)

  • 용혜련;김도진;황현석
    • 한국게임학회 논문지
    • /
    • 제15권4호
    • /
    • pp.59-68
    • /
    • 2015
  • 정보통신기술의 발달로 빅데이터 분석을 통해 사람들 일상의 기록과 잠재적 요구까지 통찰할 수 있게 되었으며, 우리의 일상 속에서 방대한 정보를 실시간으로 도출하고 있다. 여러 산업이나 기업에서 이미 빅데이터와 결합시켜 비즈니스 등 다양한 분야에 활용하고 있지만 게임 산업에서의 빅데이터 활용은 아직까지 미흡한 실정이다. 이에 본 연구에서는 데이터 마이닝을 기법을 적용하여 전략시뮬레이션 게임 데이터를 분석하였다. 전략시뮬레이션 게임 데이터를 Decision Tree, Random Forest, Multi-class SVM, Linear Regression 분석 기법을 적용하여 게임 유저의 게임수준에 영향을 미치는 요인을 분석하였다. 게임수준을 예측하는데 있어 가장 우수한 성능을 보인 기법과 변수들을 도출하여 게임 디자인과 사용성을 증대시키기 위한 제안을 하고자 한다.

데이터 마이닝을 이용한 무선 인터넷 서비스 분류기법 (Wireless Internet Service Classification using Data Mining)

  • 이성진;송종우;안수한;원유집;장재성
    • 한국정보과학회논문지:정보통신
    • /
    • 제36권3호
    • /
    • pp.153-162
    • /
    • 2009
  • 오늘 날 다양한 플랫폼을 기반으로 한 무선 네트워크 위에 실행되고 있는 수 많은 응용 프로그램은 서비스 운영자 입장에서 정확히 분류해내는 것은 중요하다. 이 연구는 WiBro 상용망에서 임의로 생성한 트래픽 데이터에서 다양한 응용프로그램들을 분류하는 것을 목적으로 한다. 분류기를 개발하는데 있어서 기존에 Flow기반으로 분류를 하는 대신 세션이라는 단위로 실험을 진행하였다. 이 단위를 사용하여 두 가지 분류 기법을 사용하였다. Classification and Regression Tree와 Support Vector Machine. 각 판별기는 생성된 변수들을 기반으로 판별을 시도하였을 때 CART의 경우 0.85%, SVM의 경우 0.94%의 오차를 보여 우수한 성능을 보였지만, 판별기의 구현과 결과 해석이 용이한 CART를 이용하여 판별시스템을 구축하는 것이 유리함을 보였다.