• 제목/요약/키워드: SVM Model

검색결과 702건 처리시간 0.024초

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델 (A Hybrid SVM Classifier for Imbalanced Data Sets)

  • 이재식;권종구
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.125-140
    • /
    • 2013
  • 어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 어떤 기법의 성능을 평가할 때에 적중률뿐만 아니라, 민감도와 특이도도 함께 측정하여야 한다. 고객의 이탈을 예측하는 문제에서 '유지' 레코드가 다수 클래스를 차지하고, '이탈' 레코드는 소수 클래스를 차지한다. 민감도는 실제로 '유지'인 레코드를 '유지'로 예측하는 비율이고, 특이도는 실제로 '이탈'인 레코드를 '이탈'로 예측하는 비율이다. 많은 데이터 마이닝 기법들이 불균형 데이터에 대해서 저조한 성능을 보이는 것은 바로 소수 클래스의 적중률인 특이도가 낮기 때문이다. 불균형 데이터 집합에 대처하는 과거 연구 중에는 소수 클래스를 Oversampling하여 균형 데이터 집합을 생성한 후에 데이터 마이닝 기법을 적용한 연구들이 있다. 이렇게 균형 데이터 집합을 생성하여 예측을 수행하면, 특이도는 다소 향상시킬 수 있으나 그 대신 민감도가 하락하게 된다. 본 연구에서는 민감도는 유지하면서 특이도를 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine (SVM), 인공신경망(ANN) 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델로서, Hybrid SVM Model이라고 명명하였다. 구축과정 및 예측과정은 다음과 같다. 원래의 불균형 데이터 집합으로 SVM_I Model과 ANN_I Model을 구축한다. 불균형 데이터 집합으로부터 Oversampling을 하여 균형 데이터 집합을 생성하고, 이것으로 SVM_B Model을 구축한다. SVM_I Model은 민감도에서 우수하고, SVM_B Model은 특이도에서 우수하다. 입력 레코드에 대해서 SVM_I와 SVM_B가 동일한 예측치를 도출하면 그것을 최종 해로 결정한다. SVM_I와 SVM_B가 상이한 예측치를 도출한 레코드에 대해서는 ANN과 의사결정나무의 도움으로 판별 과정을 거쳐서 최종 해를 결정한다. 상이한 예측치를 도출한 레코드에 대해서는, ANN_I의 출력값을 입력속성으로, 실제 이탈 여부를 목표 속성으로 설정하여 의사결정나무 모델을 구축한다. 그 결과 다음과 같은 2개의 판별규칙을 얻었다. 'IF ANN_I output value < 0.285, THEN Final Solution = Retention' 그리고 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn'이다. 제시되어 있는 규칙의 Threshold 값인 0.285는 본 연구에서 사용한 데이터에 최적화되어 도출된 값이다. 본 연구에서 제시하는 것은 Hybrid SVM Model의 구조이지 특정한 Threshold 값이 아니기 때문에 이 Threshold 값은 대상 데이터에 따라서 얼마든지 변할 수 있다. Hybrid SVM Model의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터 집합을 사용하여 평가하였다. Hybrid SVM Model의 적중률은 91.08%로서 SVM_I Model이나 SVM_B Model의 적중률보다 높았다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. SVM_I Model의 민감도는 94.65%이었고, SVM_B Model의 특이도는 67.00%이었다. 그러므로 본 연구에서 개발한 Hybrid SVM Model이 SVM_I Model의 민감도 수준은 유지하면서 SVM_B Model의 특이도보다는 향상된 성능을 보였다.

A Novel Image Classification Method for Content-based Image Retrieval via a Hybrid Genetic Algorithm and Support Vector Machine Approach

  • Seo, Kwang-Kyu
    • 반도체디스플레이기술학회지
    • /
    • 제10권3호
    • /
    • pp.75-81
    • /
    • 2011
  • This paper presents a novel method for image classification based on a hybrid genetic algorithm (GA) and support vector machine (SVM) approach which can significantly improve the classification performance for content-based image retrieval (CBIR). Though SVM has been widely applied to CBIR, it has some problems such as the kernel parameters setting and feature subset selection of SVM which impact the classification accuracy in the learning process. This study aims at simultaneously optimizing the parameters of SVM and feature subset without degrading the classification accuracy of SVM using GA for CBIR. Using the hybrid GA and SVM model, we can classify more images in the database effectively. Experiments were carried out on a large-size database of images and experiment results show that the classification accuracy of conventional SVM may be improved significantly by using the proposed model. We also found that the proposed model outperformed all the other models such as neural network and typical SVM models.

교차검증을 이용한 SVM 전력수요예측 (SVM Load Forecasting using Cross-Validation)

  • 조남훈
    • 대한전기학회논문지:전력기술부문A
    • /
    • 제55권11호
    • /
    • pp.485-491
    • /
    • 2006
  • In this paper, we study the problem of model selection for Support Vector Machine(SVM) predictor for short-term load forecasting. The model selection amounts to tuning SVM parameters, such as the cost coefficient C and kernel parameters and so on, in order to maximize the prediction performance of SVM. We propose that Cross-Validation method can be used as a model selection algorithm for SVM-based load forecasting technique. Through the various experiments on several data sets, we found that the difference between the prediction error of SVM using Cross-Validation and that of ideal SVM is less than 5%. This shows that SVM parameters for load forecasting can be efficiently tuned by using Cross-Validation.

Mahalanobis 거리측정 방법 기반의 GMM-Supervector SVM 커널을 이용한 화자인증 방법 (Speaker Verification Using SVM Kernel with GMM-Supervector Based on the Mahalanobis Distance)

  • 김형국;신동
    • 한국음향학회지
    • /
    • 제29권3호
    • /
    • pp.216-221
    • /
    • 2010
  • 본 논문에서는 Gaussian Mixture Model (GMM)-supervector의 Mahalanobis 거리측정 방법 기반의 Support Vector Machine (SVM) 커널을 이용한 새로운 화자인증 방법을 제안한다. 제안된 GMM-supervector SVM 커널방식은 GMM 방식과 SVM 방식을 결합한 방식으로서, GMM 파라미터에 의해 형성된 화자 및 비 화자 GMM-supervectors의 화자인증 임계값을 Mahalanobis 거리측정 방법기반의 SVM 커널에 적용함으로써 화자인증 정확도를 높인다. 제안한 방식의 성능 측정을 위해 20명의 화자를 대상으로 문장독립형 화자인증 실험을 수행하여 기존에 사용되고 있는 GMM, SVM, Kullback-Leibler (KL) divergence 거리측정 방법 기반의 GMM-supervector SVM 커널, Bhattacharyya 거리측정 방법기반의 GMM-supervector SVM 커널 방식을 통한 화자인증 결과들과 비교하였다.

앙상블 SVM 모형을 이용한 기업 부도 예측 (Bankruptcy prediction using ensemble SVM model)

  • 최하나;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권6호
    • /
    • pp.1113-1125
    • /
    • 2013
  • 기업의 부도를 예측하는 것은 회계나 재무 분야에서 중요한 연구주제이다. 지금까지 기업 부도예측을 위해 여러 가지 데이터마이닝 기법들이 적용되었으나 주로 단일 모형을 사용함으로서 복잡한 분류 문제에의 적용에 한계를 갖고 있었다. 본 논문에서는 최근에 각광받고 있는 SVM (support vector machine) 모형들을 결합한 앙상블 SVM 모형 (ensemble SVM model)을 부도예측에 사용하고자 한다. 제안된 앙상블 모형은 v-조각 교차 타당성 (v-fold cross-validation)에 의해 얻어진 여러 가지 모형 중에서 성능이 좋은 상위 k개의 단일 모형으로 구성하고 과반수 투표 방식 (majority voting)을 사용하여 미지의 클래스를 분류한다. 본 논문에서 제안된 앙상블 SVM 모형의 성능을 평가하기 위해 실제 기업의 재무비율 자료와 모의실험자료를 가지고 실험하였고, 실험결과 제안된 앙상블 모형이 여러 가지 평가척도 하에서 단일 SVM 모형들보다 좋은 성능을 보임을 알 수 있었다.

GA-SVM을 이용한 결함 경향이 있는 소프트웨어 모듈 예측 (Predicting Defect-Prone Software Module Using GA-SVM)

  • 김영옥;권기태
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권1호
    • /
    • pp.1-6
    • /
    • 2013
  • 소프트웨어의 결함 경향 모듈 예측을 위해 SVM 분류기가 우수한 성능을 보인다는 연구들이 많지만, SVM에서 필요한 파라미터 선정 시 매 커널마다 다르게 선정해야 하고, 파라미터의 변경에 따른 결과예측을 위해 알고리즘을 반복적으로 수행해야 하는 불편함이 있다. 따라서 본 논문에서는 SVM의 파라미터 선정 시 유전알고리즘을 이용하여 스스로 찾게 하는 GA-SVM 모델을 구현하였다. 그리고 분류 성능 비교를 위해 신경망의 역전파알고리즘을 이용하여 분류했던 기존 논문과 비교 분석한 결과, GA-SVM 모델의 성능이 더 우수함을 확인하였다.

Application of a support vector machine for prediction of piping and internal stability of soils

  • Xue, Xinhua
    • Geomechanics and Engineering
    • /
    • 제18권5호
    • /
    • pp.493-502
    • /
    • 2019
  • Internal stability is an important safety issue for levees, embankments, and other earthen structures. Since a large part of the world's population lives near oceans, lakes and rivers, floods resulting from breaching of dams can lead to devastating disasters with tremendous loss of life and property, especially in densely populated areas. There are some main factors that affect the internal stability of dams, levees and other earthen structures, such as the erodibility of the soil, the water velocity inside the soil mass and the geometry of the earthen structure, etc. Thus, the mechanism of internal erosion and stability of soils is very complicated and it is vital to investigate the assessment methods of internal stability of soils in embankment dams and their foundations. This paper presents an improved support vector machine (SVM) model to predict the internal stability of soils. The grid search algorithm (GSA) is employed to find the optimal parameters of SVM firstly, and then the cross - validation (CV) method is employed to estimate the classification accuracy of the GSA-SVM model. Two examples of internal stability of soils are presented to validate the predictive capability of the proposed GSA-SVM model. In addition to verify the effectiveness of the proposed GSA-SVM model, the predictions from the proposed GSA-SVM model were compared with those from the traditional back propagation neural network (BPNN) model. The results showed that the proposed GSA-SVM model is a feasible and efficient tool for assessing the internal stability of soils with high accuracy.

Transfer Learning based DNN-SVM Hybrid Model for Breast Cancer Classification

  • Gui Rae Jo;Beomsu Baek;Young Soon Kim;Dong Hoon Lim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권11호
    • /
    • pp.1-11
    • /
    • 2023
  • 유방암은 전 세계적으로 여성들 대다수에게 가장 두려워하는 질환이다. 오늘날 데이터의 증가와 컴퓨팅 기술의 향상으로 머신러닝(machine learning)의 효율성이 증대되어 암 검출 및 진단 등에 중요한 역할을 하고 있다. 딥러닝(deep learning)은 인공신경망(artificial neural network, ANN)을 기반으로 하는 머신러닝 기술의 한 분야로 최근 여러 분야에서 성능이 급속도로 개선되어 활용 범위가 확대되고 있다. 본 연구에서는 유방암 분류를 위해 전이학습(transfer learning) 기반 DNN(Deep Neural Network)과 SVM(support vector machine)의 구조를 결합한 DNN-SVM Hybrid 모형을 제안한다. 전이학습 기반 제안된 모형은 적은 학습 데이터에도 효과적이고, 학습 속도도 빠르며, 단일모형, 즉 DNN과 SVM이 가지는 장점을 모두 활용 가능토록 결합함으로써 모형 성능이 개선되었다. 제안된 DNN-SVM Hybrid 모형의 성능평가를 위해 UCI 머신러닝 저장소에서 제공하는 WOBC와 WDBC 유방암 자료를 가지고 성능실험 결과, 제안된 모형은 여러 가지 성능 척도 면에서 단일모형인 로지스틱회귀 모형, DNN, SVM 그리고 앙상블 모형인 랜덤 포레스트보다 우수함을 보였다.

Multiclass SVM Model with Order Information

  • Ahn, Hyun-Chul;Kim, Kyoung-Jae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제6권4호
    • /
    • pp.331-334
    • /
    • 2006
  • Original Support Vsctor Machines (SVMs) by Vapnik were used for binary classification problems. Some researchers have tried to extend original SVM to multiclass classification. However, their studies have only focused on classifying samples into nominal categories. This study proposes a novel multiclass SVM model in order to handle ordinal multiple classes. Our suggested model may use less classifiers but predict more accurately because it utilizes additional hidden information, the order of the classes. To validate our model, we apply it to the real-world bond rating case. In this study, we compare the results of the model to those of statistical and typical machine learning techniques, and another multi class SVM algorithm. The result shows that proposed model may improve classification performance in comparison to other typical multiclass classification algorithms.

Support Vector Machines을 이용한 공급사슬관리의 지속적 협업 수준에 대한 의사결정모델 (A Decision Support Model for Sustainable Collaboration Level on Supply Chain Management using Support Vector Machines)

  • 임세헌
    • 한국유통학회지:유통연구
    • /
    • 제10권3호
    • /
    • pp.1-14
    • /
    • 2005
  • 성공적인 공급사슬관리에 있어 성과에 따른 지속적 협업 통제는 매우 중요하다. 본 연구에서는 기계학습 알고리즘인 SVM(Support Vector Machiness)을 이용해 균형성과표에 기반한 공급사슬관리 성과에 따른 지속적 협업 통제 모델을 개발하였다. 우리는 지속적 협업 통제모델 개발에 있어 108명의 전문가를 상대로 실증조사를 수행하였다. 본 연구 수행에 있어 4가지 형태의 SVM 커늘 (1) linear, (2) polynomail, (3) Radial Basis Function(RBF), (4) sigmoid kernel을 이용해 공급사슬관리 지속적 협업 예측 정확도를 비교하였다. SVM 커늘 4가지 중 linear kernel의 예측성과가 가장 좋았다. 그리고 본 연구에서는 SVM linear kernel의 예측성과를 ANN(Artificial Neural Network)의 예측성과와 비교하였다. 분석결과 SVM linear kernel이 공급사슬관리에 있어 지속적 협업 예측에 우수한 예측성과를 보여주는 것을 발견하였다. 이러한 곁과는 SVM linear kernel이 공급사슬관리의 지속적 협업 예측 통제에 있어 우수한 대안을 제공해 줄 것이다. 그러므로 공급사슬관리를 추구하는 기업들은 분 모델을 통해 지속적 협업 통제에 유용한 정보를 얻을 수 있을것이다.

  • PDF