• 제목/요약/키워드: SVM Model

검색결과 707건 처리시간 0.03초

COMPARATIVE STUDY OF THE PERFORMANCE OF SUPPORT VECTOR MACHINES WITH VARIOUS KERNELS

  • Nam, Seong-Uk;Kim, Sangil;Kim, HyunMin;Yu, YongBin
    • East Asian mathematical journal
    • /
    • 제37권3호
    • /
    • pp.333-354
    • /
    • 2021
  • A support vector machine (SVM) is a state-of-the-art machine learning model rooted in structural risk minimization. SVM is underestimated with regards to its application to real world problems because of the difficulties associated with its use. We aim at showing that the performance of SVM highly depends on which kernel function to use. To achieve these, after providing a summary of support vector machines and kernel function, we constructed experiments with various benchmark datasets to compare the performance of various kernel functions. For evaluating the performance of SVM, the F1-score and its Standard Deviation with 10-cross validation was used. Furthermore, we used taylor diagrams to reveal the difference between kernels. Finally, we provided Python codes for all our experiments to enable re-implementation of the experiments.

재무예측을 위한 Support Vector Machine의 최적화 (Optimization of Support Vector Machines for Financial Forecasting)

  • 김경재;안현철
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.241-254
    • /
    • 2011
  • Support vector machines(SVM)은 비교적 최근에 등장한 데이터마이닝 기법이지만, 재무, CRM 등의 경영학 분야에서 많이 연구되고 있다. SVM은 인공신경망과 필적할 만큼의 예측 정확도를 보이는 사례가 많았지만, 암상자로 불리는 인공신경망 모형에 비해 구축된 예측모형의 구조를 이해하기 쉽고, 인공신경망에 비해 과도적합의 가능성이 적어서 적은 수의 데이터에서도 적용 가능하다는 장점을 가지고 있다. 하지만, 일반적인 SVM을 이용하려면, 인공신경망과 마찬가지로 여러 가지 설계요소들을 설계자가 선택하여야 하기 때문에 임의성이 높고, 국부 최적해에 수렴할 가능성도 크다. 또한, 많은 수의 데이터가 존재하는 경우에는 데이터를 분석하고 이용하는데 시간이 소요되고, 종종 잡음이 심한 데이터가 포함된 경우에는 기대하는 수준의 예측성과를 얻지 못할 가능성이 있다. 본 연구에서는 일반적인 SVM의 장점을 그대로 유지하면서, 전술한 두 가지 단점을 보완한 새로운 SVM 모형을 제안한다. 본 연구에서 제안하는 모형은 사례선택기법을 일반적인 SVM에 융합한 것으로 대용량의 데이터에서 예측에 불필요한 데이터를 선별적으로 제거하여 예측의 정확도와 속도를 제고할 수 있는 방법이다. 본 연구에서는 잡음이 많고 예측이 어려운 것으로 알려진 재무 데이터를 활용하여 제안 모형의 유용성을 확인하였다.

Comparison of survival prediction models for pancreatic cancer: Cox model versus machine learning models

  • Kim, Hyunsuk;Park, Taesung;Jang, Jinyoung;Lee, Seungyeoun
    • Genomics & Informatics
    • /
    • 제20권2호
    • /
    • pp.23.1-23.9
    • /
    • 2022
  • A survival prediction model has recently been developed to evaluate the prognosis of resected nonmetastatic pancreatic ductal adenocarcinoma based on a Cox model using two nationwide databases: Surveillance, Epidemiology and End Results (SEER) and Korea Tumor Registry System-Biliary Pancreas (KOTUS-BP). In this study, we applied two machine learning methods-random survival forests (RSF) and support vector machines (SVM)-for survival analysis and compared their prediction performance using the SEER and KOTUS-BP datasets. Three schemes were used for model development and evaluation. First, we utilized data from SEER for model development and used data from KOTUS-BP for external evaluation. Second, these two datasets were swapped by taking data from KOTUS-BP for model development and data from SEER for external evaluation. Finally, we mixed these two datasets half and half and utilized the mixed datasets for model development and validation. We used 9,624 patients from SEER and 3,281 patients from KOTUS-BP to construct a prediction model with seven covariates: age, sex, histologic differentiation, adjuvant treatment, resection margin status, and the American Joint Committee on Cancer 8th edition T-stage and N-stage. Comparing the three schemes, the performance of the Cox model, RSF, and SVM was better when using the mixed datasets than when using the unmixed datasets. When using the mixed datasets, the C-index, 1-year, 2-year, and 3-year time-dependent areas under the curve for the Cox model were 0.644, 0.698, 0.680, and 0.687, respectively. The Cox model performed slightly better than RSF and SVM.

다중선형회귀와 기계학습 모델을 이용한 PM10 농도 예측 및 평가 (Evaluation and Predicting PM10 Concentration Using Multiple Linear Regression and Machine Learning)

  • 손상훈;김진수
    • 대한원격탐사학회지
    • /
    • 제36권6_3호
    • /
    • pp.1711-1720
    • /
    • 2020
  • 최근 급속한 산업화와 도시화로 인해 인위적으로 발생하는 미세먼지(Particulate matter, PM)는 기상 조건에 따라 이동 및 분산되면서 피부와 호흡기 등 인체에 악영향을 미친다. 본 연구는 기상인자를 multiple linear regression(MLR), support vector machine(SVM), 그리고 random forest(RF) 모델의 입력자료로 하여 서울시 PM10 농도를 예측하고, 모델 간 성능을 비교 평가하는데 그 목적을 둔다. 먼저 서울시에 소재한 39개소 대기오염측정망(air quality monitoring sites, AQMS)에서 관측된 PM10 농도 자료를 8:2 비율로 구분하여 모델 훈련과 검증 데이터셋으로 사용되었다. 또한 기상관측소(automatic weather system, AWS)에서 관측되고 있는 자료 중 9개 기상인자(평균기온, 최고기온, 최저기온, 일 강수량, 평균풍속, 최대순간풍속, 최대순간풍속풍향, 황사발생유무, 상대습도)가 모델의 입력자료로 선정되었다. 각 AQMS에서 관측된 PM10 농도와 MLR, SVM, 그리고 RF 모델에 의해 예측된 PM10 농도 간 결정계수(R2)는 각각 0.260, 0.772, 그리고 0.793이었고, RF 모델이 PM10 농도 예측에 가장 높은 성능을 나타냈다. 특히 모델 검증에 사용되는 AQMS 중 관악구와 강남대로 AQMS는 상대적으로 AWS에 가까워 SVM과 RF 모델에서 높은 정확도를 나타냈다. 종로구 AQMS는 AWS에서 비교적 멀리 떨어져 있지만, 인접한 두 AQMS 데이터가 모델 학습에 사용되었기 때문에 두 모델에서 높은 정확도를 나타냈다. 반면 용산구 AQMS는 AQMS 및 AWS에서 비교적 멀리 떨어져 있기에 두 모델의 성능이 낮게 나타냈다.

기계학습을 이용한 지진 취약성 평가 및 매핑: 9.12 경주지진을 대상으로 (Seismic Vulnerability Assessment and Mapping for 9.12 Gyeongju Earthquake Based on Machine Learning)

  • 한지혜;김진수
    • 대한원격탐사학회지
    • /
    • 제36권6_1호
    • /
    • pp.1367-1377
    • /
    • 2020
  • 본 연구는 2016년 발생한 9.12 경주지진을 중심으로 경주시 건축물의 지진 취약성을 평가하고 지도를 제작하는데 목적이 있다. 지진 취약성을 평가하기위해 지질공학, 물리, 구조적 요인과 관련된 11개의 영향인자를 선정하였으며, 이는 독립변수로 적용되었다. 종속변수로는 9.12 경주지진 당시 실제 피해 입은 건축물의 위치자료가 사용되었다. 평가 모델은 기계학습 방법의 RF와 SVM을 기반으로 구축하였으며, 훈련 및 검증 데이터셋은 70:30 비율로 무작위 선별되었다. 정확도 검증은 ROC 곡선을 사용하여 최적 모델을 선별하였으며, 각 모델의 정확도는 RF(1.000), SVM(0.998), 예측 정확도는 RF(0.947), SVM(0.926) 로 나타났다. RF 모델을 기반으로 경주시 전체 건축물의 예측 값을 도출하였으며, 이를 등급화 하여 지진 취약성 지도를 작성하였다. 행정동별 건물 등급 분포를 살펴본 결과, 황남동, 월성동, 선도동, 내남면이 취약성이 높은 지역으로, 양북면, 강동면, 양남면, 감포읍이 상대적으로 안전한 지역으로 나타났다.

First Principle을 결합한 최소제곱 Support Vector Machine의 예측 능력 (Prediction Performance of Hybrid Least Square Support Vector Machine with First Principle Knowledge)

  • 김병주;심주용;황창하;김일곤
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.744-751
    • /
    • 2003
  • 본 논문에서는 최근 뛰어난 예측력으로 각광받는 최소제곱 Support Vector Machine(Least Square Support Vector Machine: LS-SVM)과 First Principle(FP)을 결합한 하이브리드 최소제곱ㆍSupport Vector Machine 모델, HLS-SVM(Hybrid Least Square-Super Vector Machine)을 제안한다. 제안한 모델인 하이브리드 최소제곱 Support Vector Machine을 기존의 방법인 하이브리드 신경망(Hybrid Neural Network:HNN), 비선형 칼만필터와 하이브리드 신경망을 결합한 HNN-EKF (Hybrid Neural Network with Extended Kalman Filter) 모델과 비교해 보았다. HLS-SVM 모델은 학습 및 validation 과정에서는 HNN-EKF와 근사한 성능을 보였고, HNN 보다는 우수한 결과를 보였고, 일반화 성능에서는 HNN-EKF에 비해 3배, HNN보다 100배정도 우수한 결과를 보였다.

신용카드 매출정보를 이용한 SVM 기반 소상공인 부실예측모형 (SVM based Bankruptcy Prediction Model for Small & Micro Businesses Using Credit Card Sales Information)

  • 윤종식;권영식;노태협
    • 산업공학
    • /
    • 제20권4호
    • /
    • pp.448-457
    • /
    • 2007
  • The small & micro business has the characteristics of both consumer credit risk and business credit risk. In predicting the bankruptcy for small-micro businesses, the problem is that in most cases, the financial data for evaluating business credit risks of small & micro businesses are not available. To alleviate such problem, we propose a bankruptcy prediction mechanism using the credit card sales information available, because most small businesses are member store of some credit card issuers, which is the main purpose of this study. In order to perform this study, we derive some variables and analyze the relationship between good and bad signs. We employ the new statistical learning technique, support vector machines (SVM) as a classifier. We use grid search technique to find out better parameter for SVM. The experimental result shows that credit card sales information could be a good substitute for the financial data for evaluating business credit risk in predicting the bankruptcy for small-micro businesses. In addition, we also find out that SVM performs best, when compared with other classifiers such as neural networks, CART, C5.0 multivariate discriminant analysis (MDA), and logistic regression.

바이모달 음성인식기의 시각 특징 추출을 위한 색상 분석자 SVM을 이용한 입술 위치 검출 (Lip Detection using Color Distribution and Support Vector Machine for Visual Feature Extraction of Bimodal Speech Recognition System)

  • 정지년;양현승
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.403-410
    • /
    • 2004
  • 바이모달 음성인식기는 잡음 환경하 음성인식 성능을 향상하기 위해 고안되었다. 바이모달 음 성인식기에 있어 영상을 통한 시각 특징 추출은 매우 중요한 역할을 하며 이를 위한 입술 위치 검출은 시각 특징 추출을 위한 중요한 선결 과제이다 본 논문은 색상분포와 SVM을 이용하여 시각 특징 추출을 위한 입술 위치 검출 방법을 제안하였다. 제안된 방법은 얼굴색/입술 색상 분포를 학습하여 이로부터 입술의 초기 위치를 빠르게 찾아내고 SVM을 이용하여 입술의 정확한 위치를 찾음으로써 정확하고 빠르게 입술의 위치를 찾도록 하였으며 실험을 통해 바이모달 인식기에 적용하기에 적합함을 알 수 있었다.

SVM 기반의 멘션 페어 모델을 이용한 한국어 상호참조해결 (Coreference Resolution for Korean using Mention Pair with SVM)

  • 최경호;박천음;이창기
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권4호
    • /
    • pp.333-337
    • /
    • 2015
  • 본 논문에서는 품사태그가 부착된 의존구문 트리와 개체명 정보가 자동 태깅된 말뭉치에서 멘션(Mention)을 추출하고, SVM을 기반으로 한 멘션 페어 모델(Mention Pair Model) 이용하는 한국어 상호참조해결 시스템을 제안한다. 시스템의 학습과 평가를 위해서 신문기사를 기반으로 하는 14개의 문서와, 위키피디아(Wikipedia)를 기반으로 하는 200개의 질의응답 문서를 분석하여 상호참조해결 정보가 담긴 말뭉치를 구축했다. 실험결과 본 논문에서 제안한 시스템의 성능은 MUC-F1 55.68%, B-cube-F1 57.19%, CEAFE-F1 61.75% 로 나타났다.

EEG 기반 감정인식을 위한 주석 레이블링과 EEG Topography 레이블링 기법의 비교 고찰 (Comparison of EEG Topography Labeling and Annotation Labeling Techniques for EEG-based Emotion Recognition)

  • 류제우;황우현;김덕환
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제15권3호
    • /
    • pp.16-24
    • /
    • 2019
  • 최근 뇌파를 기반으로 한 인간의 감정을 인식하는 연구가 인간-로봇 상호작용 분야에서 활발히 진행되고 있다. 본 논문에서는 MAHNOB-HCI에서 사용된 자기평가와 주석 레이블링 방법과는 다른, 이미지 기반의 뇌파 Topography를 이용한 레이블링을 통해 감정을 평가하는 방법을 제안한다. 제안한 방법은 뇌파 신호를 Topography의 이미지로 변환하여 기계학습 모델을 학습하고 이를 기반으로 Valence 기반의 감정을 평가한다. 제안한 방법은 레이블링 과정을 자동화하여 지연 시간을 없애고 객관적인 레이블링을 제공할 수 있다. MAHNOB-HCI 데이터베이스를 적용한 실험에서 SVM, kNN의 기계학습 모델을 학습하여 주석 레이블링과 성능 비교를 하였으며, 제안 방법의 감정인식 정확도를 SVM에서 54.2%, kNN에서 57.7%로 확인하였다.