• 제목/요약/키워드: Ensemble Support Vector Machine

검색결과 83건 처리시간 0.025초

Speech Query Recognition for Tamil Language Using Wavelet and Wavelet Packets

  • Iswarya, P.;Radha, V.
    • Journal of Information Processing Systems
    • /
    • 제13권5호
    • /
    • pp.1135-1148
    • /
    • 2017
  • Speech recognition is one of the fascinating fields in the area of Computer science. Accuracy of speech recognition system may reduce due to the presence of noise present in speech signal. Therefore noise removal is an essential step in Automatic Speech Recognition (ASR) system and this paper proposes a new technique called combined thresholding for noise removal. Feature extraction is process of converting acoustic signal into most valuable set of parameters. This paper also concentrates on improving Mel Frequency Cepstral Coefficients (MFCC) features by introducing Discrete Wavelet Packet Transform (DWPT) in the place of Discrete Fourier Transformation (DFT) block to provide an efficient signal analysis. The feature vector is varied in size, for choosing the correct length of feature vector Self Organizing Map (SOM) is used. As a single classifier does not provide enough accuracy, so this research proposes an Ensemble Support Vector Machine (ESVM) classifier where the fixed length feature vector from SOM is given as input, termed as ESVM_SOM. The experimental results showed that the proposed methods provide better results than the existing methods.

앙상블 학습 기반 국내 도서의 해외 판매 굿셀러 예측 및 굿셀러 리뷰 키워드 분석 (Ensemble Learning-Based Prediction of Good Sellers in Overseas Sales of Domestic Books and Keyword Analysis of Reviews of the Good Sellers)

  • 김도영;김나연;김현희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권4호
    • /
    • pp.173-178
    • /
    • 2023
  • 한국 문학이 세계적으로 관심을 받게 됨에 따라 해외 출판시장에서의 수요가 지속적으로 증가하고 있다. 따라서 해외 출판시 도서 판매량의 예측과 과거 해외 독자들의 선호도가 높았던 도서들의 특징을 분석하는 것이 중요하다. 본 논문에서는 최근 5년간 해외 출간된 도서 중에서 굿셀러로 분류되는 누적 5천 부 이상 판매 여부 예측 모델을 제안하고 굿셀러의 요인이 되는 변수들을 분석하였다. 이를 위해, XGBoost, Gradient Boosting, Adaboost, LightGBM, Random Forest의 다섯 개 앙상블 학습 모델과 Support Vector Machine, Logistic Regression, Deep Learning을 적용한 결과, 불균형 데이터 문제 해결에 앙상블 알고리즘이 큰 효과를 보였음을 확인했으며, 그 중에서도 LightGMB 모델이 99.86%의 AUC 값을 얻어 가장 좋은 예측 성능을 보임을 검증하였다. 예측을 위해 사용된 변수 중 가장 중요한 변수는 작가의 해외 출간 횟수로 나타났으며, 평점 평균, 상위 출판 시장 규모를 가진 국가에서 출판 여부와 평점 참여자 수 등이 중요한 변수로 나타났다. 또한, 굿셀러 도서에 대한 독자들의 반응을 분석하기 위해서, 굿셀러 도서 중에서도 가장 많이 판매된 4권의 작품 리뷰에 대해 텍스트 마이닝을 실시하였다. 분석 결과 스토리, 등장인물, 작가 순으로 관심을 둔 리뷰가 많았음을 알 수 있었으며, 평점이 낮은 리뷰로부터 번역 키워드가 도출된 것으로 보아, 번역에 대한 지원을 확대하는 것이 필요할 것으로 보인다.

Support vector ensemble for incipient fault diagnosis in nuclear plant components

  • Ayodeji, Abiodun;Liu, Yong-kuo
    • Nuclear Engineering and Technology
    • /
    • 제50권8호
    • /
    • pp.1306-1313
    • /
    • 2018
  • The randomness and incipient nature of certain faults in reactor systems warrant a robust and dynamic detection mechanism. Existing models and methods for fault diagnosis using different mathematical/statistical inferences lack incipient and novel faults detection capability. To this end, we propose a fault diagnosis method that utilizes the flexibility of data-driven Support Vector Machine (SVM) for component-level fault diagnosis. The technique integrates separately-built, separately-trained, specialized SVM modules capable of component-level fault diagnosis into a coherent intelligent system, with each SVM module monitoring sub-units of the reactor coolant system. To evaluate the model, marginal faults selected from the failure mode and effect analysis (FMEA) are simulated in the steam generator and pressure boundary of the Chinese CNP300 PWR (Qinshan I NPP) reactor coolant system, using a best-estimate thermal-hydraulic code, RELAP5/SCDAP Mod4.0. Multiclass SVM model is trained with component level parameters that represent the steady state and selected faults in the components. For optimization purposes, we considered and compared the performances of different multiclass models in MATLAB, using different coding matrices, as well as different kernel functions on the representative data derived from the simulation of Qinshan I NPP. An optimum predictive model - the Error Correcting Output Code (ECOC) with TenaryComplete coding matrix - was obtained from experiments, and utilized to diagnose the incipient faults. Some of the important diagnostic results and heuristic model evaluation methods are presented in this paper.

Hybrid Feature Selection Method Based on Genetic Algorithm for the Diagnosis of Coronary Heart Disease

  • Wiharto, Wiharto;Suryani, Esti;Setyawan, Sigit;Putra, Bintang PE
    • Journal of information and communication convergence engineering
    • /
    • 제20권1호
    • /
    • pp.31-40
    • /
    • 2022
  • Coronary heart disease (CHD) is a comorbidity of COVID-19; therefore, routine early diagnosis is crucial. A large number of examination attributes in the context of diagnosing CHD is a distinct obstacle during the pandemic when the number of health service users is significant. The development of a precise machine learning model for diagnosis with a minimum number of examination attributes can allow examinations and healthcare actions to be undertaken quickly. This study proposes a CHD diagnosis model based on feature selection, data balancing, and ensemble-based classification methods. In the feature selection stage, a hybrid SVM-GA combined with fast correlation-based filter (FCBF) is used. The proposed system achieved an accuracy of 94.60% and area under the curve (AUC) of 97.5% when tested on the z-Alizadeh Sani dataset and used only 8 of 54 inspection attributes. In terms of performance, the proposed model can be placed in the very good category.

앙상블 구성을 이용한 SVM 분류성능의 향상 (Improving SVM Classification by Constructing Ensemble)

  • 제홍모;방승양
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.251-258
    • /
    • 2003
  • Support Vector Machine(SVM)은 이론상으로 좋은 일반화 성능을 보이지만, 실제적으로 구현된 SVM은 이론적인 성능에 미치지 못한다. 주 된 이유는 시간, 공간상의 높은 복잡도로 인해 근사화된 알고리듬으로 구현하기 때문이다. 본 논문은 SVM의 분류성능을 향상시키기 위해 Bagging(Bootstrap aggregating)과 Boosting을 이용한 SVM 앙상블 구조의 구성을 제안한다. SVM 앙상블의 학습에서 Bagging은 각각의 SVM의 학습데이타는 전체 데이타 집합에서 임의적으로 일부 추출되며, Boosting은 SVM 분류기의 에러와 연관된 확률분포에 따라 학습데이타를 추출한다. 학습단계를 마치면 다수결 (Majority voting), 최소자승추정법(LSE:Least Square estimation), 2단계 계층적 SVM등의 기법에 개개의 SVM들의 출력 값들이 통합되어진다. IRIS 분류, 필기체 숫자인식, 얼굴/비얼굴 분류와 같은 여러 실험들의 결과들은 제안된 SVM 앙상블의 분류성능이 단일 SVM보다 뛰어남을 보여준다.

Genetic Algorithm과 다중부스팅 Classifier를 이용한 암진단 시스템 (Cancer Diagnosis System using Genetic Algorithm and Multi-boosting Classifier)

  • 온승엽;지승도
    • 한국시뮬레이션학회논문지
    • /
    • 제20권2호
    • /
    • pp.77-85
    • /
    • 2011
  • 생물 및 의학계에서는 생물정보학(bioinformatics)의 데이터 중 혈청 단백질(proteome)에서 추출한 데이터가 질병의 진단에 관련된 정보를 가지고 있고, 이 데이터를 분류 분석함으로 질병을 조기에 진단 할 수 있다고 믿고 있다. 본 논문에서는 혈청 단백질(2-D PAGE: Two-dimensional polyacrylamide gel electrophoresis)로부터 암과 정상을 판별하는 새로운 복합분류기를 제안한다. 새로운 복합 분류기에서는 support vector machine(SVM)와 다층 퍼셉트론(multi-layer perceptron: MLP)와 k-최근 접 이웃(k-nearest neighbor: k-NN)분류기를 앙상블(ensemble) 방법으로 통합하는 동시에 다중 부스팅(boosting) 방법으로 각 분류기를 확장하여 부분류기(subclassifier)의 배열(array)으로서 복합분류기를 구성하였다. 각 부분류기에서는 최적 특성 집합 (feature set)을 탐색하기 위하여 유전 알고리즘(genetic algorithm: GA)를 적용하였다. 복합분류기의 성능을 측정하기 위하여 암연구에서 얻어진 임상 데이터를 복합분류기에 적용하였고 결과로서 단일 분류기 보다 높은 분류 정확도와 안정성을 보여 주었다.

선형변수 기계학습 기법을 활용한 저속비대선의 잉여저항계수 추정 (Prediction of Residual Resistance Coefficient of Low-Speed Full Ships Using Hull Form Variables and Machine Learning Approaches)

  • 김유철;양경규;김명수;이영연;김광수
    • 대한조선학회논문집
    • /
    • 제57권6호
    • /
    • pp.312-321
    • /
    • 2020
  • In this study, machine learning techniques were applied to predict the residual resistance coefficient (Cr) of low-speed full ships. The used machine learning methods are Ridge regression, support vector regression, random forest, neural network and their ensemble model. 19 hull form variables were used as input variables for machine learning methods. The hull form variables and Cr data obtained from 139 hull forms of KRISO database were used in analysis. 80 % of the total data were used as training models and the rest as validation. Some non-linear models showed the overfitted results and the ensemble model showed better results than others.

트래픽 데이터의 통계적 기반 특징과 앙상블 학습을 이용한 토르 네트워크 웹사이트 핑거프린팅 (Tor Network Website Fingerprinting Using Statistical-Based Feature and Ensemble Learning of Traffic Data)

  • 김준호;김원겸;황두성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권6호
    • /
    • pp.187-194
    • /
    • 2020
  • 본 논문은 클라이언트의 익명성과 개인 정보를 보장하는 토르 네트워크에서 앙상블 학습을 이용한 웹사이트 핑거프린팅 방법을 제안한다. 토르네트워크에서 수집된 트래픽 패킷들로부터 웹사이트 핑거프린팅을 위한 훈련 문제를 구성하며, 트리 기반 앙상블 모델을 적용한 웹사이트 핑거프린팅 시스템의 성능을 비교한다. 훈련 특징 벡터는 트래픽 시퀀스에서 추출된 범용 정보, 버스트, 셀 시퀀스 길이, 그리고 셀 순서로부터 준비하며, 각 웹사이트의 특징은 고정 길이로 표현된다. 실험 평가를 위해 웹사이트 핑거프린팅의 사용에 따른 4가지 학습 문제(Wang14, BW, CWT, CWH)를 정의하고, CUMUL 특징 벡터를 사용한 지지 벡터 기계 모델과 성능을 비교한다. 실험 평가에서, BW 경우를 제외하고 제안하는 통계 기반 훈련 특징 표현이 CUMUL 특징 표현보다 우수하다.

Forecasting Day-ahead Electricity Price Using a Hybrid Improved Approach

  • Hu, Jian-Ming;Wang, Jian-Zhou
    • Journal of Electrical Engineering and Technology
    • /
    • 제12권6호
    • /
    • pp.2166-2176
    • /
    • 2017
  • Electricity price prediction plays a crucial part in making the schedule and managing the risk to the competitive electricity market participants. However, it is a difficult and challenging task owing to the characteristics of the nonlinearity, non-stationarity and uncertainty of the price series. This study proposes a hybrid improved strategy which incorporates data preprocessor components and a forecasting engine component to enhance the forecasting accuracy of the electricity price. In the developed forecasting procedure, the Seasonal Adjustment (SA) method and the Ensemble Empirical Mode Decomposition (EEMD) technique are synthesized as the data preprocessing component; the Coupled Simulated Annealing (CSA) optimization method and the Least Square Support Vector Regression (LSSVR) algorithm construct the prediction engine. The proposed hybrid approach is verified with electricity price data sampled from the power market of New South Wales in Australia. The simulation outcome manifests that the proposed hybrid approach obtains the observable improvement in the forecasting accuracy compared with other approaches, which suggests that the proposed combinational approach occupies preferable predication ability and enough precision.

딥 러닝 및 서포트 벡터 머신기반 센서 고장 검출 기법 (Sensor Fault Detection Scheme based on Deep Learning and Support Vector Machine)

  • 양재완;이영두;구인수
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.185-195
    • /
    • 2018
  • 최근 산업현장에서 기계의 자동화가 크게 가속화됨에 따라 자동화 기계의 관리 및 유지보수에 대한 중요성이 갈수록 커지고 있다. 자동화 기계에 부착된 센서의 고장이 발생할 경우 기계가 오동작함으로써 공정라인 운용에 막대한 피해가 발생할 수 있다. 이를 막기 위해 센서의 상태를 모니터링하고 고장의 진단 및 분류를 하는 것이 필요하다. 본 논문에서는 센서에서 발생하는 대표적인 고장 유형인 erratic fault, drift fault, hard-over fault, spike fault, stuck fault를 기계학습 알고리즘인 SVM과 CNN을 적용하여 검출하고 분류하였다. SVM의 학습 및 테스트를 위해 데이터 샘플들로부터 시간영역 통계 특징들을 추출하고 최적의 특징을 찾기 위해 유전 알고리즘(genetic algorithm)을 적용하였다. Multi-class를 분류하기 위해 multi-layer SVM을 구성하여 센서 고장을 분류하였다. CNN에 대해서는 데이터 샘플들을 사용하여 학습시키고 성능을 높이기 위해 앙상블 기법을 적용하였다. 시뮬레이션 결과를 통해 유전 알고리즘에 의해 선별된 특징들을 사용한 SVM의 분류 결과는 모든 특징이 사용된 SVM 분류기 보다는 성능이 향상되었으나 전반적으로 CNN의 성능이 SVM보다 우수한 것을 확인할 수 있었다.