• 제목/요약/키워드: SVM Model

검색결과 702건 처리시간 0.037초

효과적인 기업부도 예측모형을 위한 ROSE 표본추출기법의 적용 (Application of Random Over Sampling Examples(ROSE) for an Effective Bankruptcy Prediction Model)

  • 안철휘;안현철
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.525-535
    • /
    • 2018
  • 분류 문제에서 특정 범주의 빈도가 다른 범주에 비해 과도하게 높은 경우, 왜곡된 기계 학습을 유발할 수 있는 데이터 불균형(imbalanced data) 문제가 발생한다. 기업부도 예측 문제도 그 중 하나인데, 일반적으로 금융기관과 거래하는 기업들의 부도율은 대단히 낮아서, 부도 사례보다 정상 사례의 빈도가 월등히 높은 데이터 불균형 문제가 발생하고 있다. 이러한 데이터 불균형 문제를 해결하기 위해서는 적절한 표본추출 기법이 적용될 필요가 있으며, 지금껏 소수 범주 데이터를 복원 추출함으로써 다수 범주 데이터와 비율을 맞추어 데이터 불균형을 해결하는 오버 샘플링(oversampling) 기법이 주로 활용되어 왔다. 그러나 전통적인 오버 샘플링은 과적합화(overfitting)가 발생할 위험이 높아질 수 있는 단점이 있다. 이러한 배경에서 본 연구는 효과적인 기업부도 예측 모형 학습을 위한 표본추출 기법으로 2014년에 Menardi와 Torelli가 제안한 ROSE(random over sampling examples) 기법을 제안한다. ROSE 기법은 학습에 사용될 사례를 반복적으로 새롭게 합성하여 생성(synthetic generation)하는 기법으로, 과적합화 문제를 회피하면서도 분류 예측 정확도 개선에 도움을 줄 수 있다. 이에 본 연구에서는 ROSE 기법을 가장 성능이 우수한 이분류기로 알려진 SVM(support vector machine)과 결합하여 국내 한 대형 은행의 기업부도 예측에 적용해 보고, 다른 표본추출 기법들과의 비교연구를 수행하였다. 실험 결과, ROSE 기법이 다른 기법에 비해 통계적으로 유의한 수준으로 SVM의 예측정확도 개선에 기여할 수 있음을 확인하였다. 이러한 본 연구의 결과는 부도예측 외에 다른 사회과학 분야 예측문제의 데이터 불균형 문제 해결에도 ROSE가 우수한 대안이 될 수 있다는 사실을 시사한다.

러프 하한 근사를 갖는 로컬 커버링 기반 규칙 획득 기법을 이용한 섬망 환자의 분류 방법 (A Classification Method of Delirium Patients Using Local Covering-Based Rule Acquisition Approach with Rough Lower Approximation)

  • 손창식;강원석;이종하;문경자
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권4호
    • /
    • pp.137-144
    • /
    • 2020
  • 섬망은 의식 장애, 주의력 장애 및 언어력 장애와 같은 일시적인 인지 장애가 있는 환자, 특히 노인에서 나타나는 가장 흔한 정신 장애 중 하나이다. 섬망은 환자와 가족에게 고통을 주고, 통증과 같은 증상의 관리를 방해할 수 있으며 노인 사망률 증가와 관련이 있다. 본 논문의 목적은 장기 요양 시설에서 섬망 환자를 구별하는데 사용될 수 있는 유용한 임상적 지식을 생성하는데 있다. 이러한 목적을 위해, 러프 하한 근사 영역을 갖는 로컬 커버링 규칙 기법을 활용하여 섬망과 관련된 임상적 분류 지식을 추출하였다. 제안된 방법의 임상적 적용 가능성은 전향적 코호트 연구로부터 수집된 데이터를 활용하여 확인하였다. 연구 결과, 섬망 기간이 12일 이상 지속될 수 있는 6가지 유용한 임상적 증거를 발견하였고, 체질량 지수, 동반질환 지수, 입원경로, 영양결핍, 감염, 수면박탈, 욕창, 기저귀 사용과 같은 8가지 인자들이 섬망 결과를 구별하는 데 중요한 요인이라는 것을 확인하였다. 제안된 방법의 분류 성능은 통계적 5-겹 교차검정 방법을 사용하여 3가지 벤치마킹 모델, 즉 ANN, RBF 커널 함수를 활용한 SVM, 랜덤 포레스트와 비교하여 검증하였다. 제안된 방법은 3가지 모델 중 가장 높은 성능을 제공한 SVM 모델과 비교했을 때 정확도와 AUC 기준에서 평균 0.6%와 2.7% 개선된 성능을 보였다.

Secure Training Support Vector Machine with Partial Sensitive Part

  • Park, Saerom
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.1-9
    • /
    • 2021
  • 본 연구에서는 민감 정보가 포함된 경우의 서포트 벡터 머신 (SVM) 학습 알고리즘을 제안한다. 기계 학습 모형들이 실세계의 자동화된 의사 결정을 가능하게 하였지만 규제들은 프라이버시 보호를 위해서 민감 정보들의 활용을 제한하고 있다. 특히 인종, 성별, 장애 여부와 같은 법적으로 보호되는 정보들의 프라이버시 보호는 필수이다. 본 연구에서는 완전 동형암호를 활용하여 부분적인 민감 정보가 포함된 경우에 최소 제곱 SVM (LSSVM) 모형을 효율적으로 학습할 수 있는 방법을 제안한다. 본 프레임워크에서는 데이터 소유주가 민감하지 않은 정보와 민감한 정보 모두를 가지고 있고, 이를 기계학습 서비스 제공자에게 제공할 때에 민감 정보만 암호화해서 제공하는 것을 가정한다. 결과적으로 데이터 소유자는 민감 정보를 노출시키지 않으면서도 암호화된 상태로 모형의 학습 정보를 얻을 수 있다. 모형을 실제 활용할 경우에는 모든 정보를 암호화하여 안전하게 예측 결과를 제공할 수 있도록 한다. 실제 데이터에 대한 실험을 통해 본 알고리즘이 동형암호로 구현될 경우에 원래의 LSSVM 모형과 비슷한 성능을 가질 수 있음을 확인해 볼 수 있었다. 또한, 개선된 효율적인 알고리즘에 대한 실험은 적은 성능 저하로 큰 연산 효율성을 달성할 가능성을 입증하였다.

공진모델을 이용한 3상 병렬형 능동전력필터의 데드비트제어 (Deadbeat Control of Three-Phase Shunt Active Power Filter Using Resonance Model)

  • 박지호;김동완
    • 전기학회논문지P
    • /
    • 제56권3호
    • /
    • pp.136-141
    • /
    • 2007
  • In this paper, a new simple control method for active power filter which can realized the complete compensation of the harmonic currents is proposed. In the proposed scheme, a compensating current reference generator employing resonance model implemented by a DSP(Digital Signal Processor) is introduced. Deadbeat control is employed to control the active power filter. The switching pulse width based SVM(Space Vector Modulation) is adopted so that the current of active power filter is been exactly equal to its reference at the next sampling instant. To compensate the computation delay of digital controller, the prediction of current is achieved by the current observer with deadbeat response.

A Study on Support Vectors of Least Squares Support Vector Machine

  • Seok, Kyungha;Cho, Daehyun
    • Communications for Statistical Applications and Methods
    • /
    • 제10권3호
    • /
    • pp.873-878
    • /
    • 2003
  • LS-SVM(Least-Squares Support Vector Machine) has been used as a promising method for regression as well as classification. Suykens et al.(2000) used only the magnitude of residuals to obtain SVs(Support Vectors). Suykens' method behaves well for homogeneous model. But in a heteroscedastic model, the method shows a poor behavior. The present paper proposes a new method to get SVs. The proposed method uses the variance of noise as well as the magnitude of residuals to obtain support vectors. Through the simulation study we justified excellence of our proposed method.

Spatial Information Based Simulator for User Experience's Optimization

  • Bang, Green;Ko, Ilju
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권3호
    • /
    • pp.97-104
    • /
    • 2016
  • In this paper, we propose spatial information based simulator for user experience optimization and minimize real space complexity. We focus on developing simulator how to design virtual space model and to implement virtual character using real space data. Especially, we use expanded events-driven inference model for SVM based on machine learning. Our simulator is capable of feature selection by k-fold cross validation method for optimization of data learning. This strategy efficiently throughput of executing inference of user behavior feature by virtual space model. Thus, we aim to develop the user experience optimization system for people to facilitate mapping as the first step toward to daily life data inference. Methodologically, we focus on user behavior and space modeling for implement virtual space.

진동데이터 적용 모델기반 이상진단 (Model-based Fault Diagnosis Applied to Vibration Data)

  • 양지혁;권오규
    • 제어로봇시스템학회논문지
    • /
    • 제18권12호
    • /
    • pp.1090-1095
    • /
    • 2012
  • In this paper, we propose a model-based fault diagnosis method applied to vibration data. The fault detection is performed by comparing estimated parameters with normal parameters and deciding if the observed changes can be explained satisfactorily in terms of noise or undermodelling. The key feature of this method is that it accounts for the effects of noise and model mismatch. And we aslo design a classifier for the fault isolation by applying the multiclass SVM (Support Vector Machine) to the estimated parameters. The proposed fault detection and isolation methods are applied to an engine vibration data to show a good performance. The proposed fault detection method is compared with a signal-based fault detection method through a performance analysis.

의료 웹포럼에서의 텍스트 분석을 통한 정보적 지지 및 감성적 지지 유형의 글 분류 모델 (The Informative Support and Emotional Support Classification Model for Medical Web Forums using Text Analysis)

  • 우지영;이민정
    • 한국IT서비스학회지
    • /
    • 제11권sup호
    • /
    • pp.139-152
    • /
    • 2012
  • In the medical web forum, people share medical experience and information as patients and patents' families. Some people search medical information written in non-expert language and some people offer words of comport to who are suffering from diseases. Medical web forums play a role of the informative support and the emotional support. We propose the automatic classification model of articles in the medical web forum into the information support and emotional support. We extract text features of articles in web forum using text mining techniques from the perspective of linguistics and then perform supervised learning to classify texts into the information support and the emotional support types. We adopt the Support Vector Machine (SVM), Naive-Bayesian, decision tree for automatic classification. We apply the proposed model to the HealthBoards forum, which is also one of the largest and most dynamic medical web forum.

Hybrid Feature Selection Method Based on Genetic Algorithm for the Diagnosis of Coronary Heart Disease

  • Wiharto, Wiharto;Suryani, Esti;Setyawan, Sigit;Putra, Bintang PE
    • Journal of information and communication convergence engineering
    • /
    • 제20권1호
    • /
    • pp.31-40
    • /
    • 2022
  • Coronary heart disease (CHD) is a comorbidity of COVID-19; therefore, routine early diagnosis is crucial. A large number of examination attributes in the context of diagnosing CHD is a distinct obstacle during the pandemic when the number of health service users is significant. The development of a precise machine learning model for diagnosis with a minimum number of examination attributes can allow examinations and healthcare actions to be undertaken quickly. This study proposes a CHD diagnosis model based on feature selection, data balancing, and ensemble-based classification methods. In the feature selection stage, a hybrid SVM-GA combined with fast correlation-based filter (FCBF) is used. The proposed system achieved an accuracy of 94.60% and area under the curve (AUC) of 97.5% when tested on the z-Alizadeh Sani dataset and used only 8 of 54 inspection attributes. In terms of performance, the proposed model can be placed in the very good category.

충전데이터를 이용한 이상감지 제어시스템 (Abnormality Detection Control System using Charging Data)

  • Moon, Sang-Ho
    • 한국정보통신학회논문지
    • /
    • 제26권2호
    • /
    • pp.313-316
    • /
    • 2022
  • In this paper, we implement a system that detects abnormalities in the charging data transmitted from the charger during the charging process of electric vehicles and controls them remotely. Using classification algorithms such as logistic regression, KNN, SVM, and decision trees, to do this, an analysis model is created that judges the data received from the charger as normal and abnormal. In addition, a model is created to determine the cause of the abnormality using the existing charging data based on the analysis of the type of charger abnormality. Finally, it is solved using unsupervised learning method to find new patterns of abnormal data.