• 제목/요약/키워드: 1-class SVM

검색결과 50건 처리시간 0.032초

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

데이터 마이닝에서 패턴 분류를 위한 다중 SVM 분류기 (Multiple SVM Classifier for Pattern Classification in Data Mining)

  • 김만선;이상용
    • 한국지능시스템학회논문지
    • /
    • 제15권3호
    • /
    • pp.289-293
    • /
    • 2005
  • 패턴 분류는 실세계의 객체를 표현한 다양한 형태의 패턴 정보를 추출하여, 이것이 어떤 부류(클래스)인가를 결정하는 것이다. 패턴 분류 기술은 데이터 마이닝, 산업 자동화나 업무자동화를 위한 컴퓨터 응용 소프트웨어 기술로서 현재 다양한 분야에서 활용되고 있다. 패턴 분류 기술의 최대 목표는 분류 성능 향상이며 이것을 위해 지난 40년간 많은 연구자들이 다양한 접근 방법들을 시도해 왔다. 주로 이용되는 단일 분류 방법들로는 패턴들의 확률적 추론에 기반한 베이즈 분류기, 결정 트리, 거리함수를 이용하는 방법, 신경망, 군집화 등이 있으나 대용량 다차원 데이터를 분석하기에는 효율적이지 못하다. 따라서 상호 보완적인 여러 분류기들을 사용해 결합을 통하여 성능 향상에 도움을 주고 있는 다중 분류기 시스템에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 다중 SVM(Support Vector Machine) 분류기에 관한 기존 연구의 문제점을 지적하고 새로운 모델을 제안한다. SVM을 다중 클래스 분류기로 확장하기 위해 일대다 정책을 기반으로 하여 각각의 SVM 출력값을 비선형 패턴을 갖는 신호로 간주하고 이를 신경망에 학습하여 최종 분류 성능 결과를 결합하는 모델인 BORSE(Bootstrap Resampling SVM by Ensemble)를 제안한다.

SVM의 다중결정템플릿을 이용한 지문분류 (Fingerprint Classification using Multiple Decision Templates with SVM)

  • 민준기;홍진혁;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권11호
    • /
    • pp.1136-1146
    • /
    • 2005
  • 지문분류는 대규모 자동지문식별시스템에서 지문을 카테고리별로 나누어 매칭시간을 줄이는데 유용하다. 지문을 5가지 클래스로 분류하는 헨리시스템을 기반으로 신경망이나 SYM(Support Vector Machines) 등과 같은 다양한 패턴분류 기법들이 지문분류에 널리 사용되고 있다. 특히 최근에는 높은 분류 성능을 보이는 SVM 분류기를 이용한 연구가 활발하다. 이진분류기인 SVM을 지문분류문제에 적용하기 위해서 본 논문에서는 새로운 분류기 결합모델인 다중결정템플릿(Multiple Decision Templates, MuDTs)을 제안한다. 이 방법은 클래스 구분이 모호한 지문영상들의 분류에서 단일 결합모델들의 한계를 극복하기 위해, 하나의 지문클래스로부터 서로 다른 특성을 갖는 클러스터들을 추출하여 각 클러스터에 적합한 결합모델을 생성한다. NIST Database4 데이타로부터 추출한 핑거코드에 대해 실험한 결과, 5클래스와 4클래스 분류문제에 대하여 각각 $90.4\%$$94.9\%$의 분류성능(거부율 $1.8\%$)을 획득하였다.

다중 클래스 SVM기반의 침입탐지 시스템 (Intrusion Detection System Based on Multi-Class SVM)

  • 이한성;송지영;김은영;이철호;박대희
    • 한국지능시스템학회논문지
    • /
    • 제15권3호
    • /
    • pp.282-288
    • /
    • 2005
  • 본 논문에서는 기존의 침입탐지 모델인 오용탐지 모델과 비정상 탐지 모델의 장점은 유지하되 단점은 보완하는 견지에서 새로운 침입탐지 모델을 제안한다. MMIDS로 명명된 새로운 침입탐지시스템은 다음의 평가 기준들을 모두 만족하는 차원에서 설계되었다: 1) 시스템에서 학습되지 않은 새로운 공격 유형의 신속한 발견; 2) 탐지된 공격 유형에 대한 세부적 정보의 제공; 3) 빠르고 효율적인 학습 및 갱신으로 인한 경제적인 시스템의 유지/보수; 4) 시스템의 점증성(incrementality) 및 확장성. MMIDS의 핵심 구성요소로 새롭게 제안된 다중 클래스 SVM은 빠르고 효율적인 학습 및 갱신이 가능하여 침입탐지 시스템의 유지보수 비용을 절감할 수 있다. 실험을 통해 유사한 공격 패턴에 대한 분류성능 및 각 공격 유형별 세분화 능력이 우수함을 보인다.

APPLICATION OF SUPPORT VECTOR MACHINE TO THE PREDICTION OF GEO-EFFECTIVE HALO CMES

  • Choi, Seong-Hwan;Moon, Yong-Jae;Vien, Ngo Anh;Park, Young-Deuk
    • 천문학회지
    • /
    • 제45권2호
    • /
    • pp.31-38
    • /
    • 2012
  • In this study we apply Support Vector Machine (SVM) to the prediction of geo-effective halo coronal mass ejections (CMEs). The SVM, which is one of machine learning algorithms, is used for the purpose of classification and regression analysis. We use halo and partial halo CMEs from January 1996 to April 2010 in the SOHO/LASCO CME Catalog for training and prediction. And we also use their associated X-ray flare classes to identify front-side halo CMEs (stronger than B1 class), and the Dst index to determine geo-effective halo CMEs (stronger than -50 nT). The combinations of the speed and the angular width of CMEs, and their associated X-ray classes are used for input features of the SVM. We make an attempt to find the best model by using cross-validation which is processed by changing kernel functions of the SVM and their parameters. As a result we obtain statistical parameters for the best model by using the speed of CME and its associated X-ray flare class as input features of the SVM: Accuracy=0.66, PODy=0.76, PODn=0.49, FAR=0.72, Bias=1.06, CSI=0.59, TSS=0.25. The performance of the statistical parameters by applying the SVM is much better than those from the simple classifications based on constant classifiers.

SVM음성인식기 구현을 위한 강인한 특징 파라메터 (Robust Feature Parameter for Implementation of Speech Recognizer Using Support Vector Machines)

  • 김창근;박정원;허강인
    • 대한전자공학회논문지SP
    • /
    • 제41권3호
    • /
    • pp.195-200
    • /
    • 2004
  • 본 논문은 두 가지 비교 실험을 통하여 효과적 음성인식 시스템을 제안한다. 분별적 이진 패턴 분류기인 SVM(Support Vector Machines)은 특징 공간에서 비선형 경계를 찾아 분류하는 방법으로 적은 학습 데이터에서도 좋은 분류 성능을 나타낸다고 알려져 있다. 본 논문에서는 학습데이터 수에 따른 HMM(Hidden Markov Model)과 SVM의 인식 성능을 비교하고, 최적의 특징 파라메터를 선택하기 위해 SVM을 이용하여 주성분해석과 독립성분분석을 적용하여 MFCC(Mel Frequency Cepstrum Coefficient)의 특징 공간을 변화시키면서 각각의 인식 성능을 비교 검토하였다. 실험 결과 SVM은 HMM에 비해 적은 학습데이터에서도 높은 인식 성능을 보여주었고, 독립성분분석에 의한 특징 파라메터가 특징 공간상에서의 높은 선형 분별성에 의해 다른 특징 파라메터보다 인식 성능에서 우수함을 확인 할 수 있었다.

Comparison Study of Multi-class Classification Methods

  • Bae, Wha-Soo;Jeon, Gab-Dong;Seok, Kyung-Ha
    • Communications for Statistical Applications and Methods
    • /
    • 제14권2호
    • /
    • pp.377-388
    • /
    • 2007
  • As one of multi-class classification methods, ECOC (Error Correcting Output Coding) method is known to have low classification error rate. This paper aims at suggesting effective multi-class classification method (1) by comparing various encoding methods and decoding methods in ECOC method and (2) by comparing ECOC method and direct classification method. Both SVM (Support Vector Machine) and logistic regression model were used as binary classifiers in comparison.

신용카드 대손회원 예측을 위한 SVM 모형 (Credit Card Bad Debt Prediction Model based on Support Vector Machine)

  • 김진우;지원철
    • 한국IT서비스학회지
    • /
    • 제11권4호
    • /
    • pp.233-250
    • /
    • 2012
  • In this paper, credit card delinquency means the possibility of occurring bad debt within the certain near future from the normal accounts that have no debt and the problem is to predict, on the monthly basis, the occurrence of delinquency 3 months in advance. This prediction is typical binary classification problem but suffers from the issue of data imbalance that means the instances of target class is very few. For the effective prediction of bad debt occurrence, Support Vector Machine (SVM) with kernel trick is adopted using credit card usage and payment patterns as its inputs. SVM is widely accepted in the data mining society because of its prediction accuracy and no fear of overfitting. However, it is known that SVM has the limitation in its ability to processing the large-scale data. To resolve the difficulties in applying SVM to bad debt occurrence prediction, two stage clustering is suggested as an effective data reduction method and ensembles of SVM models are also adopted to mitigate the difficulty due to data imbalance intrinsic to the target problem of this paper. In the experiments with the real world data from one of the major domestic credit card companies, the suggested approach reveals the superior prediction accuracy to the traditional data mining approaches that use neural networks, decision trees or logistics regressions. SVM ensemble model learned from T2 training set shows the best prediction results among the alternatives considered and it is noteworthy that the performance of neural networks with T2 is better than that of SVM with T1. These results prove that the suggested approach is very effective for both SVM training and the classification problem of data imbalance.

어휘 정보와 구문 패턴에 기반한 단일 클래스 분류 모델 (One-Class Classification Model Based on Lexical Information and Syntactic Patterns)

  • 이현구;최맹식;김학수
    • 정보과학회 논문지
    • /
    • 제42권6호
    • /
    • pp.817-822
    • /
    • 2015
  • 관계 추출은 질의응답 및 지식확장 등에 널리 사용될 수 있는 주요 정보추출 기술이다. 정보추출에 관한 기존 연구들은 관계 범주가 수동으로 부착된 대용량의 학습 데이터를 필요로 하는 지도 학습모델을 기반으로 이루어져 왔다. 최근에는 학습 데이터 구축을 위한 인간의 노력을 줄이기 위해 원거리 감독법이 제안되었다. 그러나 원거리 감독법은 분류 문제를 해결하는데 필수적인 부정 학습 데이터를 수집하기 어렵다는 단점이 있다. 이러한 원거리 감독법의 단점을 극복하기 위해 본 논문에서는 부정 데이터 없이 학습이 가능한 단일 클래스 분류 모델을 제안한다. 입력 데이터로부터 긍정 데이터를 선별하기 위해서 제안 모델은 벡터 공간 상에서 어휘 정보와 구문 패턴에 기반한 유사도 척도를 사용하여 입력 데이터가 내부 범주에 속하는지 그렇지 않은지 판단한다. 실험에서 제안 모델은 대표적인 단일 클래스 분류 모델인 One-class SVM보다 높은 성능(0.6509 F1-점수, 0.6833 정밀도)을 보였다.

반응 모델링을 위한 이상탐지 기법 (Novelty Detection Methods for Response Modeling)

  • 이형주;조성준
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2006년도 춘계공동학술대회 논문집
    • /
    • pp.1825-1831
    • /
    • 2006
  • 본 논문에서는 반응 모델링에서의 집단 불균형을 해소하기 위한 이상탐지 기법의 활용을 제안한다. DMEF4 데이터셋의 카탈로그 발송 작업에 대하여 두 가지의 이상탐지 기법, one-class support vector machine (1-SVM)과 learning vector quantization for novelty detection (LVQ-ND)을 적용하여 이진분류기법들과 비교한다. 반응률이 낮은 경우에는 이상 탐지 기법들이 더 높은 정확도를 보인 반면, 반응률이 상대적으로 높은 경우에는 오분류 비용을 조정한 SVM 기법이 가장 좋은 성능을 보였다. 또한, 이상탐지 기법들은 발송비용이 낮은 경우에 높은 이익을 달성하였고, 발송비용이 높은 경우에는 SVM 모델이 가장 높은 이익을 달성하였다.

  • PDF