• 제목/요약/키워드: multiple classifiers

검색결과 99건 처리시간 0.027초

부도예측을 위한 KNN 앙상블 모형의 동시 최적화 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 민성환
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.139-157
    • /
    • 2016
  • 앙상블 분류기란 개별 분류기보다 더 좋은 성과를 내기 위해 다수의 분류기를 결합하는 것을 의미한다. 이와 같은 앙상블 분류기는 단일 분류기의 일반화 성능을 향상시키는데 매우 유용한 것으로 알려져 있다. 랜덤 서브스페이스 앙상블 기법은 각각의 기저 분류기들을 위해 원 입력 변수 집합으로부터 랜덤하게 입력 변수 집합을 선택하며 이를 통해 기저 분류기들을 다양화 시키는 기법이다. k-최근접 이웃(KNN: k nearest neighbor)을 기저 분류기로 하는 랜덤 서브스페이스 앙상블 모형의 성과는 단일 모형의 성과를 개선시키는 데 효과적인 것으로 알려져 있으며, 이와 같은 랜덤 서브스페이스 앙상블의 성과는 각 기저 분류기를 위해 랜덤하게 선택된 입력 변수 집합과 KNN의 파라미터 k의 값이 중요한 영향을 미친다. 하지만, 단일 모형을 위한 k의 최적 선택이나 단일 모형을 위한 입력 변수 집합의 최적 선택에 관한 연구는 있었지만 KNN을 기저 분류기로 하는 앙상블 모형에서 이들의 최적화와 관련된 연구는 없는 것이 현실이다. 이에 본 연구에서는 KNN을 기저 분류기로 하는 앙상블 모형의 성과 개선을 위해 각 기저 분류기들의 k 파라미터 값과 입력 변수 집합을 동시에 최적화하는 새로운 형태의 앙상블 모형을 제안하였다. 본 논문에서 제안한 방법은 앙상블을 구성하게 될 각각의 KNN 기저 분류기들에 대해 최적의 앙상블 성과가 나올 수 있도록 각각의 기저 분류기가 사용할 파라미터 k의 값과 입력 변수를 유전자 알고리즘을 이용해 탐색하였다. 제안한 모형의 검증을 위해 국내 기업의 부도 예측 관련 데이터를 가지고 다양한 실험을 하였으며, 실험 결과 제안한 모형이 기존의 앙상블 모형보다 기저 분류기의 다양화와 예측 성과 개선에 효과적임을 알 수 있었다.

Support Vector Machines을 이용한 다중 클래스 문제 해결 (Solving Multi-class Problem using Support Vector Machines)

  • 고재필
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권12호
    • /
    • pp.1260-1270
    • /
    • 2005
  • 최근 기계학습 분야에서 커널머신을 이용한 대표적 학습기로 Support Vector Machines (SVM)이 주목 받고 있다. SVM은 통계적 학습이론에 기반하여 뛰어난 일반화 성능을 보여주며, 다양한 패턴인식 문제에 적용되고 있다. 그러나. SVM은 이진 분류기이므로 일반적인 다중 클래스 문제에 곧바로 적용할 수 없다. SVM을 다중 클래스 문제의 하나인 얼굴인식에 도입하기 위한 방법으로는, One-Per-Class와 All-Pairs가 대표적이다. 상기 두 방법은 다중 클래스 문제를 여러 개의 이진 클래스 문제로 분할하고, 이들을 다시 종합하여 최종 결정을 내리는 출력코딩이라는 일반적인 방법에 속한다. 본 논문에서는 이진 분류기인 SVM의 다중 클래스 분류기 확장 방안으로 출력코딩 방법론을 설명한다. 또한 출력코딩 방법론의 대표적인 이론적 기반인 ECOC(Ewor-Correcting Output Codes)를 근간으로 하는 새로운 출력코딩 방법들을 제안하고, 얼굴인식 실험을 통해 SVM을 기반 분류기로 사용할 경우의, 출력코딩 방법의 특성을 비교$\cdot$분석한다.

하이브리드 다중 분류기시스템 (Hybrid Multiple Classifier Systems)

  • 김인철
    • 지능정보연구
    • /
    • 제10권2호
    • /
    • pp.133-145
    • /
    • 2004
  • 단일 분류기보다 우수한 성능을 얻기 위해 다수의 분류기들을 결합하는 방법은 폭 넓게 이용되어 오고 있는 기술이다. 하나의 다중 분류기 시스템(MCS)를 구축하는 일은 두 가지 해결해야 할 문제들을 가지고 있다. 하나는 다양한 기반-레벨의 분류기들을 어떤 방법으로 생성하느냐 하는 것이고, 다른 하나는 이들의 예측을 어떤 방법으로 결합하느냐 하는 것이다. 본 논문에서는 기존의 다중 분류기 시스템들인 bagging, boosting, 그리고 staking의 특징들을 살펴본 다음, 새로운 다중 분류기 시스템들인 stacked boosting, boosting, bagged stacking, 그리고 boosted stacking들을 제안한다. 이들은 기존의 다중 분류기 시스템들의 장점들을 결합한 일종의 하이브리드 다중 분류기 시스템들이다. 새로 제안한 다중 분류기 시스템들의 성능을 평가하기 위해, 본 논문에서는 UCI KDD 데이터 아카이브에서 제공되는 서로 다른 9가지의 실세계 데이터 집합들을 이용하여 실험들을 전개하였다. 실험 결과, 본 논문에서 제안한 하이브리드 다중 분류기 시스템들, 특히 bagged stacking과 boosted stacking이 기존의 다중 분류기 시스템들에 비해 우수한 성능을 보여 주었다.

  • PDF

전자우편 문서의 자동분류를 위한 다중 분류기 결합 (Combining Multiple Classifiers for Automatic Classification of Email Documents)

  • 이지행;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권3호
    • /
    • pp.192-201
    • /
    • 2002
  • 디지털 형태의 문서가 널리 퍼지고 끊임없이 증가함에 따라 이를 자동으로 가공하고 처리하는 문서 자동분류의 중요성이 널리 인식되고 있다. 최근의 문서 자동분류는 k-최근접 이웃, 결정트리, Support Vector Machine, 신경망 등의 다양한 기계학습 기법을 이용하여 연구되고 있다. 그러나 많은 연구가 잘 조직된 데이타 집합을 이용하여 연구결과를 보여주고 있으며, 실제 문제에의 응용성에는 큰 비중을 두지 않고 있다. 본 논문에서는 문서분류의 응용시스템인 질의 자동응답시스템에 적용할 수 있는 다중분류기 결합 방법을 제안하고 실제 전자우편 문서의 분류문제를 해결한다. 첫째로, 다중신경 망을 이용한 문서분류를 제안한다. 제안한 방법은 최대값 결합, 신경망 결합을 통해 성능의 향상을 가져온다. 둘째로, 여러 분류기의 결합을 통해 문서분류의 성능을 개선한다. 본 논문에서는 투표 결합방법, Borda 결합, 신경망 결합방법 등을 적용하여 여러 분류기의 결합을 수행하였다. 실용 가능성을 분석한 실험결과 90%이상의 정확율을 보여 제안한 방법이 실용적일 수 있음을 알 수 있었다.

다중 분류기 시스템을 이용한 자동 문서 분류 (Automatic Document Classification Using Multiple Classifier Systems)

  • 김인철
    • 정보처리학회논문지B
    • /
    • 제11B권5호
    • /
    • pp.545-554
    • /
    • 2004
  • 단일 분류기에 비해 높은 분류성능을 얻기 위해 다수의 분류기들을 결합하여 사용하는 방법은 폭넓게 이용되어 온 기술이다. 하나의 다중 분류기 시스템을 구성하는 일은 다음 두 가지 문제들을 가지고 있다. 첫째는 어떻게 기반 분류기들을 생성하느냐 하는 것이고 둘째는 이들의 예측결과를 어떻게 결합하느냐 하는 것이다. 본 논문에서는 Bagging, Boosting, Stacking 등 기존의 대표적인 다중 분류기 시스템들의 특징을 살펴보고, 문서 분류를 위한 새로운 다중 분류기 시스템들인 Stacked Bagging, Stacked Boosting, Bagged Stacking, Boosted Stacking들을 제안한다. 이들은 Bagging, Boosting, Stacking과 같은 기존 다중 분류기 시스템들의 장점들을 결합한 일종의 혼합형 다중 분류기 시스템들이다. 본 논문에서는 제안된 다중 분류기 시스템들의 성능을 평가하기 위해 MEDLINE, 유즈넷 뉴스, 웹 문서 등의 문서집합을 이용한 문서 분류 실험들을 전개하였다. 그리고 이러한 실험결과를 통해 제안한 혼합형 다중 분류기 시스템들은 전반적으로 기존 시스템들보다 우수한 성능을 보이는 것으로 나타났다.

유전자 알고리즘을 이용한 분류자 앙상블의 최적 선택 (Optimal Selection of Classifier Ensemble Using Genetic Algorithms)

  • 김명종
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.99-112
    • /
    • 2010
  • 앙상블 학습은 분류 및 예측 알고리즘의 성과개선을 위하여 제안된 기계학습 기법이다. 그러나 앙상블 학습은 기저 분류자의 다양성이 부족한 경우 다중공선성 문제로 인하여 성과개선 효과가 미약하고 심지어는 성과가 악화될 수 있다는 문제점이 제기되었다. 본 연구에서는 기저 분류자의 다양성을 확보하고 앙상블 학습의 성과개선 효과를 제고하기 위하여 유전자 알고리즘 기반의 범위 최적화 기법을 제안하고자 한다. 본 연구에서 제안된 최적화 기법을 기업 부실예측 인공신경망 앙상블에 적용한 결과 기저 분류자의 다양성이 확보되고 인공신경망 앙상블의 성과가 유의적으로 개선되었음을 보여주었다.

유전자 알고리즘 기반 통합 앙상블 모형 (Genetic Algorithm based Hybrid Ensemble Model)

  • 민성환
    • Journal of Information Technology Applications and Management
    • /
    • 제23권1호
    • /
    • pp.45-59
    • /
    • 2016
  • An ensemble classifier is a method that combines output of multiple classifiers. It has been widely accepted that ensemble classifiers can improve the prediction accuracy. Recently, ensemble techniques have been successfully applied to the bankruptcy prediction. Bagging and random subspace are the most popular ensemble techniques. Bagging and random subspace have proved to be very effective in improving the generalization ability respectively. However, there are few studies which have focused on the integration of bagging and random subspace. In this study, we proposed a new hybrid ensemble model to integrate bagging and random subspace method using genetic algorithm for improving the performance of the model. The proposed model is applied to the bankruptcy prediction for Korean companies and compared with other models in this study. The experimental results showed that the proposed model performs better than the other models such as the single classifier, the original ensemble model and the simple hybrid model.

Tree size determination for classification ensemble

  • Choi, Sung Hoon;Kim, Hyunjoong
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권1호
    • /
    • pp.255-264
    • /
    • 2016
  • Classification is a predictive modeling for a categorical target variable. Various classification ensemble methods, which predict with better accuracy by combining multiple classifiers, became a powerful machine learning and data mining paradigm. Well-known methodologies of classification ensemble are boosting, bagging and random forest. In this article, we assume that decision trees are used as classifiers in the ensemble. Further, we hypothesized that tree size affects classification accuracy. To study how the tree size in uences accuracy, we performed experiments using twenty-eight data sets. Then we compare the performances of ensemble algorithms; bagging, double-bagging, boosting and random forest, with different tree sizes in the experiment.

k-최근접 템플릿기반 다중 분류기 결합방법 (Multiple Classifier Fusion Method based on k-Nearest Templates)

  • 민준기;조성배
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권4호
    • /
    • pp.451-455
    • /
    • 2008
  • 본 논문에서는 다중 분류기를 효과적으로 결합하기 위하여 k-최근접 템플릿방법을 제안한다. 이는 하나의 클래스를 여러개의 템플릿으로 모델링하기 위하여 분류기의 출력값을 기반으로 각 클래별 학습 샘플들을 여러개의 하위클래스로 분해하고, 각 하위클래스별 분류기 출력값의 평균을 계산하여 지역화된 템플릿을 생성한다. 그 뒤 평가샘플과 각 템플릿간의 거리를 계산하고, k개의 최근접 템플릿들 중 가장 많은 비율을 차지하는 클래스로 평가샘플을 분류한다. 본 논문에서는 클래스 분해를 위해 C-means 클러스터링 알고리즘을 이용하였으며, k값은 주어진 데이타 셋의 클래스 내 밀집도와 클래스 간 분리도에 따라 자동으로 결정하였다. 제안하는 방법은 각 클래스별로 여러 개의 모델을 사용하며, 이들 중 가장 유사한 하나의 모델과 매칭하는 대신 k개의 모델을 참조하기 때문에 안정적이고 높은 분류성능을 획득할 수 있다. 본 논문에서는 UCI와 ELENA데이타베이스를 이용한 실험을 통해 제안하는 방법이 기존의 결합 방법들에 비해 우수한 분류성능을 보임을 확인하였다.

데이터 마이닝에서 패턴 분류를 위한 다중 SVM 분류기 (Multiple SVM Classifier for Pattern Classification in Data Mining)

  • 김만선;이상용
    • 한국지능시스템학회논문지
    • /
    • 제15권3호
    • /
    • pp.289-293
    • /
    • 2005
  • 패턴 분류는 실세계의 객체를 표현한 다양한 형태의 패턴 정보를 추출하여, 이것이 어떤 부류(클래스)인가를 결정하는 것이다. 패턴 분류 기술은 데이터 마이닝, 산업 자동화나 업무자동화를 위한 컴퓨터 응용 소프트웨어 기술로서 현재 다양한 분야에서 활용되고 있다. 패턴 분류 기술의 최대 목표는 분류 성능 향상이며 이것을 위해 지난 40년간 많은 연구자들이 다양한 접근 방법들을 시도해 왔다. 주로 이용되는 단일 분류 방법들로는 패턴들의 확률적 추론에 기반한 베이즈 분류기, 결정 트리, 거리함수를 이용하는 방법, 신경망, 군집화 등이 있으나 대용량 다차원 데이터를 분석하기에는 효율적이지 못하다. 따라서 상호 보완적인 여러 분류기들을 사용해 결합을 통하여 성능 향상에 도움을 주고 있는 다중 분류기 시스템에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 다중 SVM(Support Vector Machine) 분류기에 관한 기존 연구의 문제점을 지적하고 새로운 모델을 제안한다. SVM을 다중 클래스 분류기로 확장하기 위해 일대다 정책을 기반으로 하여 각각의 SVM 출력값을 비선형 패턴을 갖는 신호로 간주하고 이를 신경망에 학습하여 최종 분류 성능 결과를 결합하는 모델인 BORSE(Bootstrap Resampling SVM by Ensemble)를 제안한다.