Robustness Analysis of Support Vector Machines against Errors in Input Data

Support Vector Machine의 입력데이터 오류에 대한 Robustness분석

  • Lee Sang-Kyun (School of Computer Science and Engineering, Seoul National University) ;
  • Zhang Byoung-Tak (School of Computer Science and Engineering, Seoul National University)
  • 이상근 (서울대학교 컴퓨터공학부) ;
  • 장병탁 (서울대학교 컴퓨터공학부)
  • Published : 2005.07.01

Abstract

Support vector machine(SVM)은 최근 각광받는 기계학습 방법 중 하나로서, kernel function 이라는 사상(mapping)을 이용하여 입력 공간의 벡터를 classification이 용이한 특징 (feature) 공간의 벡터로 변환하는 것을 근간으로 한다. SVM은 이러한 특징 공간에서 두 클래스를 구분 짓는 hyperplane을 일련의 최적화 방법론을 사용하여 찾아내며, 주어진 문제가 convex problem 인 경우 항상 global optimal solution 을 보장하는 등의 장점을 지닌다. 한편 bioinformatics 연구에서 주로 사용되는 데이터는 측정 오류 등 일련의 오류를 포함하고 있으며, 이러한 오류는 기계학습 방법론이 어떤 decision boundary를 찾아내는가에 영향을 끼치게 된다. 특히 SVM의 경우 이러한 오류는 특징 공간 벡터간의 관계를 나타내는 Gram matrix를 변화로 나타나게 된다. 본 연구에서는 입력 공간에 오류가 발생할 때 그것이 SVM 의 decision boundary를 어떻게 변화시키는가를 대표적인 두 가지 kernel function, 즉 linear kernel과 Gaussian kernel에 대해 분석하였다. Wisconsin대학의 유방암(breast cancer) 데이터에 대해 실험한 결과, 데이터의 오류에 따른 SVM 의 classification 성능 변화 양상을 관찰하여 커널의 종류에 따라 SVM이 어떠한 특성을 보이는가를 밝혀낼 수 있었다. 또 흥미롭게도 어떤 조건 하에서는 오류가 크더라도 오히려 SVM 의 성능이 향상되는 것을 발견했는데, 이것은 바꾸어 생각하면 Gram matrix 의 일부를 변경하여 SVM 의 성능 향상을 꾀할 수 있음을 나타낸다.

Keywords