Abstract
In this paper, we use Support Vector Machine to predict the susceptibility of chronic hepatitis from single nucleotide polymorphism data. Our data set consists of SNP data for 328 patients based on 28 SNPs and patients classes(chronic hepatitis, healthy). We use leave-one-out cross validation method for estimation of the accuracy. The experimental results show that SVM with SNP is capable of classifying the SNP data successfully for chronic hepatitis susceptibility with accuracy value of 67.1%. The accuracy of all SNPs with health related feature(sex, age) is improved more than 7%(accuracy 74.9%). This result shows that the accuracy of predicting susceptibility can be improved with health related features. With more SNPs and other health related features, SVM prediction of SNP data is a potential tool for chronic hepatitis susceptibility.
본 논문에서는 한국인의 대표질환 중 하나인 만성 간염에 대한 질환 감수성을 예측하기 위해서 Single Nucleotide Polymorphism 데이타와 대표적인 기계학습 기술인 Support Vector Machine을 이용하였다. 실험을 위한 데이타로 만성간염 환자 173명과 정상인 155명의 SNP 데이타를 사용하였으며, 평가를 위한 방법으로는 Leave-One-Out Cross Valication을 사용하였다. 실험결과 SNP 데이터만으로는 67.1%의 예측 결과를 얻었으며 기본적인 건강요소인 나이와 성별을 특징요소로 사용함으로서 74.9%의 예측 결과를 보였다. 향후 보다 많은 SNP 데이타와 건강관련정보 그리고 생활패턴에 대한 요소들을 특징요소로 감수성 예측에 함께 사용한다면, SVM은 만성 간염 예측을 위한 보다 효과적인 도구가 될 것이다.