Abstract
Single nucleotide polymorphisms (SNPs) are a very important tool for the study of human genome structure. Cluster analysis of the large amount of gene expression data is useful for identifying biologically relevant groups of genes and for generating networks of gene-gene interactions. In this paper we compared the clusters of SNPs within asthma group and normal control group obtained by using hierarchical cluster analysis method with entropy distance. It appears that the 5-cluster collections of the two groups are significantly different. We searched the best set of SNPs that are useful for diagnosing the two types of asthma using representative SNPs of the clusters of the asthma group. Here support vector machines are used to evaluate the prediction accuracy of the selected combinations. The best combination model turns out to be the five-locus SNPs including one on the gene ALOX12 and their accuracy in predicting aspirin tolerant asthma disease risk among asthmatic patients is 66.41%.
단일염기다형성은 인간 게놈 구조 연구의 중요한 도구이다. 대량의 유전자 표현형 데이터에서의 군집 분석은 생물학적으로 연관이 있는 유전자 군을 발견하거나 유전자간 상호작용 네트워크를 생성하는데 유용하다. 본 논문에서는 엔트로피 거리를 기반으로 계층적 군집 분석 방법을 사용하여 천식환자군과 정상대조군의 군집을 형성하고 비교하였고 5개짜리 군집에서 두 군의 의미 있는 차이점이 나타남을 보였다. 천식환자군의 각 군집에서의 대표 SNP들의 조합의 질병 예측 정확도를 지지벡터기계를 이용하여 측정하여, 천식의 두 유형을 진단할 수 있는 최상의 조합을 찾았다. 최상의 조합은 유전자 ALOX12에 있는 단일염기다형성을 포함한 5개로 구성된 모델이며 66.41%의 아스피린 내성 천식 질병에 대한 예측 정확도를 갖는다.