DOI QR코드

DOI QR Code

Cluster Analysis of SNPs with Entropy Distance and Prediction of Asthma Type Using SVM

엔트로피 거리와 SVM를 이용한 SNP 군집분석과 천식 유형 예측

  • 이중섭 (아주대학교 자연과학부) ;
  • 신기섭 (아주대학교 수학과) ;
  • 위규범 (아주대학교 정보컴퓨터공학부)
  • Received : 2010.10.22
  • Accepted : 2011.02.21
  • Published : 2011.04.30

Abstract

Single nucleotide polymorphisms (SNPs) are a very important tool for the study of human genome structure. Cluster analysis of the large amount of gene expression data is useful for identifying biologically relevant groups of genes and for generating networks of gene-gene interactions. In this paper we compared the clusters of SNPs within asthma group and normal control group obtained by using hierarchical cluster analysis method with entropy distance. It appears that the 5-cluster collections of the two groups are significantly different. We searched the best set of SNPs that are useful for diagnosing the two types of asthma using representative SNPs of the clusters of the asthma group. Here support vector machines are used to evaluate the prediction accuracy of the selected combinations. The best combination model turns out to be the five-locus SNPs including one on the gene ALOX12 and their accuracy in predicting aspirin tolerant asthma disease risk among asthmatic patients is 66.41%.

단일염기다형성은 인간 게놈 구조 연구의 중요한 도구이다. 대량의 유전자 표현형 데이터에서의 군집 분석은 생물학적으로 연관이 있는 유전자 군을 발견하거나 유전자간 상호작용 네트워크를 생성하는데 유용하다. 본 논문에서는 엔트로피 거리를 기반으로 계층적 군집 분석 방법을 사용하여 천식환자군과 정상대조군의 군집을 형성하고 비교하였고 5개짜리 군집에서 두 군의 의미 있는 차이점이 나타남을 보였다. 천식환자군의 각 군집에서의 대표 SNP들의 조합의 질병 예측 정확도를 지지벡터기계를 이용하여 측정하여, 천식의 두 유형을 진단할 수 있는 최상의 조합을 찾았다. 최상의 조합은 유전자 ALOX12에 있는 단일염기다형성을 포함한 5개로 구성된 모델이며 66.41%의 아스피린 내성 천식 질병에 대한 예측 정확도를 갖는다.

Keywords

References

  1. D. H. Kim, K. B. Ham, J. Kim, "Effective Analysis of Related Chronic Hepatitis Using SNP", Proc. of the KIISE Korea Computer Congress 2006, Vol.33, No.1(A), pp.19-21, 2006. (in Korean)
  2. S. H. Kim, H. H. Jeong, B. Y. Cho, et al, "Association of four-locus gene interaction with aspirin-intolerant asthma in Korean asthmatics", J. Clin. Immunol., Vol.4, No.4, pp.336-342, 2008.
  3. E. G. Julie, E. M. Leah, T. L. Brian, et al, "Exploring SNP-SNP interactions and colon cancer risk using polymorphism interaction analysis", Int. J. Cancer, Vol.118, No.7, pp.1790-1797, 2006. https://doi.org/10.1002/ijc.21523
  4. A. J. Butte, and I. S. Kohane, "Mutual information relevance networks: Functional genomic clustering using pairwise entropy measurements", Pac. Symp. Biocomput., Vol.5, pp.415-426, 2000.
  5. J. S. Lee, S. H. Kim, K. S. Shin, et al, "Analysis of Asthma Related SNP Genotype Data Using Normalized Mutual Information and Support Vector Machines", Journal of KIISE : Software and Applications, Vol.36, No.9, pp.691-696, 2009. (in Korean)
  6. S. H. Kim, H. S. Park, J. W. Holloway, et al. "Association between a $TGF_{\beta_1}$promoter polymorphism and rhinosinusitis in aspirin intolerant asthmatic patients", Respir Med. Vol.101, pp.490-495, 2007. https://doi.org/10.1016/j.rmed.2006.07.002
  7. T. M. Cover, and J. A. Thomas, Elements of Information Theory, 2nd Ed., Wiley, 2006.
  8. M. B. Eisen, T. P. Spellman, P. O. Brown, et al, "Cluster analysis and display of genome-wide expression patterns", Proc. Natl. Acad. Sci., Vol.95, No.25, pp.14863-14868, 1998. https://doi.org/10.1073/pnas.95.25.14863
  9. http://svmlight.joachims.org/.
  10. J. H. Moore, J. C. Gilbert, C. T. Tsai, et al, "A flexible computational framework for detecting, characterizing, and interpreting statistical patterns of epistasis in genetic studied of human disease susceptibility", J. Theor. Biol., Vol.241, pp.252-261, 2006. https://doi.org/10.1016/j.jtbi.2005.11.036
  11. P. N. Tan, M. Steinbach and V. Kumar, "Introduction to Data Mining", Pearson Education, 2006.