Classifying Cancer Using Partially Correlated Genes Selected by Forward Selection Method

전진선택법에 의해 선택된 부분 상관관계의 유전자들을 이용한 암 분류

  • 유시호 (연세대학교 컴퓨터과학과) ;
  • 조성배 (연세대학교 컴퓨터과학과)
  • Published : 2004.05.01

Abstract

Gene expression profile is numerical data of gene expression level from organism measured on the microarray. Generally, each specific tissue indicates different expression levels in related genes, so that we can classify cancer with gene expression profile. Because not all the genes are related to classification, it is needed to select related genes that is called feature selection. This paper proposes a new gene selection method using forward selection method in regression analysis. This method reduces redundant information in the selected genes to have more efficient classification. We used k-nearest neighbor as a classifier and tested with colon cancer dataset. The results are compared with Pearson's coefficient and Spearman's coefficient methods and the proposed method showed better performance. It showed 90.3% accuracy in classification. The method also successfully applied to lymphoma cancer dataset.

유전 발현 데이터는 생명체의 특정 조직에서 채취한 샘플을 마이크로어레이상에서 측정한 것으로, 유전자들의 발현 정도가 수치로 나타난 데이터이다. 일반적으로 정상조직과 이상조직에서 관련 유전자들의 발현 정도는 차이를 보이기 때문에 유전 발현 데이터를 통하여 암을 분류할 수 있다. 그러나 분류에 모든 유전자가 관여하지는 않으므로 효율적인 암의 분류를 위해서는 관련성 있는 소수의 유전자만을 선별해내는 작업인 특징선택 방법이 필요하다. 본 논문에서는 회귀분석의 변수선택방법중 하나인 전진 선택법(forward selection method)을 사용하여 유전자들을 선하고 분류하는 방법을 제안한다. 이 방법은 선택되는 유전자들의 중복된 정보를 최소화시켜 암의 분류에 있어 보다 효과적인 유전자 선택을 한다. 실험데이터는 대장암 데이터(Colon cancer dataset)를 사용하였고, 분류기는 k-최근접 이웃(KNN)을 사용하였다. 이 방법과 상관계수를 이용한 특징 선택방법인 피어슨 상관계수와 스피어맨 상관계수방법과 비교해본 결과 전진 선택법에 의한 특징선택 방법이 암의 분류에 있어서 더 효과적인 유전자 선택을 한다는 사실을 확인하였다. 실험결과 90.3%의 높은 인식률을 보였다. 추가적으로 림프종 데이터에 대한 실험을 하였고, 그 결과 전진 선택법의 유용성을 확인할 수 있었다.

Keywords

References

  1. C. A. Harrington, C. Rosenow, and J. Retief, 'Monitoring gene expression using DNA microarrays,' Curr. Opin, Microbiol, vol. 3, no. 3, pp. 285-291, 2000 https://doi.org/10.1016/S1369-5274(00)00091-6
  2. S. B. Cho and J. W. Ryu, 'Classifying gene expression data of cancer using classifier ensemble with mutually exclusive features,' Proc. of the IEEE, vol. 90, no. 11, pp. 1744-1753, 2002 https://doi.org/10.1109/JPROC.2002.804682
  3. W. D. Shannon, M. A. Watson, A. Perry, and K. Rich, 'Mantel statistics to correlate gene expression levels from microarrays with clinical covariates,' Genetic Epidemiology, vol. 23, no. 1, pp 87-96, 2002 https://doi.org/10.1002/gepi.1115
  4. J. Khan, J S. Wei, M. Ringner, L. H. saar, M. Ladanyi, F. Westermann, F. Berthold, M. Schwab, C. R. Antonescu, C. Peterson, and P. S. Meltzer, 'Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks,' Nature, vol. 7, no. 6, pp. 673-679, June 2001 https://doi.org/10.1038/89044
  5. L. Li, C. R. Weinberg, T. A. Darden, and L. G. Pedersen, 'Gene selection for samlple classification based on gene expression data-Study of sensitivity to choice of parameters of the GAIKNN method,' Bioinformatics, vol. 17, no. 12, pp 1131-1142, 2001
  6. M. P. S. Brown, W. N. Grundy, D. Lin, N. Cristianini, C. Sugnet, M. Ares, jr., and D. Haussler, 'Support vector machine classification of microarray gene expression data,' USCS-CRL-99-09, pp. 1-23, June 1999
  7. P. Tamayo, 'Interpreting patterns of gene expression with self-organizing map: Methods and application to hematopoietic differentiation,' Proc. of National Academy of Sciences, vol. 96, pp. 2907-2912, 1999 https://doi.org/10.1073/pnas.96.6.2907
  8. R. J. Lipshutz, S. P. Fodor, T. R. Gingeras, and D. J. Lockhart, 'High density synthetic oligonucleotide arrays,' Nature Genetics, vol. 21, pp. 20-24, 1999 https://doi.org/10.1038/4447
  9. T. H. Bo and I. Jonassen, 'New feature subset selection procedures for classification of expression profiles,' Genome Biology, vol. 3, no. 4, research0017.1-0017.11, 2002
  10. S. Dudoit, J. Fridlyand, and T. P. Speed, 'Comparison of discrimination methods for the classification of tumors using gene expression data,' Technical Report 576, Department of Statistics, University of California, Berkeley, 2000
  11. M. Xiong, L. Jin, W. Li, and E. Boerwinkle, 'Computational methods for gene expression-based tumor classification,' BioTechniques, vol. 29, no. 6, pp. 1264-1270, 2000
  12. K. E. Lee, N. Sha, E. R. Dougherty, M. Vannucci, and B. K. Mallick, 'Gene selection: A bayesian variable selection approach,' Bioinformatics, vol. 19, no. 1, pp 90-97, 2003 https://doi.org/10.1093/bioinformatics/19.1.90
  13. J. Rawlings, 'Applied regression analysis,' Wadsworth Books, Belmont, CA, 1998