DOI QR코드

DOI QR Code

Disease Classification using Random Subspace Method based on Gene Interaction Information and mRMR Filter

유전자 상호작용 정보와 mRMR 필터 기반의 Random Subspace Method를 이용한 질병 진단

  • 최선욱 (인하대학교 정보통신공학과) ;
  • 이종호 (인하대학교 정보통신공학과)
  • Received : 2011.12.16
  • Accepted : 2012.03.26
  • Published : 2012.04.25

Abstract

With the advent of DNA microarray technologies, researches for disease diagnosis has been actively in progress. In typical experiments using microarray data, problems such as the large number of genes and the relatively small number of samples, the inherent measurement noise and the heterogeneity across different samples are the cause of the performance decrease. To overcome these problems, a new method using functional modules (e.g. signaling pathways) used as markers was proposed. They use the method using an activity of pathway summarizing values of a member gene's expression values. It showed better classification performance than the existing methods based on individual genes. The activity calculation, however, used in the method has some drawbacks such as a correlation between individual genes and each phenotype is ignored and characteristics of individual genes are removed. In this paper, we propose a method based on the ensemble classifier. It makes weak classifiers based on feature vectors using subsets of genes in selected pathways, and then infers the final classification result by combining the results of each weak classifier. In this process, we improved the performance by minimize the search space through a filtering process using gene-gene interaction information and the mRMR filter. We applied the proposed method to a classifying the lung cancer, it showed competitive classification performance compared to existing methods.

DNA 마이크로어레이 기술의 발달과 함께 이를 활용한 질병 진단 및 치료 예후 확인을 목적으로 하는 연구가 활발히 진행 되고 있다. 일반적으로 마이크로어레이 데이터를 이용한 실험에서는 특징들의 수에 비해 적은 샘플의 수, 내재적 측정 노이즈, 서로 다른 샘플들 간의 이질성 등이 분류 성능을 떨어트리는 원인이 된다. 이러한 문제를 극복하기 위해 패스웨이 기반의 기능적 모듈 단위의 마커를 사용하는 방법들이 새롭게 제안 되었다. 이들은 패스웨이의 멤버 유전자들의 발현 값을 요약하여 해당 패스웨이의 활성도로 사용하는데, 기존의 기법들과 비교하여 뛰어난 분류 성능과 재현성을 보여주었다. 그러나 이러한 활성도 계산 방법은 개별 유전자들과 표현형 사이의 상관관계를 무시하거나, 개별 유전자들이 갖는 발현 특성이 제거 되는 단점들이 있다. 본 논문에서는 선택된 기능적 모듈 단위의 유전자들의 부분집합들을 기반으로 약 분류기를 구성하고, 이들의 분류 결과를 결합하여 최종 결과를 추론하는 앙상블 분류 기법을 제안한다. 이 과정에서 유전자 상호작용 정보와 mRMR 필터를 사용하는 필터링과정을 통해 탐색 공간을 최소화하여 분류 성능을 높일 수 있도록 하였다. 제안 된 방법의 성능을 테스트하기 위해 폐암 데이터에 적용한 결과, 기존의 기법들에 비해 신뢰성이 있고 우수한 분류 성능을 보여주었다.

Keywords

References

  1. Golub, T., et al., "Molecular classification of cancer: Class discovery and class prediction by gene expression monitoring," Science, vol. 286, no. 5439, pp. 531-537, 1999. https://doi.org/10.1126/science.286.5439.531
  2. 이선아, 이건명, 류근호, "퍼지 시그너쳐 집합을 이용한 마이크로어레이 데이터 검색," 한국지능시스템학회 논문지, 제19권, 제4호, pp. 545-549, 2009.
  3. Braga-Neto UM, D.E., "Is cross-validation valid for smallsample microarray classification?," Bioinformatics, vol. 20, pp. 374-380, 2004. https://doi.org/10.1093/bioinformatics/btg419
  4. ER, D., "Small sample issues for microarray-based classification," Comparative and functional genomics, vol. 2, pp. 28-34, 2001. https://doi.org/10.1002/cfg.62
  5. Subramanian A., et al., "Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles," Proc. Natl Acad Sci USA, vol. 102, pp. 15545-15550, 2001.
  6. Guo Z., et al., "Towards precise classification of cancers based on robust gene functional expression profiles," BMC Bioinformatics, vol. 6, pp. 58, 2005. https://doi.org/10.1186/1471-2105-6-58
  7. Tomfohr J, Lu J, K.T., "Pathway level analysis of gene expression using singular value decomposition," BMC Bioinformatics, vol. 6, pp. 225, 2005. https://doi.org/10.1186/1471-2105-6-225
  8. Bild AH, et al., "Oncogenic pathway signatures in human cancers as a guide to targeted therapies," Nature, vol. 439, pp. 353-357, 2006. https://doi.org/10.1038/nature04296
  9. Lee E., et al., "Inferring pathway activity toward precise disease classification," PLoS Computational Biology, vol. 4, no. 11, e1000217, 2008. https://doi.org/10.1371/journal.pcbi.1000217
  10. Su J., et al., "Accurate and reliable cancer classification based on probabilistic inference of pathway activity," PLoS ONE, vol. 4, no. 12, e8161, 2009. https://doi.org/10.1371/journal.pone.0008161
  11. Peng, H., et al., "Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy," IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 27, no. 8, pp. 1226-1238, 2005. https://doi.org/10.1109/TPAMI.2005.159
  12. Ho, T.K., "The random subspace method for constructing decision forests," IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 20, no. 8, pp. 832-844, 1998. https://doi.org/10.1109/34.709601
  13. Beer DG., et al., "Gene expression profiles predict survival of patients with lung adenocarcinoma," Nature Medicine, vol. 8, pp. 816-824, 2002 https://doi.org/10.1038/nm733
  14. Bhattacharjee A., et al., "Classification of human lung carcinomas by mRNA expression profiling reveals distinct adenocarcinoma subclasses," Proc. Natl Acad Sci USA, vol. 98, pp. 13790-13795, 2001.
  15. T, Fawcett, "An introduction to roc analysis," Pattern Recognition Letters, vol. 27, pp. 861-874, 2006. https://doi.org/10.1016/j.patrec.2005.10.010
  16. Ruide Hua, et al., "A small proline-rich protein, spr1: Specific marker for squamous lung carcinoma," Lung Cancer, vol. 20, Issue 1, pp. 25-30, 1998. https://doi.org/10.1016/S0169-5002(97)00097-4

Cited by

  1. Characterization of the Alzheimer's disease-related network based on the dynamic network approach vol.25, pp.6, 2015, https://doi.org/10.5391/JKIIS.2015.25.6.529