Clustering Gene Expression Data by MCL Algorithm

MCL 알고리즘을 사용한 유전자 발현 데이터 클러스터링

  • Shon, Ho-Sun (School of Electrical and Computer Engineering, Chungbuk National University) ;
  • Ryu, Keun-Ho (School of Electrical and Computer Engineering, Chungbuk National University)
  • 손호선 (충북대학교 전기전자컴퓨터공학부) ;
  • 류근호 (충북대학교 전기전자컴퓨터공학부)
  • Published : 2008.07.25

Abstract

The clustering of gene expression data is used to analyze the results of microarray studies. This clustering is one of the frequently used methods in understanding degrees of biological change and gene expression. In biological research, MCL algorithm is an algorithm that clusters nodes within a graph, and is quick and efficient. We have modified the existing MCL algorithm and applied it to microarray data. In applying the MCL algorithm we put forth a simulation that adjusts two factors, namely inflation and diagonal tent and converted them by making use of Markov matrix. Furthermore, in order to distinguish class more clearly in the modified MCL algorithm we took the average of each row and used it as a threshold. Therefore, the improved algorithm can increase accuracy better than the existing ones. In other words, in the actual experiment, it showed an average of 70% accuracy when compared with an existing class. We also compared the MCL algorithm with the self-organizing map(SOM) clustering, K-means clustering and hierarchical clustering (HC) algorithms. And the result showed that it showed better results than ones derived from hierarchical clustering and K-means method.

유전자 발현 데이터의 분석 기법 중 무감독 학습 기반의 클러스터링 기법은 생물학적 변화와 진의 발현 정도를 이해하는데 자주 사용되는 방법이다. 생명공학 연구에 있어서 그래프 기반의 MCL 알고리즘은 그래프 내의 노드들을 클러스터링 하는 알고리즘으로 빠르고 효과적이다. 우리는 기존의 MCL 알고리즘을 개선하여 마이크로어레이 데이터에 적용시켰다. MCL 알고리즘 수행 시 inflation과 대각선 항의 두 요인을 조정하는 시뮬레이션을 실행하였으며, 마코브 행렬을 이용하여 변환하였다. 또한 개선된 MCL 알고리즘에서는 더 명확한 클래스를 구분하기 위하여 각 열의 평균을 구한 후 그 값을 임계치로 사용하였다. 따라서 수정된 알고리즘은 기존의 알고리즘들보다 정확도를 높일 수 있었다. 즉, 실제 실험 결과 기존에 알려진 클래스와 비교했을 때 평균 70%의 정확도를 보였다. 또한, 다른 클러스터링 기법, K-means 알고리즘, 계층적 클러스터링 그리고 SOM 알고리즘을 비교 분석하였으며, 그 결과 MCL 알고리즘이 다른 클러스터링 기법보다 더 좋은 결과를 보임을 알 수 있다.

Keywords

References

  1. Ho Sun Shon, Sunshin Kim, Chung Sei Rhee, Keun ho Ryu, "Clustering DNA Microarray Data by MCL Algorithm, ISMB, 2007
  2. E. Hartuv et al., An Algorithm for Clustering cDNAs for Gene Expression Analysis, RECOM B 99, pp.188-197, 1999
  3. R. Sharan and R. Shamir, "CLICK : A Clustering algorithm with applications to gene expression analysis", In Proceedings ISMB, 2000
  4. T. Kohonen, Self-Organizing Maps, Springer Verlag, NewYork, 1997
  5. T. Kohonen, "The self-organizing map," Neurocomputing, vol 21, pp.1-6. 1998 https://doi.org/10.1016/S0925-2312(98)00030-7
  6. Q. Zhang, Y. Zhang, "Hierarchical Clustering of gene expression profiles with graphics hardware acceleration", pp.676-681, Pattern Recognition Letters, vol 27, 2006 https://doi.org/10.1016/j.patrec.2005.06.016
  7. P. T. Spellman, G. Sherlock, M. Q. Zhang, et al., "Comprehensive identification of cell cycle-regulated genes of the yeast Saccharomyces cerevisiae by Microarray hybridization", Molecular Biology of the Cell, vol 9, no. 12, 3273-3297, 1998 https://doi.org/10.1091/mbc.9.12.3273
  8. EisenLab http://rana1b1.gov./EisenSoftware, 2008
  9. J. Han, M. Kamber, Data Mining: Concepts & Techniques 2nd ed, March 2006
  10. Stijn Marinus van Dongen, GRAPH Clustering by FLOW SIMULATION, 1969
  11. Sunshin Kim, Clustering Methods for Finding Orthologs among Multiple Species, http://dblab.chungbuk.ac.kr/-sskim04/,2007
  12. T. R Golub, D. K Slonim, P. Tamayo et al., "Molecular classification of cancer: class discovery and class prediction by gene expression monitoring". Science 286, pp.531-537, 1999 https://doi.org/10.1126/science.286.5439.531
  13. The R Project for Statistical Computing, 2008 http://www.r-project.org/
  14. Sunshin Kim, Kwang Su Jung, Keun Ho Ryu, "Automatic Orthologous-Protein-Clustering from Multiple Complete-Genomes by the Best Reciprocal BLAST Hits", LNBI, vol.3916, pp.60-70, 2006
  15. 정광수, 유기진, 정용제, 류근호, "MCL 알고리즘을 이용한 단백질 표면의 바인딩 영역 분석 기법" 정보처리학회논문지 D, 제14-D권 제7호, pp743-752, 2007.12 https://doi.org/10.3745/KIPSTD.2007.14-D.7.743
  16. Ho Sun Shon, Sunshin Kim, Keun Ho Ryu, "Clustering approach using MCL Algorithm for analysing Microarray Data", no1, vol 9, 2007