DOI QR코드

DOI QR Code

Rough Computational Annotation and Hierarchical Conserved Area Viewing Tool for Genomes Using Multiple Relation Graph.

다중 관계 그래프를 이용한 유전체 보존영역의 계층적 시각화와 개략적 전사 annotation 도구

  • Lee, Do-Hoon (School of Computer Science and Engineering Pusan National University)
  • 이도훈 (부산대학교 정보컴퓨터공학부)
  • Published : 2008.04.30

Abstract

Due to rapid development of bioinformatics technologies, various biological data have been produced in silico. So now days complicated and large scale biodata are used to accomplish requirement of researcher. Developing visualization and annotation tool using them is still hot issues although those have been studied for a decade. However, diversity and various requirements of users make us hard to develop general purpose tool. In this paper, I propose a novel system, Genome Viewer and Annotation tool (GenoVA), to annotate and visualize among genomes using known information and multiple relation graph. There are several multiple alignment tools but they lose conserved area for complexity of its constrains. The GenoVA extracts all associated information between all pair genomes by extending pairwise alignment. High frequency conserved area and high BLAST score make a block node of relation graph. To represent multiple relation graph, the system connects among associated block nodes. Also the system shows the known information, COG, gene and hierarchical path of block node. In this case, the system can annotates missed area and unknown gene by navigating the special block node's clustering. I experimented ten bacteria genomes for extracting the feature to visualize and annotate among them. GenoVA also supports simple and rough computational annotation of new genome.

생물정보학의 발전으로 다양한 형태의 생물정보가 컴퓨터 프로그램에 의해 양산되고 있다. 단순한 서열간의 비교나 작은 규모의 자료를 처리하기 보다는 다각화된 정보와 대규모의 생물정보를 취급하고 있다. 그 중에서 시각화와 annotation를 위한 도구개발은 지난 10년간 많은 연구가 되고 있는 분야이다. 그럼에도 일반화된 도구 개발은 생물정보의 다양성과 사용자 요구의 다양화로 인해 매우 어렵다. 본 논문에서는 유전체간 알려진 정보와 다중 관계 그래프를 이용하여 이를 annotation하고 시각화하는 GenoVA 시스템을 제안한다. 다중 정렬을 위한 몇 개의 프로그램이 존재하지만 그 방법들이 서열내의 복잡성 때문에 많은 정보가 누락된다. 따라서 제안된 방법에서는 pairwise alignment를 확장하여 모든 유전체간 비교를 통해 연관성 도출한다. 유전체간 보존되는 영역의 빈도수와 BLAST 점수가 높은 것을 블록노드라 하고 이들 간의 연관관계를 다중 관계 그래프로 표현하였다. 또한 GenoVA는 알려진 정보, COG, 유전자를 시각화하고 다중 관계 그래프의 한 영역을 중심으로 클러스터링된 경로를 계층적으로 보여주었다. 이때 누락되거나 알려지지 않은 유전자나 다른 annotation정보 추출할 수 있다. 본 논문의 실험을 위해 열 개의 박테리아 유전체가 사용되었고 시각화와 annotation을 위한 자료로 활용하였다. GenoVA는 새로운 유전체에 대한 개략적이고 전산적 annotation을 직관적이고 편리하게 제공한다.

Keywords

References

  1. Carver, T. J., K. M. Rutherford, M. Berriman, M. A. Rajandream, B. G. Barrell and J. Parkhill. 2005. ACT: the artemis comparison tool. Bioinformatics 21, 3422-3423 https://doi.org/10.1093/bioinformatics/bti553
  2. Chakrabarti, K. and L. Pachter, 2004. Visualization of multiple genome annotations and alignments With the K-BROWSER. Genome Res. 14, 716-720 https://doi.org/10.1101/gr.1957004
  3. Choudhuri, J. V., C. Schleiermacher, S. Kurtz and R. Giegerich. 2004. GenAlyzer: interactive visualization of sequence similarities between entire genomes. Bioinformatics 20, 1964-1965 https://doi.org/10.1093/bioinformatics/bth161
  4. Darling, A. C., B. Mau, F. R. Blattner and N. T. Perna. 2004. Mauve: multiple alignment of conserved genomic sequence with rearrangements. Genome Res. 14, 1394-1403 https://doi.org/10.1101/gr.2289704
  5. Enault, F., K. Suhre, C. Abergel, O. Poirot and J. M. Claverie. 2003. Annotation of bacterial genomes using improved phylogenomic profiles. Bioinformatics 19. i105-i107 https://doi.org/10.1093/bioinformatics/btg1013
  6. Lynn, A. M., C. K. Jain, K. Kosalai, P. Barman, N. Thakur, H. Batra and A. Bhattacharya. 2001. An automated annotation tool for genomic DNA sequences using GeneScan and BLAST. J. of Genetics 80, 9-16 https://doi.org/10.1007/BF02811413
  7. Majoros, W. H., M. Pertea, and S. L. Salzberg. 2004. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders. Bioinformatics 20 2878-2879 https://doi.org/10.1093/bioinformatics/bth315
  8. McCauley, S., S. de Groot, T. Mailund and J. Hein. 2007. Annotation of Selection strengths in viral genomes. Bioinformatics 23, 2978-2986 https://doi.org/10.1093/bioinformatics/btm472
  9. Rasko, D. A. 2005. Visualization of comparative genomic analyses by BLAST score ratio. MC Bioinformatics 6, 1471-2105
  10. Rutherford, K., J. Parkhill, J. Crook, T. Horsnell, P. Rice, M. A. Rajandream and B. Barrell. 2000. Artemis:sequence visualization and annotation. Bioinformatics 16, 944-945 https://doi.org/10.1093/bioinformatics/16.10.944
  11. Shah, N., O. Couronne, L. A. Pennacchio, M. Brudno, S. Batzoglou, E. W. Bethel, E. M. Rubin, B. Hamann and I. Dubchak. 2004. Phylo-VISTA: interactive visualization of multiple DNA sequence alignments. Bioinformatics 20, 636-643 https://doi.org/10.1093/bioinformatics/btg459
  12. Stothard, P. and D. S. Wishart. 2006. Automated bacterial genome analysis and annotation. Current Opinion in Microbilogy 9, 505-510 https://doi.org/10.1016/j.mib.2006.08.002
  13. Zhao, J., D. Che and L. Cai. 2006. Comparative pathway annotation with protein-DNA interaction and operon information via graph tree decomposition. Proc. of Pacific Symposium on Biocomputing 12, 496-507