A Study on Construction of Integrated Prokaryotes Gene Prediction System

통합형 미생물 유전자 예측 시스템의 구축에 관한 연구

  • 장종원 (영남대학교 컴퓨터공학부) ;
  • 류윤규 (대구보건대학 행정전산과) ;
  • 구자효 (영남대학교 컴퓨터공학부) ;
  • 윤영우 (영남대학교 컴퓨터공학부)
  • Published : 2005.01.01

Abstract

As a large quantity of Genome sequencing has happened to be done a very much a surprising speed in short period, an automatic genome annotation process has become prerequisite. The most difficult process among with this kind of genome annotation works is to finding out the protein-coding genes within a genome. The main 2 subjects of gene prediction are Eukaryotes and Prokaryotes ; their genes have different structures, therefore, their gene prediction methods will also obviously varies. Until now, it is found that among of the 231 genome sequenced species, 200 have been found to be prokaryotes, therefore, for study of biotechnology studies, through comparative genomics, prokaryotes, rather than eukaryotes could may be more appropriate than eukaryotes. Even more, prokaryotes does not have the gene structure called an intron, so it makes the gene prediction easier. Former prokaryotes gene predictions have been shown to be 80%~ to 90% of accuracy. A recent study is aiming at 100% of gene prediction accuracy. In this paper, especially in the case of the E. coli K-12 and S. typhi genomes, gene prediction accuracy which showed 98.5% and 98.7% was more efficient than previous GLIMMER.

유전자 서열 분석기의 발달로 유전체 서열 데이터는 급속도로 증가하여 자동적으로 유전체에 주석을 첨부하는 과정이 필요하다. 유전체에 주석을 다는 작업 중 가장 어려운 과정이 유전체내에 존재하는 단백질을 코드화하고 있는 유전자의 탐색이다. 진핵생물과 원핵생물은 유전자 구조에서 현격한 차이를 보이고 있으므로 유전자를 예측하는 방법도 각각 달라야 한다. 지금까지 전체 유전체 서열이 밝혀진 231종의 생물에서 200종이 원핵생물이다. 그러므로 비교 유전체학을 통한 생물공학 연구에서 진핵생물보다 원핵생물이 더 적합하다 할 것이다. 게다가 원핵생물의 경우 intron이라는 구조를 가지고 있지 않아 유전자 예측이 더 간단하다. 이전에 연구된 원핵생물의 유전자 예측 정확성은 80%~90%에 이르고 있고 최근의 연구에서는 유전자 예측 정확도 100%를 목표로 하고 있고, 본 논문에서는 E. coli K-12와 S. typhi 유전체의 경우, 유전체 예측 정확도가 각각 98.5%와 98.7%를 보여 기존의 GLIMMER보다 더 우수한 결과를 나타내었다.

Keywords