Automata Species Classifier based on Protein Sequences and Text Information

단백질 서열과 텍스트 정보 기반 오토마타 종 분류기

  • Published : 2007.06.25

Abstract

단백질 분류는 현대 생물학의 큰 도전과제이다. 현재 여러 단체에 의해 잘 관리되는 상세한 주석이 달린 많은 양의 단백질 정보들이 존재한다. 이러한 데이터베이스의 덕분으로 다양한 물리 화학적 특성과 주석들에 기반하고 있는 분류 기법들이 연구되고 있다. 특히 아미노산들로 이루어진 단백질 서열이 해당 단백질의 분류에 중요한 역할을 하는 진화적 기록들의 단서가 되기 때문에 단백질 서열들에 대한 연구가 활성화되고 있다. 비록 단백질 서열이 단백질 분류 문제의 중요한 특징이 된다고 해도 단순한 단백질 서열만으론 해당 단백질에 대한 충분한 정보를 얻을 수 없으며, 타 종 간에도 기능상 유사성 때문에 서로 비슷하게 판별될 수 있다. 이러한 문제점에 착안해서 우리는 오토마타 종 분류기라고 부르는 새로운 시스템적인 종 분류 접근 방법을 제안한다. 이 시스템의 클러스터링과 종 분류 판별 성능에 대한 평가 실험을 수행해본 결과 상대적으로 좋은 성능을 얻을 수 있었다.

Keywords