정렬된 잔기 사이의 최대거리와 유사도 그래프에 기반한 단백질 구조 정렬

Protein Structure Alignment Based on Maximum of Residue Pair Distance and Similarity Graph

  • 김우철 (연세대학교 컴퓨터과학과) ;
  • 박상현 (연세대학교 컴퓨터과학과) ;
  • 원정임 (한양대학교 정보통신대학 컴퓨터)
  • 발행 : 2007.10.15


최근 인간 게놈 프로젝트를 통해서 인간의 DNA가 해석된 이후 유전자가 생성하는 단백질의 기능에 대한 관심이 높아지고 있다. 단백질의 기능은 서열의 유사도보다는 진화과정 상에서 잘 보존되는 구조의 유사도에 더 연관되어 있다. 이를 통해 두 개의 단백질 간에 구조 유사성이 관찰되면 이로부터 이들이 유사한 생물학적 기능을 가질 것을 기대할 수 있다. 따라서 유사한 단백질 구조를 가진 단백질을 찾기 위한 방법으로 단백질 구조 정렬에 대한 많은 연구들이 진행되었다. 하지만 기존의 연구들은 유사도로 주로 RMSD(Root Mean Square Deviation)를 사용했기 때문에 두 단백질의 정렬 결과가 유사한지 흑은 유사하지 않은지를 직관적으로 판단하기 쉽지 않다. 또한 대부분의 기존 연구들은 정렬 결과로 최적의 정렬 결과 하나만을 찾기 때문에 서로 다른 목적을 가지는 사용자들을 만족시키기 어렵다. 따라서 본 논문에서는 새로운 유사도인 MRPD(Maximum of Residue Pair Distance)와 다수의 정렬 결과를 하나의 그래프로 표현하는 SG(Similarity Graph)을 기반으로 여러 가지 정렬 결과를 한 번에 생성하는 단백질 구조 정렬 방식을 제안한다. 단백질 정렬에 MRPB를 유사도로 사용하면 RMSD를 사용하는 경우에 비해서 유사 정도를 직관적으로 이해할 수 있을 뿐 아니라 신속하게 결과를 얻을 수 있다. SG는 사용자가 다양한 후보 정렬 결과들 중에서 자신이 원하는 정렬결과를 신속히 검색할 수 있도록 지원한다. 따라서 본 논문에서 제안한 단백질 구조 정렬 알고리즘은 다양한 길이에 따른 다수의 최적 정렬들을 제시하여 사용자의 만족도를 향상시킬 수 있었으며, 다수의 정렬결과 검색임에도 불구하고 정렬 시간은 기존 방법들과 거의 비슷하다는 장점이 있다.

After the Human Genome Project finished the sequencing of a human DNA sequence, the concerns on protein functions are increasing. Since the structures of proteins are conserved in divergent evolution, their functions are determined by their structures rather than by their amino acid sequences. Therefore, if similarities between two protein structures are observed, we could expect them to have common biological functions. So far, a lot of researches on protein structure alignment have been performed. However, most of them use RMSD(Root Mean Square Deviation) as a similarity measure with which it is hard to judge the similarity level of two protein structures intuitively. In addition, they retrieve only one result having the highest alignment score with which it is hard to satisfy various users of different purpose. To overcome these limitations, we propose a novel protein structure alignment algorithm based on MRPD(Maximum of Residue Pair Distance) and SG (Similarity Graph). MRPD is more intuitive similarity measure by which fast tittering of unpromising pairs of protein pairs is possible, and SG is a compact representation method for multiple alignment results with which users can choose the most plausible one among various users' needs by providing multiple alignment results without compromising the time to align protein structures.



