Identification of Conserved Protein Domain Combination based on Association Rule

연관성 규칙에 기반한 보존된 단백질 도베인 조합의 식별

  • 정석훈 (한국과학기술원 정보통신공학과) ;
  • 장우혁 (한국과학기술원 정보통신공학과) ;
  • 한동수 (한국과학기술원 전산학과)
  • Published : 2009.05.15

Abstract

Protein domain is the conserved unit of compact tree-dimensional structure and evolution, which carries specific function. Domains may appear in patterns in proteins, since they have been conserved through the evolution for functional formation of proteins. In this paper, we propose a formulated method for conservation analysis of domain combination based on association rule. Proposed method measures mutual dependency of domains in a combination, as well as co-occurrence frequency of them, which is conventionally used. Based on the method, we extracted conserve domain combinations in S.cerevisiae proteins and analyzed their functions based on Gene Ontology. From the results, we drew conclusions that domains in S.cerevisiae proteins form patterns whose members are highly affiliated to one another, and that extracted patterns tend to be associated with molecular function. Moreover, the results testified to proposed method superior to conventional ones for identifying domain combinations conserved for functional cooperation.

도메인은 단백질의 진화와 삼차구조 및 분자 기능의 기본 단위체이다. 단백질은 한 개 이상의 도메인들로 구정 되며, 단백질의 기능 또한 각 도메인이 가진 기능의 집합으로 구현된다. 단백질은 특정 기능을 담당하기 위해 진화되어 왔으므로, 도메인 또한 단백질 내에서 기능을 위한 특정 조합 패턴, 즉 보존도메인 조합을 가진다. 본 논문은 각 도메인 조합의 진화상 보존 정도를 측정할 수 있는 연관성 규칙 기반 계산 기법을 제안한다. 제안된 기법은 기존 기법에서 주로 고려되었던 도메인 조합의 빈도뿐 아니라, 조합 내 소속 도메인간의 상호 의존도를 측정하여 주어진 조합의 보존 정도를 산출한다. 이를 기반으로 S.cerevisiae의 단백질을 대상으로 보존 도메인 조합을 추출하였으며, Gene Ontology를 이용하여 그 생물학적 의미를 분석하였다. 그 결과 제안된 기법으로 추출된 보존 도메인 조합은 기존의 것에 비해 조합 내 기능의 유사도가 높았으며, 따라서 제안된 기법이 생물학적 기능의 협업 위해 보존된 도메인 조합의 추출에 우수하다 할 것이다. 또한 S.cerevisiae 단백질체에는 서로 의존도가 높고 자주 나타나는 보존 도메인 조합이 존재하며, 그러한 조합들은 molecular function의 협업과 관련 있음을 밝혀냈다.

Keywords

References

  1. Apic G., Gough J. and Teichmann S. “Domain combinations in archaeal, eubacterial and euka-ryolic proteomes,” J. Mol. Biol., Vol.310, pp. 311-325, 2001 https://doi.org/10.1006/jmbi.2001.4776
  2. Jacob, F., Evolution and Tinkering, Sci., Vol. 196 pp. 1161-1166, 1977 https://doi.org/10.1126/science.860134
  3. Achila D, Banci L, Bertini I, Bunce J, Ciofi-Baffoni S, HuffmanDL, “Structure of human Wilson protein domains 5 and 6 and theirinterplay with domain 4 and the copper chaperone HAH1 in copperuptake,” Proc. Natl. Acad. Sci. U S A, Vol. 103(15): pp. 5729-5734, 2006 https://doi.org/10.1073/pnas.0504472103
  4. E. R. Omiecinski, “Alternative interest measures for mining associations in databases,” Vol.15, No.1, pp. 57-69, 2003 https://doi.org/10.1109/TKDE.2003.1161582
  5. Consortium, T. G. O., “Gene ontology: tool for the unification of biology,” Nature Genet., 25, pp. 25-29. 2000 https://doi.org/10.1038/75556
  6. F. Couto, M. Silva, and P. Coutinho. “Implementation of a functional semantic similarity measure between gene products,” Department of Informatics, pp. 3-29, 2003
  7. http://au.expasy.org/sprot/