DOI QR코드

DOI QR Code

A Big Data Based Random Motif Frequency Method for Analyzing Human Proteins

인간 단백질 분석을 위한 빅 데이타 기반 RMF 방법

  • 김은미 (전남대학교 전자컴퓨터공학과) ;
  • 정종철 (전남대학교 전자컴퓨터공학과) ;
  • 이배호 (전남대학교 전자컴퓨터공학부)
  • Received : 2018.10.05
  • Accepted : 2018.12.15
  • Published : 2018.12.31

Abstract

Due to the technical difficulties and high cost for obtaining 3-dimensional structure data, sequence-based approaches in proteins have not been widely acknowledged. A motif can be defined as any segments in protein or gene sequences. With this simplicity, motifs have been actively and widely used in various areas. However, the motif itself has not been studied comprehensively. The value of this study can be categorized in three fields in order to analyze the human proteins using artificial intelligence method: (1) Based on our best knowledge, this research is the first comprehensive motif analysis by analyzing motifs with all human proteins in Protein Data Bank (PDB) associated with the database of Enzyme Commission (EC) number and Structural Classification of Proteins (SCOP). (2) We deeply analyze the motif in three different categories: pattern, statistical, and functional analysis of clusters. (3) At the last and most importantly, we proposed random motif frequency(RMF) matric that can efficiently distinct the characteristics of proteins by identifying interface residues from non-interface residues and clustering protein functions based on big data while varying the size of random motif.

입체적 단백질 구조를 이용한 단백질의 분석은 3차원 데이타를 생성하기 위한 기술적인 어려움과 요구되는 높은 비용으로 인해 크게 발전하지 못하였다. 모티프(motif)는 단백질이나 유전자 염기서열의 단편(segment) 정보로 정의된다. 단순성 때문에 모티프는 다양한 분야에서 활발하고 폭넓게 응용되고 있다. 그러나 모티프 자체에 대한 포괄적인 이해와 연구는 미미하다. 이 논문이 가지는 중요성은 인공지능 기법을 활용하여 인간 단백질을 분석하는 방법으로 3가지 측면에서 찾아볼 수 있다. (1) 현재 단백질 데이타 뱅크 (PDB)에 저장된 모든 인간의 단백질 구조를, 이에 상응하는 효소위원회 (EC)의 데이타베이스와 단백질의 구조적 특성에 따른 분류 데이타베이스 (SCOP)를 연동하여, 단백질이 가지는 고유의 특성을 모티프를 응용한 새로운 방법으로 컴퓨터를 이용하여, 분석한 최초의 종합적이고 심층적인 인간 단백질의 분석법이다. (2) 본 연구는 모티프에 의해 생성된 새로운 단백질의 특성을 계층적 클러스터링을 이용하여 단백질이 가지는 고유한 특징을 패턴 분석법과 통계 그리고 단백질 기능 분석의 세 가지 범주로 단백질의 특성을 분석한다. (3) 임의로 생성된 모티프가 단백질 내에서 가지는 빈도에 대해 빅 데이타를 활용하여 모티프의 길이를 다양화시킴과 동시에 접촉 염기와 단백질의 기능을 다각도로 분석할 수 있는 임의 모티프 빈도 (RMF)를 이용한 단백질 분석 방법론을 제안한다.

Keywords

KCTSAD_2018_v13n6_1397_f0001.png 이미지

그림 1. RM 히트맵 비교(Random Motif Heatmap Comparison). (A) 서열 기반 비접촉 임의염기서열모티브 측정으로부터의 히트맵 , (B) 서열 기반 접촉 임의염기서열모티브 측정으로부터의 히트맵 (C) 위치 기반 접촉 임의염기서열모티브 측정으로부터의 히트맵

KCTSAD_2018_v13n6_1397_f0002.png 이미지

그림 2. RMF사이의 상관관계(Correlation between Random Motif Frequencies (RMF)).

KCTSAD_2018_v13n6_1397_f0003.png 이미지

그림 3. EC와 SCOP 데이타베이스로부터 식별된 클러스터의 비교.

References

  1. V. S. Rao, K. Srinivas, G. N. Sujini, and G. N. Kumar, "Protein-Protein Interaction Detection: Methods and Analysis," Int. J. of Proteomics , vol. 2014, Feb. 2014, pp. 147648.
  2. S. Xing, N. Wallmeroth, K. W. Berendzen, and C. Grefen, "Techniques for the Analysis of Protein-Protein Interactions in Vivo," Plant Physicology, vol. 171, issue 2, 2016, pp. 727-58.
  3. O. Puig, F. Caspary, G. Rigaut, B. Rutz, E. Bouveret, E. Bragado-Nilsson, M. Wilm, and B. Seraphin, "The Tandem Affinity Purification (TAP) Method : A General Procedure of Protein Complex Purification," Methods, vol. 24, issue 3, July 2001, pp. 218-229. https://doi.org/10.1006/meth.2001.1183
  4. A. Bruckner, C. Polge, N. Lentze, D. Auerbach, and U. Schlattner, "Yeast Two-Hybrid, a Powerful Tool for Systems Biology," Int. J. Mol. Sci., vol. 10, issue 6, June 2009, pp. 2763-2788. https://doi.org/10.3390/ijms10062763
  5. M. Werner, L. Wilkens, M. Aubele, M. Nolte, H. Zitzelsberger, and P. Komminoth, "Interphase cytogenetics in pathology: principles, methods, and applications of fluorescence in situ hybridization (FISH)," Histochem. Cell Biol., vol. 108, issue 4-5, 1997, pp. 381-90. https://doi.org/10.1007/s004180050179
  6. X. W. Chen and J. C. Jeong, "Sequence-based prediction of protein interaction sites with an integrative method," Bioinformatics, vol. 25, issue 5, Mar. 2009, pp. 585-591. https://doi.org/10.1093/bioinformatics/btp039
  7. T. Sun, B. Zhou, L. Lai, and J. Pei, "Sequence-based prediction of proteinprotein interaction using a deep-learning algorithm," BMC Bioinformatics, vol. 18, issue 1, May 2017, pp. 277. https://doi.org/10.1186/s12859-017-1700-2
  8. H. M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T. N. Bhat, H. Weissig, I. N. Shindyalov, and P. E. Bourne, "The Protein Data Bank," Nucleic Acids Res., vol. 28, issue 1, Jan. 2000, pp. 235-42. https://doi.org/10.1093/nar/28.1.235
  9. J. Jeong, "A New Methodology For Identifying Interface Residues Involved In Binding Protein Complexes," Master's Thesis, University of Kentucky, 2011.
  10. H. Ceong and C. Park, "Enzyme Metabolite Analysis Using Data Mining," J. of the Korea Institute of Electronic Communication Sciences, vol. 11, no. 10, Oct. 2016, pp. 969-982. https://doi.org/10.13067/JKIECS.2016.11.10.969