Abstract
Recently, among the computational methods of protein-protein interaction prediction, vast amounts of domain based methods originated from domain-domain relation consideration have been developed. However, it is true that multi domains collaboration is avowedly ignored because of computational complexity. In this paper, we implemented a protein interaction prediction system based the Interaction Significance matrix, which quantified an influence of domain combination pair on a protein interaction. Unlike conventional domain combination methods, IS matrix contains weighted domain combinations and domain combination pair power, which mean possibilities of domain collaboration and being the main body on a protein interaction. About 63% of sensitivity and 94% of specificity were measured when we use interaction data from DIP, IntAct and Pfam-A as a domain database. In addition, prediction accuracy gradually increased by growth of learning set size, The prediction software and learning data are currently available on the web site.
최근 계산을 통한 단백질 상호작용 예측 기법 중, 단백질 쌍이 포함하고 있는 도메인들 사이의 관계에 중점을 둔 도메인 정보 기반 예측 기법들이 다양하게 제안되고 있다. 하지만, 다수의 도메인 쌍들이 상호작용에 기여하는 정도를 정밀하게 반영하는 계산 기법은 드문 실정이다. 본 논문에서는 단백질 상호작용에 있어 도메인 조합 쌍의 상호작용 영향력을 수치화하여 반영한 상호작용 중요도 행렬을 고안하고 이를 기반으로 한 단백질 상호작용 예측 시스템을 구현한다. 일반적인 도메인 조합 기법과 달리, 상호작용 중요도 행렬에서는 상호작용을 위한 도메인간의 협업 확률이 고려된 Weighted 도메인 조합과, 다수의 Weighted 도메인 조합 중 실제 상호작용 주체가 될 확률을 도메인 조합 쌍의 힘(Domain Combination Pair Power, DCPPW)으로 수치화한다. DIP과 IntAct에서 얻어온 S. cerevisiae의 단백질 상호작용 데이터와 Pfam-A 도메인 정보를 사용한 정확도 검증 결과, 평균 63%의 민감도와 94%의 특이도를 확인하였으며, 학습집단의 증가에 따른 안정적인 예측 정확도 향상을 보였다. 본 논문에서 구현한 예측 시스템과 학습 데이터는 웹(http://code.google.com/p/prespi)을 통하여 내려 받을 수 있다.