DOI QR코드

DOI QR Code

Prediction of protein binding regions in RNA using random forest

Random forest를 이용한 RNA에서의 단백질 결합 영역 예측

  • Choi, Daesik (Dept. of Computer Engineering, Inha University) ;
  • Park, Byungkyu (Dept. of Computer Engineering, Inha University) ;
  • Chae, Hanju (Dept. of Computer Engineering, Inha University) ;
  • Lee, Wook (Dept. of Computer Engineering, Inha University) ;
  • Han, Kyungsook (Dept. of Computer Engineering, Inha University)
  • 최대식 (인하대학교 컴퓨터공학과) ;
  • 박병규 (인하대학교 컴퓨터공학과) ;
  • 채한주 (인하대학교 컴퓨터공학과) ;
  • 이욱 (인하대학교 컴퓨터공학과) ;
  • 한경숙 (인하대학교 컴퓨터공학과)
  • Published : 2016.10.27

Abstract

단백질과 RNA의 상호작용 데이터가 대량으로 늘어남에 따라, 단백질과 RNA의 결합부위를 예측하는 계산학적인 방법들이 많이 개발되고 있다. 하지만, 많은 계산학적인 방법들은 단백질에서 단백질과 RNA 결합부위를 예측한다는 한계점이 있었다. 본 논문에서는 RNA와 단백질의 서열정보를 모두 사용하여, 단백질과 결합하는 RNA 결합부위를 예측하는 기법과 그 결과를 논한다. WEKA random forest(http://www.cs.waikato.ac.nz/ml/weka/)를 이용하여 예측 모델을 개발하였고, RNA 서열의 서열 프로파일, 서열 composition, 결합 상대방의 단백질의 특성 등을 특정으로 표현하였다. Random forest 기법을 사용한 cross validation의 결과로서 1:1 모델에서 제일 높은 성능인 92.4% sensitivity, 92.0% specificity, 92.2% accuracy를 보였고, independent test에서는 72.5% sensitivity, 90.0% specificity, 2.1% accuracy를 보였다.

Keywords

Acknowledgement

Supported by : 한국연구재단