microRNA target prediction when negative data is not available for learning

학습을 위한 네거티브 데이터가 존재하지 않는 경우의 microRNA 타겟 예측 방법

  • Rhee, Je-Keun (Graduate program in Bioinformatics, Seoul National University) ;
  • Kim, Soo-Jin (Graduate program in Bioinformatics, Seoul National University) ;
  • Zhang, Byoung-Tak (Center for Bioinformation Technology (CBIT), Seoul National University)
  • 이제근 (서울대학교 생물정보학 협동과정) ;
  • 김수진 (서울대학교 생물정보학 협동과정) ;
  • 장병탁 (서울대학교 바이오정보기술 연구센터 (CBIT))
  • Published : 2008.06.30

Abstract

기존의 알려진 데이터에 기반하여 분류 알고리즘을 통해 새로운 생물학적인 사실을 예측하는 것은 생물학 연구에 매우 유용하다. 하지만 생물학 데이터 분류 문제에서 positive 데이터만 존재할 뿐, negative 데이터는 존재하지 않는 경우가 많다. 이와 같은 상황에서는 많은 경우에 임의로 negative data를 구성하여 사용하게 된다. 하지만, negative 데이터는 실제로 negative임이 보장된 것이 아니고, 임의로 생성된 데이터의 특성에 따라 분류 성능 및 모델의 특성에 많은 차이를 보일 수 있다. 따라서 본 논문에서는 단일 클래스 분류 알고리즘 중 하나인 support vector data description(SVDD) 방법을 이용하여 실제 microRNA target 예측 문제에서 positive 데이터만을 이용하여 학습하고 분류를 수행하였다. 이를 통해 일반적인 이진 분류 방법에 비해 이와 같은 방법이 실제 생물학 문제에 보다 적합하게 적용될 수 있음을 확인한다.

Keywords