Analysis for microRNA sequences by the position-weight-matrix mixture model

위치 점수 행렬 혼합 모델을 이용한 microRNA 서열 특성 분석

  • Rhee Je-Keun (Graduate Program in Bioinformatics, Seoul National University) ;
  • Zhang Byoung-Tak (Graduate Program in Bioinformatics, Seoul National University)
  • 이제근 (서울대학교 생물정보학협동과정) ;
  • 장병탁 (서울대학교 생물정보학협동과정)
  • Published : 2006.06.01

Abstract

특정한 기능을 하는 DNA 조각은 특정한 염기 서열들을 가진다. 이를 이용하여 특정 조각의 DNA 서열을 위치 점수 행렬을 이용하여 표현할 수 있다. 하지만 찾고자 하는 DNA 부분들이 완전히 밝혀진 것이 아닐 수 있다. 따라서 현재 밝혀진 정보만을 이용하여 위치 점수 행렬을 만들 경우, 실제 서얼 패턴이 아닌 편중된 정보가 얻어질 수 있다. 따라서 본 논문에서는 위치 점수 행렬의 혼합 모델을 이용하여, 각각의 특정 군집들을 대표할 수 있는 행렬들을 구분하여 구성하였다. 본 논문에서는 약 22개의 염기로 구성된 microRNA 서열 중, 초반부의 8개의 염기 서열정보를 이용하여, 이들 위치의 서열상의 특성을 확인해 보고자 하였다. miRNA 서열을 대표하기 위한 위치 점수 행렬들은 구분하여 만들고, EM 알고리즘을 이용하여 학습한다. 학습 결과 얻어진 혼합 모델과 은닉 변수를 통해 microRNA들을 군집화하고, 각각의 군집에 속한 microRNA 서열의 특성을 확인한다.

Keywords