DOI QR코드

DOI QR Code

A parallel SNP detection algorithm for RNA-Seq data

RNA 시퀀싱 데이터를 이용한 병렬 SNP 추출 알고리즘

  • Kim, Deok-Keun (Dept of Computer Engineering, Hallym University) ;
  • Lee, Deok-Hae (Dept of Computer Engineering, Hallym University) ;
  • Kong, Jin-Hwa (Dept of Computer Engineering, Hallym University) ;
  • Lee, Un-Joo (Dept of Electronic Engineering, Hallym University) ;
  • Yoon, Jee-Hee (Dept of Computer Engineering, Hallym University)
  • 김덕근 (한림대학교 컴퓨터공학과) ;
  • 이덕해 (한림대학교 컴퓨터공학과) ;
  • 공진화 (한림대학교 컴퓨터공학과) ;
  • 이은주 (한림대학교 전자공학과) ;
  • 윤지희 (한림대학교 컴퓨터공학과)
  • Published : 2011.04.30

Abstract

최근 차세대 시퀀싱 (Next Generation Sequencing, NGS) 기술이 발전하면서 DNA, RNA 등의 시퀀싱 데이터를 이용한 유전체 분석 방식에 관한 연구가 활발히 이루어지고 있다. 차세대 시퀀싱 데이터를 이용한 유전체 분석 방식은 마이크로어레이 혹은 EST/cDNA 데이터를 이용한 기존의 분석 방식에 비하여 비용이 적게 들고 정확한 결과를 얻을 수 있다는 장점이 있다. 그러나 이 들 DNA, RNA 시퀀싱 데이터는 각 시퀀스의 길이가 짧고 전체 용량은 매우 커서 이 들 데이터로부터 정확한 분석 결과를 추출하는 데에 많은 어려움이 있다. 본 연구에서는 클라우드 컴퓨팅 기술을 기반으로 하여 대용량의 RNA 시퀀싱 데이터를 고속으로 처리하는 병렬 SNP 추출 알고리즘을 제안한다. 전체 게놈 데이터 중 유전자 영역만을 high coverage로 시퀀싱하여 얻어지는 RNA 시퀀싱 데이터는 유전자 변이 추출을 목적으로 분석되며, SNP(Single Nucleotide Polymorphism)와 같은 유전자 변이는 질병의 원인 규명 및 치료법 개발에 직접 이용된다. 제안된 알고리즘은 동시에 실행되는 다수의 Map/Reduce 함수에 의해서 대규모 RNA 시퀀스를 병렬로 처리하며, 레퍼런스 시퀀스에 매핑된 각 염기의 출현 빈도와 품질점수를 이용하여 SNP를 추출한다. 또한 이 들 SNP 추출 결과에 대한 시각적 분석 도구를 제공하여 SNP 추출 과정 및 근거를 시각적으로 확인/검증할 수 있도록 지원한다.

Keywords