Efficient Processing of Next Generation Sequencing Reads Using Hitting Set Problem

Hitting Set 문제를 이용한 Next Generation Sequencing Read의 효율적인 처리

  • Park, Tae-Won (Dept. of Computer Science & Engineering, Pusan National University) ;
  • Kim, So-Ra (Dept. of Computer Science & Engineering, Pusan National University) ;
  • Choi, Seok-Moon (Dept. of Computer Science & Engineering, Pusan National University) ;
  • Cho, Hwan-Gue (Dept. of Computer Science & Engineering, Pusan National University) ;
  • Lee, Do-Hoon (Dept. of Computer Science & Engineering, Pusan National University)
  • 박태원 (부산대학교 컴퓨터공학과) ;
  • 김소라 (부산대학교 컴퓨터공학과) ;
  • 최석문 (부산대학교 컴퓨터공학과) ;
  • 조환규 (부산대학교 컴퓨터공학과) ;
  • 이도훈 (부산대학교 컴퓨터공학과)
  • Published : 2011.06.29

Abstract

최근에 등장한 Next Generation Sequencing(NGS)은 전통적인 방법에 비해 빠르고 저비용으로 대용량의 시퀀스 데이터를 이용한 차세대 시퀀싱 기술을 말한다. 이렇게 얻은 NGS 데이터를 분석하는 단계 중에서 alignment 단계는 시퀀서에서 얻은 대량의 read를 참조 염기서열에 맵핑하는 단계로 NGS 데이터 분석의 가장 기본이면서 핵심인 단계이다. alignment 도구는 긴 참조 염기서열을 색인화해서 짧은 read를 빠르게 맵핑하는 용도로 사용된다. 현재 많이 사용되고 있는 일반적인 alignment 도구들은 입력데이터에 대한 별도의 전처리 과정이 없으며 나열된 read를 순차적으로 맵핑하는 단순한 구조를 가지고 있다. 본 논문은 NGS 데이터의 특징 중에 특히 read간의 중복성이 존재하고 이를 이용한 read의 효율적 공통부분 서열을 찾는다. 중복이 가능한 read의 공통부분서열과 read의 관계를 그래프 이론의 Hitting Set 문제로 모델링하고 여러 read가 포함하는 공통 부분서열을 사용해서 alignment 단계의 효율을 높일 수 방법을 제안한다.

Keywords