De novo assembly of a large volume of genome using NGS data

NGS 데이터를 이용한 대용량 게놈의 디노버 어셈블리

  • Won, Jung-Im (Research Institute of Electrical and Computer Engineering, Hanyang University) ;
  • Hong, Sang-Kyoon (Department of Computer Engineering, Hallym University) ;
  • Kong, Jin-Hwa (Department of Computer Engineering, Hallym University) ;
  • Huh, Sun (Department of Parasitology, College of Medicine, Hallym University) ;
  • Yoon, Jee-Hee (Department of Computer Engineering, Hallym University)
  • 원정임 (한양대학교 전기정보통신기술연구소) ;
  • 홍상균 (한림대학교 컴퓨터공학부) ;
  • 공진화 (한림대학교 컴퓨터공학부) ;
  • 허선 (한림대학교 의과대학) ;
  • 윤지희 (한림대학교 컴퓨터공학부)
  • Published : 2012.06.22

Abstract

디노버 어셈블리는 레퍼런스 시퀀스 없이 리드의 염기 서열 정보를 이용하여 원래의 전체 시퀀스(original sequence)로 추정되는 시퀀스로 리드들을 재구성하는 방식이다. 최근의 NGS(Next Generation Sequencing) 기술은 대용량 리드를 훨씬 쉽게 저비용으로 생성할 수 있다는 장점이 있어, 이를 이용한 많은 연구가 이루어지고 있다. 그러나 NGS 리드 데이터를 이용한 디노버 어셈블리에 관한 연구는 국내외적으로 매우 미흡한 실정이다. 그 이유는 NGS 리드 데이터를 이용하여 디노버 어셈블리를 수행하는 경우 대용량 데이터, 복잡한 데이터 구조 및 처리 과정 등으로 인하여 매우 많은 시간과 공간이 소요될 뿐만 아니라 아직까지 다양한 분석 툴과 노하우 등이 충분히 개발되어 있지 않기 때문이다. 본 연구에서는 NGS 리드 데이터를 이용한 어셈블리의 실효성과 정확성을 검증한다. 또한 디노버 어셈블리의 처리 시간 및 공간 오버헤드를 해결하기 위하여 유사 종과의 리드 정렬을 활용하는 방안을 제안한다.

Keywords

Acknowledgement

Supported by : 한국연구재단