DOI QR코드

DOI QR Code

HPC 환경을 위한 워크플로우 기반의 바이오 데이터 분석 시스템

Workflow-based Bio Data Analysis System for HPC

  • 안신영 (한국전자통신연구원 클라우드컴퓨팅연구부) ;
  • 김병섭 (한국전자통신연구원 클라우드컴퓨팅연구부) ;
  • 최현화 (한국전자통신연구원 클라우드컴퓨팅연구부) ;
  • 전승협 (한국전자통신연구원 클라우드컴퓨팅연구부) ;
  • 배승조 (한국전자통신연구원 클라우드컴퓨팅연구부) ;
  • 최완 (한국전자통신연구원 클라우드컴퓨팅연구부)
  • 투고 : 2013.01.08
  • 심사 : 2013.01.23
  • 발행 : 2013.02.28

초록

인간 게놈 프로젝트의 완성 이후 유전체 분석 비용은 매우 빠르게 감소하고 있다. 이에 따라 인간 유전체 분석 요구가 급증할 것으로 예상된다. 인간 유전체 분석과 같은 대규모 바이오 데이터 분석을 고속으로 수행하기 위해서는 비IT 전문가들이 다양한 특성의 바이오 응용들을 고성능컴퓨팅 시스템을 통해 효과적으로 실행할 수 있어야 한다. 이를 위해서는 여러 응용들이 조합되어 순서를 갖고 실행되어야 하는 바이오 응용들을 워크플로우 형태로 쉽게 정의할 수 있어야 하며, 이 워크플로우를 HPC 클러스터 시스템에서 최적 자원을 할당 받아 분산 병렬 수행시켜야 한다. 이를 통해 바이오 데이터 분석 성능과 응답시간의 개선을 기대할 수 있다. 본 논문에서는 HPC 환경에 익숙하지 않은 비IT 바이오 연구자들이 쉽게 바이오 데이터 분석을 할 수 있도록 바이오 워크플로우를 쉽게 정의하고 실행할 수 있는 바이오 특화된 워크플로우 기반 대규모 데이터 분석 시스템을 제안한다.

Since human genome project finished, the cost for human genome analysis has decreased very rapidly. This results in the sharp increase of human genome data to be analyzed. As the need for fast analysis of very large bio data such as human genome increases, non IT researchers such as biologists should be able to execute fast and effectively many kinds of bio applications, which have a variety of characteristics, under HPC environment. To accomplish this purpose, a biologist need to define a sequence of bio applications as workflow easily because generally bio applications should be combined and executed in some order. This bio workflow should be executed in the form of distributed and parallel computing by allocating computing resources efficiently under HPC cluster system. Through this kind of job, we can expect better performance and fast response time of very large bio data analysis. This paper proposes a workflow-based data analysis system specialized for bio applications. Using this system, non-IT scientists and researchers can analyze very large bio data easily under HPC environment.

키워드

참고문헌

  1. J. C. Venter et al., "The Sequence of the Human Genome", Science, Vol.291 No.5507, pp.1304-1351. https://doi.org/10.1126/science.1058040
  2. NHGRI Genome Sequencing Program, http://www. genome.gov/sequencingcosts/
  3. Human Genome Project, Wikipedia, http://en.wikipedia.org/wiki/Human_Genome_Project
  4. Biology 2.0, Special report, The Economist, 2010, http://www. economist.com/node/16349358
  5. Yunku Yeu et al., "A survey of sequence alignment algorithms for next-generation sequencing read", KIISE Database Society Journal, Vol.28 No.1 pp.33-51, 2012.
  6. Simple Linux Utility for Resource Management (SLURM), https://computing.llnl.gov/linux/slurm/
  7. Oracle Grid Engine(Sun Grid Engine), http://www.oracle.com/technetwork/oem/grid-engine-166852.html
  8. TORQUE Resource Manager, http://www.adaptivecomputing. com/products/open-source/torque/
  9. P. Missie et al., "Taverna reloaded", In Proc. of SSDBM, 2010
  10. I. Altintas et al., "Kepler: An Extensible System for Design and Execution of Scientific Workflows", In Proc. of SSDBM, pp.423-424, 2004.
  11. S. Majithia et al., "Triana: A Graphical Web Service Composition and Execution Toolkit", In Proc. of ICWS, pp. 514-421, 2004.
  12. S. Hoon et al., "Biopipe: A Flexible Framework for Protocol-Based Bioinformatics Analysis", Genome Research, Vol.13, No.8, pp.1904-1915, 2003.
  13. F. Tang et al., "Widlfire: distributed, Grid-enabled construction and execution", BMC Bioinformatics, Vol.6, pp.69, 2005. https://doi.org/10.1186/1471-2105-6-69
  14. S. P. Shan et al., "Pegasys: software for executing and integrating analyses of biological sequences", BMC Bioinformatics, Vol.5, pp.40, 2004. https://doi.org/10.1186/1471-2105-5-40
  15. J. Orivs et al., "Ergatis: a web interface and scalable software system for bioinformatics workflows", Bioinformatics, Vol.26, No.12, pp.1488-1492, 2010. https://doi.org/10.1093/bioinformatics/btq167
  16. E. Bartocci et al., "BioWMS: a web-baed Workflow Management System for bioinformatics", BMC Bioinformatics, Vol.8(Suppl I), S2, 2007.
  17. T. Carver and A. Bleasby, "The design of Jemboss: a graphical user interface to EMBOSS", Bioinformatics, Vol.19, No.14, pp.1837-1842, 2003. https://doi.org/10.1093/bioinformatics/btg251
  18. C. C. Lian et al., "GEL: Grid Execution Language", Parallel and Distributed Computing, Vol.65, No.7, pp.857-869, 2005. https://doi.org/10.1016/j.jpdc.2005.03.002
  19. GPGPU, Wikipedia, http://en.wikipedia.org/wiki/GPGPU
  20. Intel MIC, Wikipedia, http://en.wikipedia.org/wiki/Intel_MIC
  21. Burrows-Wheeler Aligner, http://bio-bwa.sourceforge.net/
  22. SAMtools, http://samtools.sourceforge.net/