A Study of Choosing Efficient Discriminative Seeds for Oligonucleotide Design

올리고뉴클레오타이드 제작을 위해 효율적이고 차별적인 시드를 고르는 방법에 대한 고찰

  • 정원형 (경북대학교 컴퓨터공학과) ;
  • 박성배 (경북대학교 컴퓨터공학과)
  • Published : 2009.02.15

Abstract

Oligonucleotide design is known as a time-consuming work in Bioinformatics. In order to accelerate the oligonucleotide design process, one of the most widely used approaches is the prescreening unreliable regions using hashing(or seeding) method represented by BLAST. Since the seeding is originally proposed to increase the sensitivity for local alignment, the specificity should be considered as well as the sensitivity for the oligonucleotide design problem. However, a measure of evaluating the seeds regarding how adequate and efficient they are in the oligo design is not yet proposed. we propose a novel measure of evaluating the seeding algorithms based on the discriminability and the efficiency. By the proposed measure, five well-known seeding algorithms are examined. The spaced seed is recorded as the best efficient discriminative seed for oligo design.

생물정보분야에서 올리고뉴클레오타이드(oligonucleotide)를 제작하는 문제는 시간을 많이 소모하는 문제이다. 이 문제를 해결하기 위하여 해시를 이용한 가속계산이 주로 쓰이고 있고 BLAST란 프로그램이 대표적으로 생물정보분야에서 사용되고 있다. BLAST류의 프로그램들은 DNA서열의 특성에 따라 시드를 변형하여 해시를 개선하는 알고리즘을 적응하여 서열간의 유사도가 높은 부분을 찾는다. 그러나 이 프로그램들은 원래 올리고뉴클레오타이드 제작을 위해서가 아닌 지역정렬 문제를 해결하기 위한 방법들로써 발전하여 왔으므로 본 문제에 효율적인가에 대한 검증이 아직까지 이루어지지 않았다. 우리는 BLAST류의 프로그램에서 사용된 시드(seed)들이 올리고뉴클레오타이드 제작에 효과적인가를 판단할 수 있는 효율적이고 차별적인 잣대를 제시하고 이에 따라 다섯 종류의 대표적인 시드를 평가하였다. 평가에서 spaced seed라는 시드가 가장 좋은 결과를 보임을 정량적으로 계산할 수 있었다.

Keywords

References

  1. Thompson, J. D., Higgins, D.G., and Gibson, T.J."CLUSTALW: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalities and weight matrix choice," Nucleic Acids Res., 22, pp. 4673-7680, 1994. https://doi.org/10.1093/nar/22.22.4673
  2. Gusfield, D. "Algorithms on Strings, Tress, and Sequences: Computer Science and Computational Biology," Cambridge University Press, New York, NY, USA, 1997.
  3. Altschul, S.F., Gish, W., Miler, W., Meyers, E. and Lipman, D. "Basic local alignment search tool," J. Mol. Biol., 215, pp. 403-410, 1990. https://doi.org/10.1006/jmbi.1990.9999
  4. Ma, B., Tromp, J., and Li, M. "PatternHunter: faster and more sensitive homology search," Bioinformatics, 18, 3, pp. 440-445, 2002. https://doi.org/10.1093/bioinformatics/18.3.440
  5. Brown, D.G., Li, M. and Ma, B. " A TUTORIAL OF RECENT DEVELOPMENTS IN THE SEEDING OF LOCAL ALIGNMENT," J. BioInfo. Comp. Biol. 2,4, pp.819-842, 2004. https://doi.org/10.1142/S0219720004000983
  6. No'e, L. and Kucherov, G. "YASS : enhancing the sensitivy of DNA similarity search," Nucleic Acids Res., 33, 2, pp. W540-W543, 2005. https://doi.org/10.1093/nar/gki478
  7. Brejova, B., Brown, D., and Vinar, T. "Vector seeds: an extension to spaced seeds allows substantial improvements in sensitivity and specificity," In Proceedings of the 3rd International Workshop in Algorithms in Bioinformatics, pp. 39-54, 2003.
  8. Kent, W.J. "BLAT - the BLAST - like alignment tool," Genome Res., 12, pp. 656-664, 2002. https://doi.org/10.1101/gr.229202
  9. Rijsbergen, C. J. van. "Information Retrieval, second edition," Butter-worths. 1979. (http://www.dcs.gla.ac.uk/Keith/Preface.html)
  10. Pearson, W. "Searching protein sequence libraries: Comparison of the sensitivity and selectivity of the Smith-Waterman and FASTA algorithms," Genomics, 11, pp. 635-650, 1991. https://doi.org/10.1016/0888-7543(91)90071-L
  11. Markhan, N.R. and Zuker, M. "DINAMelt web server for nucleic acid melting prediction," Nucleic Acids Res., 33, pp. 635-650, 1991. https://doi.org/10.1093/nar/gki591
  12. Kane, M., Jakoe, T., Stumpf, C., Lu, J. Thomas, J., and Madore, S. "Assessment of the sensitivity and specificity of oligonucleotide (50mer) microarrays," Nucleic Acids Res., 28, pp. 4552-4557, 2000. https://doi.org/10.1093/nar/28.22.4552
  13. He, Z., Wu, L., Li, X., Fields, M. and Zhou, J. "Empirical establishment of oligonucleotide probe design criteria," Appl. Environ. Microbiol., 71, pp. 3753-3760, 2005. https://doi.org/10.1128/AEM.71.7.3753-3760.2005