Abstract
BLAST (Basic Local Alignment Search Tool) is a best well-known tool in a bioinformatics area. BLAST quickly compares input sequences with annotated huge sequence databases and predicts their functions. It helps biologists to make it easy to annotate newly found sequences with reduced experimental time, scope, and cost. However, as the amount of sequences is increasing remarkably with the advance of sequencing machines, performance of BLAST has been a critical issue and tried to solve it with several alternatives. In this paper, we propose a new PC-Based Cluster system (E-Cluster), a new physical data design methodology (logical partitioning technique) and a query routing technique (intra-query routing). To verify our system, we measure response time, speedup, and efficiency for various sizes of sequences in NR (Non-Redundancy) database. Experimental result shows that proposed system has better speedup and efficiency (maximum 600%) than those o( conventional approaches such as SMF machines, clusters, and grids.
BLAST는 생명정보학 분야에서 가장 많이 사용하는 도구이다. 이 도구는 입력서열을 기존 서열 데이터베이스와 신속히 비교하고 그 기능을 예측한다. 생물학자는 BLAST를 이용하여 실험의 범위, 시간과 비용을 줄일 수 있다. 하지만, 서열 데이터 양이 급격히 증가함에 따라 그 처리 시간도 같이 증가하여 성능개선 방안이 필요하다. 본 논문에서는 대용량 BLAST처리 성능 향상을 위한 PC 기반의 클러스터 인프라 (E-Cluster)를 제시하고 이 기반에서 데이터베이스 분할기법 (Logical Partitioning)과 질의 라우팅 기법(Intra-Query)을 제안한다. 제안된 시스템을 평가하기 위해 다양한 길이의 서열들과 NR 데이터베이스와 비교하여 응답시간(Response Time), 성능 향상(Speedup), 효율(Efficiency) 관점에서 평가한다. 본 실험을 통해 기존 SMP, Cluster, 그리드 기반의 BLAST 시스템보다 성능, 효율이 뛰어남을 확인하였고, 특히 제안한 시스템의 최대 효율은 600%로 매우 높았다.