Comparison of Linear Time Suffix Array Construction Algorithms

선형 시간 접미사 배열 생성 알고리즘들의 비교

  • 이성림 (서울대학교 전기·컴퓨터공학부) ;
  • 박근수 (서울대학교 전기·컴퓨터공학부)
  • Published : 2003.10.01

Abstract

접미사 배열은 긴 문자열에 대해 효율적인 문자열 검색을 가능하게 하는 자료구조이다. 접미사 배열은 문자열의 접미사들의 사전식 정렬순서를 배열로 저장한다. 비슷한 효과를 가진 접미사 트리에 비해서 접미사 배열은 저장 공간을 적게 차지하기 때문에 생명정보과학의 염기 서열 등 큰 크기의 문자열의 처리에 더욱 유리하다. 본 논문에서는 2003년에 발표된 Ko-Aluru, K$\square$rkk$\square$inen-Sanders 및 기존의 Manber-Myers 등 세 개의 접미사 배열 생성 알고리즘들의 염기 서열 입력 자료에 대한 실행 시간 및 기억 장치 사용량을 실험을 통해 비교한다. 특히 Ko-Aluru와 K$\square$rkk$\square$inen-Sanders 알고리즘은 실행 시간 및 저장 공간의 이론적인 복잡도가 O(n)으로 동일하기 때문에 실험을 통해서 계산 복잡도에 숨어있는 상수를 비교한다. 실험 결과 K$\square$rkk$\square$inen-Sanders 알고리즘이 가장 효율적임을 보인다.

Keywords