A DNA Index Structure Using Signature by Weighted Number of Characters

가중치를 갖는 문자의 개수를 서명으로 이용한 DNA 인덱스 구조

  • Published : 2004.04.01

Abstract

우리는 대규모의 유전자 데이터베이스에서 원하는 패턴을 빠르고 정확하게 찾고 싶어한다 하지만 지금까지 나온 대부분의 검색방법들은 인덱스의 크기를 실제 데 이 터 보다 훨씬 크게 만들어 사용해왔다. 그런 방법들은 기하급수적으로 증가하고 있는 데 이 터를 처 리 하는 데는 비효율적이다. 따라서 인덱스 크기를 실제 데이터보다 작게 만들면서도 원하는 패턴을 빨리 찾을 수 있는 효율적 인 방법 이 필요하다. 이렇게 하기 위해서는 일정한 크기의 데이터를 작은 크기의 데이터로 줄인 후, 이 데이터를 이용하여 인덱스를 만들어야 한다. 이 논문에서는 일정한 크기의 문자열(=윈도우)을 작은 크기의 숫자들(=서명)로 표현해서 인덱스를 구축한 후, 이를 이용해 우리가 원하는 패턴을 최소한의 디스크 접근을 통해 빠르게 찾을 수 있는 방법을 제시한다.

Keywords