• Title/Summary/Keyword: DNA 시퀀스

Search Result 36, Processing Time 0.02 seconds

An Efficient Index Structure for DNA Sequence Retrieval (DNA 시퀀스 검색을 위한 효율적인 인덱스 기법)

  • Hong, Sang-Kyoon;Won, Jung-Im;Yoon, Jee-Hee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10c
    • /
    • pp.118-123
    • /
    • 2006
  • DNA 시퀀스 데이터베이스 규모의 급격한 증가 추세를 고려할 때, DNA 시퀀스 검색 연산을 보다 효과적으로 지원할 수 있는 인덱싱 및 질의 처리 기술이 요구 된다. 접미어 트리는 DNA 시퀀스 검색을 위한 좋은 인덱스 구조로 알려져 왔다. 그러나 접미어 트리는 그 구조적 특성으로 인하여 저장공간, 검색 성능, DBMS와의 통합 등의 문제점을 갖는다. 본 논문에서는 이와 같은 접미어 트리의 문제점들을 해결하는 DNA 시퀀스 검색을 위한 새로운 인덱스 구조를 제안하고, 이를 기반으로 하는 효율적인 질의 처리 방식을 제안한다. 제안된 인덱스 기법은 이진 트라이를 기본 구조로 채택하며 DNA 시퀀스의 윈도우 서브 시퀀스를 인덱싱 대상으로 한다. 유사 서브 시퀀스 검색을 위한 질의 처리 알고리즘은 기본적으로 다이나믹 프로그래밍 기법에 근거하여 이진 트라이를 루트로부터 너비 우선(breadth-first) 방식으로 운행하며, 경로 상에 존재하는 모든 유사 서브 시퀀스를 검색해 낸다. 제안된 기법의 우수성을 검증하기 위하여, 기존의 접미어 트리와의 비교 실험을 통한 성능 평가를 수행하였다. 실험 결과에 의하면, 제안된 인덱스 기법은 접미어 트리에 비하여 약 30%의 작은 저장 공간을 가지고도 수배에서 수십배의 검색 성능의 개선 효과를 나타낸다.

  • PDF

Efficient Indexing for Large DNA Sequence Databases (대용량 DNA 시퀀스 데이타베이스를 위한 효율적인 인덱싱)

  • Won Jung-Im;Yoon Jee-Hee;Park Sang-Hyun;Kim Sang-Wook
    • Journal of KIISE:Databases
    • /
    • v.31 no.6
    • /
    • pp.650-663
    • /
    • 2004
  • In molecular biology, DNA sequence searching is one of the most crucial operations. Since DNA databases contain a huge volume of sequences, a fast indexing mechanism is essential for efficient processing of DNA sequence searches. In this paper, we first identify the problems of the suffix tree in aspects of the storage overhead, search performance, and integration with DBMSs. Then, we propose a new index structure that solves those problems. The proposed index consists of two parts: the primary part represents the trie as bit strings without any pointers, and the secondary part helps fast accesses of the leaf nodes of the trio that need to be accessed for post processing. We also suggest an efficient algorithm based on that index for DNA sequence searching. To verify the superiority of the proposed approach, we conducted a performance evaluation via a series of experiments. The results revealed that the proposed approach, which requires smaller storage space, achieves 13 to 29 times performance improvement over the suffix tree.

A Practical Approximate Sub-Sequence Search Method for DNA Sequence Databases (DNA 시퀀스 데이타베이스를 위한 실용적인 유사 서브 시퀀스 검색 기법)

  • Won, Jung-Im;Hong, Sang-Kyoon;Yoon, Jee-Hee;Park, Sang-Hyun;Kim, Sang-Wook
    • Journal of KIISE:Databases
    • /
    • v.34 no.2
    • /
    • pp.119-132
    • /
    • 2007
  • In molecular biology, approximate subsequence search is one of the most important operations. In this paper, we propose an accurate and efficient method for approximate subsequence search in large DNA databases. The proposed method basically adopts a binary trie as its primary structure and stores all the window subsequences extracted from a DNA sequence. For approximate subsequence search, it traverses the binary trie in a breadth-first fashion and retrieves all the matched subsequences from the traversed path within the trie by a dynamic programming technique. However, the proposed method stores only window subsequences of the pre-determined length, and thus suffers from large post-processing time in case of long query sequences. To overcome this problem, we divide a query sequence into shorter pieces, perform searching for those subsequences, and then merge their results. To verify the superiority of the proposed method, we conducted performance evaluation via a series of experiments. The results reveal that the proposed method, which requires smaller storage space, achieves 4 to 17 times improvement in performance over the suffix tree based method. Even when the length of a query sequence is large, our method is more than an order of magnitude faster than the suffix tree based method and the Smith-Waterman algorithm.

A Storage-Efficient Trie Indexing Method . for DNA Sequence Databases (DNA시퀀스 데이터베이스를 위한 저장-효율적인 Trie 인덱싱 기법)

  • 김강모;서남호;원정임;윤지희;박상현;김상욱
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.31-33
    • /
    • 2004
  • 대규모 DNA 시퀀스를 대상으로 하여 서브시퀀스를 고속으로 검색하기 위한 인덱싱 방법으로서 접미어 트리가 유용하다. 그러나 접미어 트리는 데이터 크기의 약 100배에 해당하는 방대한 저장 공간을 필요로 한파. 본 논문에서는 기존 접미어 트리의 검색 성능을 유지하며, 저장 공간을 획기적으로 감소시킬 수 있는 새로운 인덱스 구조를 제안한다. 제안된 인덱싱 방안에서는 DNA 시퀀스 내의 모든 염기 위치에 고정 길이의 슬라이딩 윈도우를 위치시켜, 윈도우 크기에 해당하는 연속된 서브시퀀스를 추출한 후, 이들을 대상으로 트라이를 구성한다. 트라이는 저장 공간 감소를 위하여 각 문자를 최소 비트 정보로 표현하며, 저장 구조로서 포인터를 사용하지 않는 디스크 기반의 이진 트라이 구조를 사용한다. DNA 서브시퀀스 검색을 효율적으로 처리하기 위한 인덱스 기반의 질의 처리 알고리즘을 제안하고 실험을 통하여 그 유용성을 보인다. 제안된 인덱스는 접미어 트리의 약 10분의 1의 저장 공간을 필요로 하며, 데이터 크기 증가에 거의 영향을 받지 않는 안정된 고속 검색 성능을 지원한다.

  • PDF

Experimental Analysis of Recent Works on the Overlap Phase of De Novo Sequence Assembly (De novo 시퀀스 어셈블리의 overlap 단계의 최근 연구 실험 분석)

  • Lim, Jihyuk;Kim, Sun;Park, Kunsoo
    • Journal of KIISE
    • /
    • v.45 no.3
    • /
    • pp.200-210
    • /
    • 2018
  • Given a set of DNA read sequences, de novo sequence assembly reconstructs a target sequence without a reference sequence. For reconstruction, the assembly needs the overlap phase, which computes all overlaps between every pair of reads. Since the overlap phase is the most time-consuming part of the whole assembly, the performance of the assembly depends on that of the overlap phase. There have been extensive studies on the overlap phase in various fields. Among them, three state-of-the-art results for the overlap phase are Readjoiner, SOF, and Lim-Park algorithm. Recently, a rapid development of sequencing technology has made it possible to produce a large read dataset at a low cost, and many platforms for generating a DNA read dataset have been developed. Since the platforms produce datasets with different statistical characteristics, a performance evaluation for the overlap phase should consider datasets with these characteristics. In this paper, we compare and analyze the performances of the three algorithms with various large datasets.

DNA Sequence Searching Using a Trie Index (트라이 인덱스를 이용한 DNA 시퀀스 검색)

  • 원정임;박용일;윤지희;박상현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.4-6
    • /
    • 2003
  • 본 논문에서는 대규모 DNA 시퀀스를 위한 트라이 인덱싱 기법을 기반으로 하는 효율적인 부분 시퀀스 검색 기법을 제시한다. 제안된 인덱싱 방안에서는 저장 공간 감소를 위하여 시퀀스의 각 문자를 최소 비트 정보로 표현하며, 저장 구조로서 포인터를 사용하지 않는 디스크 기반의 이진 접미어 트라이 구조를 사용한다. 질의 처리 방안에서는 포인터가 없는 이진 트라이 구조 상에서 질의 시퀀스를 검색하기 위하여 이진 정보 기반의 연산과정을 필요로 하며, 또한 단말 정보를 효율적으로 검색하기 위하여 별도의 단말정보 테이블과 인덱스 구조를 사용한다. 실험 결과에 의하면 제안된 방식은 기존의 접미어 트리 인덱싱 방식에 비하여 약 30~50%의 저장 공간 감소 효과를 가질 뿐 아니라, 평균 질의 처리 시간에 있어 약 20배까지의 성능 개선 효과를 갖는 것으로 나타났다.

  • PDF

Simulation of DNA/DNA Hybridization Chain Reaction Using Thermodynamic Data (열역학적 데이터에 기반한 DNA/DNA 연쇄 결합 반응 시뮬레이션)

  • 장하영;신수용;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.772-774
    • /
    • 2003
  • DNA/DNA의 연쇄 결합 반응에 대한 시뮬레이션을 열역학적 데이터를 이용하여 구현하였다. 1-Base의 non Watson-Crick 결합과, dangling end(결합이 이루어진 두개의 DNA strand 중 한쪽 끝이 다른 쪽 끝보다 길거나 짧은 경우)를 허용하는 nearest-neighbor model을 사용하여 구현된 이 모델에서는 한번의 hybridization만을 예측하는 것이 아니라 연속적인 결합 반응의 시뮬레이션이 가능하다. 이를 통해서 분자 알고리즘의 설계와 검증이 가능할 뿐만 아니라, cross-homology의 검사를 통한 시퀀스의 검증까지도 가능하다. 이러한 in silico 에서의 접근 방식은 효율적인 분자 알고리즘의 개발과 신뢰성 있는 시퀀스의 설계에 도움이 될 수 있다.

  • PDF

Robust DNA Watermarking based on Coding DNA Sequence (부호 영역 DNA 시퀀스 기반 강인한 DNA 워터마킹)

  • Lee, Suk-Hwan;Kwon, Seong-Geun;Kwon, Ki-Ryong
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.49 no.2
    • /
    • pp.123-133
    • /
    • 2012
  • This paper discuss about DNA watermarking using coding DNA sequence (CDS) for the authentication, the privacy protection, or the prevention of illegal copy and mutation of DNA sequence and propose a DNA watermarking scheme with the mutation robustness and the animo acid preservation. The proposed scheme selects a number of codons at the regular singularity in coding regions for the embedding target and embeds the watermark for watermarked codons and original codons to be transcribed to the same amino acids. DNA base sequence is the string of 4 characters, {A,G,C,T} ({A,G,C,U} in RNA). We design the codon coding table suitable to watermarking signal processing and transform the codon sequence to integer numerical sequence by this table and re-transform this sequence to floating numerical sequence of circular angle. A codon consists of a consecutive of three bases and 64 codons are transcribed to one from 20 amino acids. We substitute the angle of selected codon to one among the angle range with the same animo acid, which is determined by the watermark bit and the angle difference of adjacent codons. From in silico experiment by using HEXA and ANG sequences, we verified that the proposed scheme is more robust to silent and missense mutations than the conventional scheme and preserve the amino acids of the watermarked codons.

An Efficient Suffix Trie Index Structure for Genomic Databases (유전체 데이터베이스를 위한 효율적인 접미어 트라이 인덱스 구조)

  • Park, Jin-Man;Won, Jung-Im;Yoon, Jee-Hee;Park, Sang-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05c
    • /
    • pp.1583-1586
    • /
    • 2003
  • DNA 시퀀스는 A, C, G, T 네 개의 문자로 구성된 매우 긴 시퀀스로 볼 수 있다. 고속으로 유사 DNA 시퀀스를 검색하기 위하여 인덱싱 기술을 이용하는 것이 일반적이다. 그러나 검색 대상의 유전체 데이터베이스는 그 크기가 매우 크며, 또한 지수 함수적으로 크기가 급속히 증가하고 있으므로, 기존의 인덱싱 기법을 그대로 적용할 경우, 실용성에 한계가 있다. 본 논문에서는 이와 같은 문제점을 해결할 수 있는 대규모 유전체 데이터베이스를 위한 효율적인 인덱싱 기법과 질의처리 기법을 제안한다. 기본 구조로서 접미어 트라이를 사용하며, 접미어 트리 인덱스 구조의 최대 단점인 인덱스 크기를 줄일 수 있는 데이터 압축 표현 방식을 제안한다. 또한 제안된 데이터 압축 표현 방식의 디스크 기반 인덱스 구성 알고리즘과 이를 활용한 부분 시퀀스 검색 알고리즘을 보이고, 그 저장 성능의 비교 평가결과를 보인다.

  • PDF

Implementation of Parallel Local Alignment Method for DNA Sequence using Apache Spark (Apache Spark을 이용한 병렬 DNA 시퀀스 지역 정렬 기법 구현)

  • Kim, Bosung;Kim, Jinsu;Choi, Dojin;Kim, Sangsoo;Song, Seokil
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.10
    • /
    • pp.608-616
    • /
    • 2016
  • The Smith-Watrman (SW) algorithm is a local alignment algorithm which is one of important operations in DNA sequence analysis. The SW algorithm finds the optimal local alignment with respect to the scoring system being used, but it has a problem to demand long execution time. To solve the problem of SW, some methods to perform SW in distributed and parallel manner have been proposed. The ADAM which is a distributed and parallel processing framework for DNA sequence has parallel SW. However, the parallel SW of the ADAM does not consider that the SW is a dynamic programming method, so the parallel SW of the ADAM has the limit of its performance. In this paper, we propose a method to enhance the parallel SW of ADAM. The proposed parallel SW (PSW) is performed in two phases. In the first phase, the PSW splits a DNA sequence into the number of partitions and assigns them to multiple nodes. Then, the original Smith-Waterman algorithm is performed in parallel at each node. In the second phase, the PSW estimates the portion of data sequence that should be recalculated, and the recalculation is performed on the portions in parallel at each node. In the experiment, we compare the proposed PSW to the parallel SW of the ADAM to show the superiority of the PSW.