• 제목/요약/키워드: DNA 서열

검색결과 1,836건 처리시간 0.024초

DNA 서열을 위한 빠른 매칭 기법 (Fast Matching Method for DNA Sequences)

  • 김진욱;김은상;안융기;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제36권4호
    • /
    • pp.231-238
    • /
    • 2009
  • DNA 서열은 각 종을 나타내는 근본적인 정보이며, 다른 종 간의 DNA 서열 비교는 중요한 작업이다. DNA 서열은 길이가 매우 길며 또 종의 종류도 다양하기 때문에, DNA 서열 비교에서는 빠른 매칭 뿐만 아니라 효율적인 저장도 중요한 요소이다. 즉, 인코딩 된 DNA 서열에 적합한 빠른 문자열 매칭 방법이 필요하다. 본 논문에서는 매칭 시 디코딩이 필요하지 않은 인코딩 된 DNA 서열을 위한 빠른 매칭 알고리즘을 제시한다. 제시하는 알고리즘은 네 문자 한 바이트 인코딩을 이용하며 서픽스 기법과 다중 패턴 매칭 기법을 접목하고 있다. 실험 결과로는 본 논문에서 제시하는 방법이 AGREP보다 약 다섯배 빠름을 보이는데, 이는 알려진 알고리즘들 중에서 가장 빠른 결과이다.

품질 정보와 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘 (A DNA Sequence Alignment Algorithm Using Quality Information and a Fuzzy Inference Method)

  • 김광백
    • 지능정보연구
    • /
    • 제13권2호
    • /
    • pp.55-68
    • /
    • 2007
  • 분자 생물학(computational molecular biology) 분야에서 DNA 염기 서열 배치 알고리즘은 다양한 방법으로 개선되어 왔다. 본 논문에서는 기존의 DNA 염기의 품질 정보(quality information)를 이용한 DNA 염기 서열 배치 방법을 개선하기 위하여 퍼지 논리 시스템(fuzzy logic system)과 DNA 염기 서열 단편의 특징을 적용한 품질 정보와 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘을 제안한다. 기존의 알고리즘은 Needleman-Wunsch가 제안한 전역 배치 알고리즘에 각 DNA 염기의 품질 정보를 적용하여 DNA 염기 서열 배치 점수를 계산하였다. 그러나 전체 DNA 염기의 품질 정보를 이용하여 계산하기 때문에 DNA 염기 말단 부분의 품질이 낮은 경우에는 DNA 염기 서열 배치 점수를 계산하는 과정에서 오차가 발생한다. 본 논문에서는 기존의 품질 정보를 이용한 알고리즘을 개선하여 DNA 염기 서열의 말단 부위의 품질이 낮은 경우에도 정확히 서열을 배치할 수 있도록 한다. 또한 DNA 염기 서열 단편의 길이와 낮은 품질의 DNA 염기 빈도를 퍼지 논리 시스템에 적용하여 DNA 염기 서열 배치 점수를 계산하는데 적용되는 매핑 점수 인자(parameter)를 동적으로 조정한다. 제안된 알고리즘의 성능 평가를 위해 NCBI(National Center for Biotechnology Information)의 실체 유전체 데이터를 받아 성능을 분석한 결과, 제안된 알고리즘이 기존의 품질 정보만을 이용한 알고리즘 보다 DNA 염기 서열 배치에 있어서 효율적임을 확인하였다.

  • PDF

유전 알고리즘을 이용한 DNA Microarray의 Probe 선택 (Probe Selection of DNA Microarrays Using Genetic Algorithms)

  • 김선;장병탁
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 춘계학술대회 및 임시총회
    • /
    • pp.183-187
    • /
    • 2002
  • DNA microarray는 분자생물학 및 DNA 컴퓨팅 분야에 널리 사용되고 있는 실험 도구이다. DNA microarray를 이용하는 한 예는 알려진 유전자 집합을 바탕으로 하여 hybridization을 통해 새로운 DNA 서열을 분석하는 것이다. 이를 위한 가장 간단한 방법은 알려진 유전자의 모든 서열을 DNA microarray 상에 올려놓는 것이지만 이는 결과의 정확도 및 칩 제작비용 면에서 비효율적이다. 따라서 일반적으로는 유전자 서열 정보를 파악한 후 일련의 DNA 서열을 선택하는 probe 디자인 과정을 거친다. 그러나 현재 유전자 서열을 바탕으로 최적의 probe 집합을 찾는 결정적인 방법이 존재하고 있지 않다. 이에 본 논문은 oligo DNA microarray을 이용한 DNA 서열 분석 문제에 있어서 가능한 많은 유전자를 인식하면서 최소의 probe 개수를 갖는 집합을 찾는 방법을 제안한다. 제시된 방법은 가능한 probe 집합들로 해집합을 구성한 후, 유전알고리즘을 이용한 진화 과정을 통해 목적하는 probe 집합을 찾는다. 본 논문에서는 GenBank로부터 얻은 일련의 유전자 집합을 대상으로 실험하였으며 그 결과를 분석하였다.

  • PDF

분자 컴퓨팅을 위한 효율적인 DNA 서열 생성 시스템 (Effective Sequence Generation for Molecular Computing)

  • 김동민;신수용;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.73-75
    • /
    • 2001
  • 최근 DNA 분자의 병렬성을 이용한 DNA 컴퓨팅 기법들이 활발히 개발되고 있다. 그러나, DNA 컴퓨팅은 실제 생체 분자인 DNA를 사용하기 때문에 생체분자의 화학적 성질에 의한 오류의 가능성을 항상 내포하고 있다. 이러한 문제를 극복하고자 오류의 가능성을 최소화시키는 방법들이 연구되고 있고, 특히 DNA 서열을 만들 때 오류의 가능성을 최소화시키는 방법들이 많이 연구되고 있다. 본 논문에는 현재 개발하고 있는 시스템인 NACST를 간단히 소개한 후, DNA 컴퓨팅에 사용할 DNA 서열을 생성하기 위해서 유전자 알고리즘을 사용하는 방법을 제안하며, 유전자 알고리즘을 이용하여 DNA 서열을 효율적으로 생성하기 위한 적합도 함수들에 대해서 구체적으로 살펴보았다.

  • PDF

DNA 컴퓨팅과 진화 모델을 이용하여 Traveling Salesman Problem를 해결하기 위한 DNA 서열 생성 알고리즘 (A DNA Sequence Generation Algorithm for Traveling Salesman Problem using DNA Computing with Evolution Model)

  • 김은경;이상용
    • 한국지능시스템학회논문지
    • /
    • 제16권2호
    • /
    • pp.222-227
    • /
    • 2006
  • 현재 막대한 병렬성을 갖는 DNA 컴퓨팅을 이용하여 Traveling Salesman Problem (TSP)를 해결하기 위한 연구가 진행되고 있다. 하지만 기존의 방법은 그래프 문제의 표현에서 DNA의 특성을 고려하지 않아, 실제 생물학적 실험 결과와의 차이가 발생하고 있다. 따라서 DNA의 특성을 반영하고 생물학적 실험 오류를 줄일 수 있는 DNA 서열 생성 알고리즘이 필요하다. 본 논문에서는 DNA 컴퓨팅에 진화 모델의 하나인 DNA 코딩 방법을 적용한 DNA 서열 생성 알고리즘을 제안한다. 제안한 알고리즘은 TSP에 적용하여 기존에 단순 유전자 알고리즘과 비교하였다. 그 결과 제안한 알고리즘은 오류를 최소화한 우수한 서열을 생성하고 생물학적 실험 오류율도 줄일 수 있었다.

대용량 DNA서열 처리를 위한 서픽스 트리 생성 알고리즘의 개발 (Suffix Tree Constructing Algorithm for Large DNA Sequences Analysis)

  • 최해원
    • 한국산업정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.37-46
    • /
    • 2010
  • 서픽스 트리는 데이터의 내부구조를 자세히 나타내고 선형시간 탐색이 가능한 효과적인 자료구조로서 DNA 서열분석 등에 유용하다. 그러나 서열을 서픽스 트리로 구축하는 경우 트리의 크기가 원본의 최소 30배 이상으로 커지므로 테라바이트(TB)급의 대용량 DNA 서열의 경우에 메모리상의 응용은 매우 어려운 문제점이 있다. 이에 본 논문에서는 디스크를 이용한 대용량 DNA의 서픽스 트리 응용기법을 제시한다. 이때 DNA 서열구조를 고려한 서픽스 트리 선형 탐색 특성 유지를 보장한다. 이를 검증하기 위하여 9G Byte의 유전자 단편 서열을 이용해 424G Byte의 서픽스 트리를 디스크에 구축한 다음, 임의의 질의 서열에 대해 KMP알고리즘과 비교한 결과 질의 응답시간에서 우수한 성능을 보였다.

개선된 다이나믹 프로그래밍과 품질 정보 및 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘

  • Lee, Seung-Hwan;Park, Choong-Shik;Kim, Kwang-Baek
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 한국지능정보시스템학회
    • /
    • pp.341-350
    • /
    • 2007
  • DNA 염기 서열 배치 알고리즘은 분자 생물학 분야에서 단백질과 핵산 서열들의 분석에서 중요한 방법이다. 생물학적인 염기 서열들은 그들 사이의 유사성과 차이점을 나타내기 위해 정렬된다. 본 논문에서는 기존의 DNA 염기 서열 배치 방법을 개선하기 위하여 DP(Dynamic Programming) 알고리즘의 비용증가( O (nm) ) 문제를 해결하는 Quadrant 방법과 품질 정보 및 퍼지 추론시스템(fuzzy inference system)을 적용한 DNA 염기 서열 배치 알고리즘을 제안한다. 본 논문에서 제안한 DNA 염기 서열 배치 알고리즘은 Quadrant 방법을 적용하여 Needleman-Wunsch의 DP 기반 알고리즘에서의 행렬 생성 단계에서 발생하는 불필요한 정렬 계산을 제거하여 전체 수행 시간을 단축하고, 각 DNA 염기 서열 단편 각각의 길이 차이와 낮은 품질의 DNA 염기 빈도를 퍼지 추론 시스템에 적용하여 지능적으로 갭 비용(gap cost)을 동적으로 조정한다. 제안된 알고리즘의 성능 평가를 위해 NCBI (National Center for Biotechnology Information)의 실제 유전체 데이터로 성능을 분석한 결과, 제안된 알고리즘이 기존의 품질정보만을 이용한 알고리즘보다 개선된 것을 확인하였다.

  • PDF

다수의 목표 유전자에서 진화연산을 이용한 Oligonucleotide Probe 선택 (Oligonucleotide Probe Selection using Evolutionary Computation in Large Target Genes)

  • 신기루;김선;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.455-457
    • /
    • 2003
  • DNA microarray는 분자생물학에서 널리 사용되고 있는 실험 도구로써 크게 cDNA와 oligonucleotide microarray로 나뉘어진다. DNA microarray는 일련의 DNA 서열로 이루어진 probe들의 집합으로 구성되며 알려지지 않은 서열과의 hybridization 과정을 통해 특정 서열을 인식할 수 있게 된다. O1igonucieotide microarray는 cDNA 방법과는 다르게 probe를 구성하는 서열을 제작자가 임의로 구성할 수 있기 때문에 목표 서열이 가지는 고유한 부분만을 probe 서열로 사용함으로써 비용절감과 실험의 정확도를 높일 수 있다는 장점이 있다. 그러나 현재 목표 유전자 서열에 대해 probe 집합을 생성하는 결정적인 방법은 존재하지 않으며, 따라서 넓은 해 공간에서 효과적으로 최적 해를 찾아 주는 진화 연산이 probe 선택을 위한 좋은 대안으로 사용될 수 있다[1.2]. 그러나 진화연산을 이용한 probe 선택방법에 있어서 인식하고자 하는 목표 서열의 개수가 많아질 경우, 해 공간의 크기가 커짐으로 인해 문제점이 발생할 수 있다. 따라서 본 논문에서는 다수의 목표 유전자 서열을 대상으로 한 probe 선택 방법에 일어서 보다 효율적인 진화연산 접근 방법을 소개한다. 제시된 방법은 인식하고자 하는 목표 서얼의 일부를 선택해 이를 probe 집합의 후보로 사용하며. 유전 연산자를 이용한 진화과정을 통해 최적에 가까운 probe 집합을 찾는다. 본 논문은 GenBank로부터 유전자 서열을 대상으로 제안된 방법을 실험하였으며, 축소된 목표 서열만을 이용해 probe 집합을 선택하더라도 적합한 probe 집합을 찾을 수 있었다.

  • PDF

DNA의 반복염기 서열 데이터베이스를 활용한 친자확인 방법 (A Paternity Testing Method Using DNA Repetive Sequences)

  • 이운;임종태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1729-1732
    • /
    • 2002
  • DNA의 염기서열이 밝혀지면서 인간 생체에 대한 다양한 연구가 활발히 진행되고 있다. 응용분야 중 친자확인에 DNA 염기서열을 이용하려는 시도가 최근에 연구되고 있다. 본 연구는 DNA의 반복 염기서열을 이용하여 수작업으로 이루어지고 있는 친자 찬인 방법을 데이터베이스 기술을 이용하여 수행하는 최초의 연구이다. 방대한 양의 자료에서 친자확률을 계산하는데 걸리는 시간은 DB를 구축하는 방법에 크게 좌우된다. 본 논문에서는 친자확률을 계산하는 시간을 최소화할 수 있는 DB를 설계하고 또한 최소 시간내에 질의 결과를 획득하는 질의 구성하는 방법을 제안한다.

  • PDF

품질 정보를 이용한 서열 배치 알고리즘 (Sequence Alignment Algorithm using Quality Information)

  • 나중채;노강호;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권11_12호
    • /
    • pp.578-586
    • /
    • 2005
  • 본 논문에서 다루는 문제는 품질 정보를 가지는 서열을 배치(alignment)하는 알고리즘이다. 시퀀싱(sequencing) 작업의 일부인 염기 결정 프로그램(base-calling program)에 의해서 생성되는 DNA 서열은 각 염기가 어느 정도 신뢰할 수 있는 가를 나타내는 품질 정보를 가진다. 그러나 지금까지 개발된 서열 배치 알고리즘들은 이러한 품질 정보를 고려하지 않았다. 본 논문에서는 품질 정보를 가지는 두 서열의 배치를 평가하는 기준을 제시한다. 이 평가 기준에 의한 최적의 서열 배치는 동적 프로그래밍(dynamic programming) 기법에 의해서 찾을 수 있다.