• Title/Summary/Keyword: DNA 시퀀스

Search Result 36, Processing Time 0.026 seconds

Freeze-drying feces reduces illumina-derived artefacts on 16S rRNA-based microbial community analysis (Illumina를 이용한16S rRNA 기반 미생물생태분석에서 분변의 동결건조에 의한 인공적인 시퀀스 생성 감소효과)

  • Kim, Jungman;Unno, Tatsuya
    • Journal of Applied Biological Chemistry
    • /
    • v.59 no.4
    • /
    • pp.299-304
    • /
    • 2016
  • When used for amplicon sequencing, Illumina platforms produce more than hundreds of sequence artefacts, which affects operational taxonomic units based analyses such as differential abundance and network analyses. Nevertheless it has become a major tool for fecal microbial community analysis. In addition, results from sequence-based fecal microbial community analysis vary depending on conditions of samples (i.e., freshness, time of storage and quantity). We investigated if freeze-drying samples could improve quality of sequence data. Our results showed reduced number of possible artefacts while maintaining overall microbial community structure. Therefore, freeze-drying feces prior to DNA extraction is recommended for Illumina-based microbial community analysis.

DNA Hybridization Simulation with Single Base Mismatches for DNA Computing (1-Base non Watson-Crick 결합을 허용하는 DNA Hybridization Simulation)

  • 장하영;신수용;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.476-478
    • /
    • 2003
  • 1-Base의 non Watson-Crick 결합과, Dangling end(결합이 이루어진 두 개의 DNA strand 중 한쪽 끝이 다른 쪽 끝보다 짧은 경우)를 허용하는 nearest-neighbor model을 사용하여 DNA/DNA Hybridization 예측 시스템을 구현하였다. DNA 컴퓨팅을 기존의 실리콘 컴퓨터를 이용하여 접근하는 이러한 방법은 좀 더 효율적인 분자 알고리즘의 개발과 DNA 컴퓨팅에 사용될 수 있는 더욱 신뢰성 있는 DNA 시퀀스의 설계에 도움을 줄 수 있을 것이다.

  • PDF

A Space Efficient Indexing Technique for DNA Sequences (공간 효율적인 DNA 시퀀스 인덱싱 방안)

  • Song, Hye-Ju;Park, Young-Ho;Loh, Woong-Kee
    • Journal of KIISE:Databases
    • /
    • v.36 no.6
    • /
    • pp.455-465
    • /
    • 2009
  • Suffix trees are widely used in similar sequence matching for DNA. They have several problems such as time consuming, large space usages of disks and memories and data skew, since DNA sequences are very large and do not fit in the main memory. Thus, in the paper, we present a space efficient indexing method called SENoM, allowing us to build trees without merging phases for the partitioned sub trees. The proposed method is constructed in two phases. In the first phase, we partition the suffixes of the input string based on a common variable-length prefix till the number of suffixes is smaller than a threshold. In the second phase, we construct a sub tree based on the disk using the suffix sets, and then write it to the disk. The proposed method, SENoM eliminates complex merging phases. We show experimentally that proposed method is effective as bellows. SENoM reduces the disk usage less than 35% and reduces the memory usage less than 20% compared with TRELLIS algorithm. SENoM is available to query efficiently using the prefix tree even when the length of query sequence is large.

A parallel SNP detection algorithm for RNA-Seq data (RNA 시퀀싱 데이터를 이용한 병렬 SNP 추출 알고리즘)

  • Kim, Deok-Keun;Lee, Deok-Hae;Kong, Jin-Hwa;Lee, Un-Joo;Yoon, Jee-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.1260-1263
    • /
    • 2011
  • 최근 차세대 시퀀싱 (Next Generation Sequencing, NGS) 기술이 발전하면서 DNA, RNA 등의 시퀀싱 데이터를 이용한 유전체 분석 방식에 관한 연구가 활발히 이루어지고 있다. 차세대 시퀀싱 데이터를 이용한 유전체 분석 방식은 마이크로어레이 혹은 EST/cDNA 데이터를 이용한 기존의 분석 방식에 비하여 비용이 적게 들고 정확한 결과를 얻을 수 있다는 장점이 있다. 그러나 이 들 DNA, RNA 시퀀싱 데이터는 각 시퀀스의 길이가 짧고 전체 용량은 매우 커서 이 들 데이터로부터 정확한 분석 결과를 추출하는 데에 많은 어려움이 있다. 본 연구에서는 클라우드 컴퓨팅 기술을 기반으로 하여 대용량의 RNA 시퀀싱 데이터를 고속으로 처리하는 병렬 SNP 추출 알고리즘을 제안한다. 전체 게놈 데이터 중 유전자 영역만을 high coverage로 시퀀싱하여 얻어지는 RNA 시퀀싱 데이터는 유전자 변이 추출을 목적으로 분석되며, SNP(Single Nucleotide Polymorphism)와 같은 유전자 변이는 질병의 원인 규명 및 치료법 개발에 직접 이용된다. 제안된 알고리즘은 동시에 실행되는 다수의 Map/Reduce 함수에 의해서 대규모 RNA 시퀀스를 병렬로 처리하며, 레퍼런스 시퀀스에 매핑된 각 염기의 출현 빈도와 품질점수를 이용하여 SNP를 추출한다. 또한 이 들 SNP 추출 결과에 대한 시각적 분석 도구를 제공하여 SNP 추출 과정 및 근거를 시각적으로 확인/검증할 수 있도록 지원한다.

Design of Temperature Regulation for DNA Kernel to Satisfy Positive Definiteness (DNA 커널이 양한정 조건을 만족시키기 위한 온도 조절 디자인)

  • Noh, Yung-Kyun;Kim, Cheong-Tak;Zhang, Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06b
    • /
    • pp.15-20
    • /
    • 2007
  • 기존의 연구는 DNA 커널을 통한 기계 학습이 DNA 분자들을 통한 in vitro 실험을 통해 가능함을 보였다. 이 때, DNA 커널을 통한 분류 분제는 온도 조절을 통해 양한정(positive definite) 조건을 만족시킬 때 분류 문제를 잘 풀며, 양한정 조건을 만족시키기 위한 조건으로 높은 온도에서 시작하여 온도를 내리며 hybridization시키는 방법을 제안하였다. 이 논문에서는 보다 정량적인 분석을 통해서 이 hybridization 방법이 양한정 조건을 만족시키기에 적합한 방법임을 보이고, 간단한 hybridization 모델을 통해 양한정 조건을 만족시킬 수 있는 hybridization 온도 계획의 충분 조건을 유도한다. 또한 시작 온도와 끝 온도의 경계 조건으로 제시되는 이 충분 조건을 통해 현실적인 온도 조절 계획을 위한 시퀀스의 코딩 방법을 알게 된다.

  • PDF

Sequential Pattern Mining with Optimization Calling MapReduce Function on MapReduce Framework (맵리듀스 프레임웍 상에서 맵리듀스 함수 호출을 최적화하는 순차 패턴 마이닝 기법)

  • Kim, Jin-Hyun;Shim, Kyu-Seok
    • The KIPS Transactions:PartD
    • /
    • v.18D no.2
    • /
    • pp.81-88
    • /
    • 2011
  • Sequential pattern mining that determines frequent patterns appearing in a given set of sequences is an important data mining problem with broad applications. For example, sequential pattern mining can find the web access patterns, customer's purchase patterns and DNA sequences related with specific disease. In this paper, we develop the sequential pattern mining algorithms using MapReduce framework. Our algorithms distribute input data to several machines and find frequent sequential patterns in parallel. With synthetic data sets, we did a comprehensive performance study with varying various parameters. Our experimental results show that linear speed up can be achieved through our algorithms with increasing the number of used machines.

Workflow for Building a Draft Genome Assembly using Public-domain Tools: Toxocara canis as a Case Study (개 회충 게놈 응용 사례에서 공개용 분석 툴을 사용한 드래프트 게놈 어셈블리 생성)

  • Won, JungIm;Kong, JinHwa;Huh, Sun;Yoon, JeeHee
    • KIISE Transactions on Computing Practices
    • /
    • v.20 no.9
    • /
    • pp.513-518
    • /
    • 2014
  • It has become possible for small scale laboratories to interpret large scale genomic DNA, thanks to the reduction of the sequencing cost by the development of next generation sequencing (NGS). De novo assembly is a method which creates a putative original sequence by reconstructing reads without using a reference sequence. There have been various study results on de novo assembly, however, it is still difficult to get the desired results even by using the same assembly procedures and the analysis tools which were suggested in the studies reported. This is mainly because there are no specific guidelines for the assembly procedures or know-hows for the use of such analysis tools. In this study, to resolve these problems, we introduce steps to finding whole genome of an unknown DNA via NGS technology and de novo assembly, while providing the pros and cons of the various analysis tools used in each step. We used 350Mbp of Toxocara canis DNA as an application case for the detailed explanations of each stated step. We also extend our works for prediction of protein-coding genes and their functions from the draft genome sequence by comparing its homology with reference sequences of other nematodes.

Clustered Segment Indexing for Searching on the Secondary Structure of Protein (단백질 이차구조의 검색을 위한 클러스터링된 세그먼트 인덱싱)

  • 서민구;박상현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.298-300
    • /
    • 2004
  • 바이오 인포메틱스에서의 데이터 검색은 DNA와 단백질 시퀀스에 대해서 주로 이루어지며, 지금까지의 연구는 주로 DNA와 단백질 1차 구조의 검색에 대해 이루어졌다. 단백질 2차구조는 1차구조 내 인접한 아미노산들의 공간적인 배열을 나타내며. 단백질의 기능을 예측하는데 중요한 3차구조의 지역적 아미노산의 특성을 나타낸다. 따라서 2차구조에 대한 검색은 단백질의 기능을 이해하는데 매우 중요한 역할을 한다[1]. 이 논문에서는 단백질 2차구조 및 질의 문자열을 세그먼트 단위로 나누고 검색하는 r41의 방법을 개선하여 세그먼트를 조합한 클러스터 구조 및 Look Ahead를 사용해 Exact Matching 및 Wildcard Matching 질의를 효율적으로 처리할 수 있는 기법을 제시한다.

  • PDF

A CNV Detection Algorithm (CNV 영역 검색 알고리즘)

  • Sang-Kyoon Hong;Dong-Wan Hong;Jee-Hee Yoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.356-359
    • /
    • 2008
  • 최근 생물정보학 분야에서 인간 유전체에 존재하는 CNV(copy number variation)에 관한 연구가 주목 받고 있다. CNV 영역은 1kbp-3Mbp 사리의 서열이 반복되거나 결실되는 변이 영역으로 정의된다. 우리는 선행연구에서 기가 시퀀싱(giga sequencing)의 결과 산출되는 DNA 서열조각인 리드(read)를 레퍼런스 시퀀스에 서열 정렬하여 CNV 영역을 찾아내는 새로운 CNV 검색 방식을 제안하였다. 후속 연구로서 본 논문에서는 DNA 서열에 존재하는 repeat 영역 문제를 해결하기 위한 새로운 방안을 제안하고, 리드의 출현 빈도 정보를 분석하여 CNV 영역을 찾아내는 CNV 영역 검색 알고리즘을 보인다. 제안된 알고리즘 Gaussian 분포를 갖는 출현 빈도 정보로부터 통계적 유의성을 갖는 영역을 추출하여 CNV 영역후보로 하고, 다음 경제 과정을 거쳐 최종의 CNV 영역을 추출한다. 성능 평가를 위하여 프로토타임 시스템을 개발하였으며, 시뮬레이션 실험을 수행하였다. 실험 결과에 의하여 제안된 방식은 반복되거나 결실되는 형태의 CNV 영역을 효율적으로 검출하며, 또한 다양한 크기의 CNV 영역을 효율적으로 검출할 수 있음을 입증한다.