• 제목/요약/키워드: DNA Sequence

검색결과 3,851건 처리시간 0.026초

An Efficient Approach to Mining Maximal Contiguous Frequent Patterns from Large DNA Sequence Databases

  • Karim, Md. Rezaul;Rashid, Md. Mamunur;Jeong, Byeong-Soo;Choi, Ho-Jin
    • Genomics & Informatics
    • /
    • 제10권1호
    • /
    • pp.51-57
    • /
    • 2012
  • Mining interesting patterns from DNA sequences is one of the most challenging tasks in bioinformatics and computational biology. Maximal contiguous frequent patterns are preferable for expressing the function and structure of DNA sequences and hence can capture the common data characteristics among related sequences. Biologists are interested in finding frequent orderly arrangements of motifs that are responsible for similar expression of a group of genes. In order to reduce mining time and complexity, however, most existing sequence mining algorithms either focus on finding short DNA sequences or require explicit specification of sequence lengths in advance. The challenge is to find longer sequences without specifying sequence lengths in advance. In this paper, we propose an efficient approach to mining maximal contiguous frequent patterns from large DNA sequence datasets. The experimental results show that our proposed approach is memory-efficient and mines maximal contiguous frequent patterns within a reasonable time.

Cloning and Characterization of a Novel Laccase Gene, fvlac7, Based on the Genomic Sequence of Flammulina velutipes

  • Kim, Jong-Kun;Lim, Seon-Hwa;Kang, Hee-Wan
    • Mycobiology
    • /
    • 제41권1호
    • /
    • pp.37-41
    • /
    • 2013
  • Laccases (EC 1.10.3.2) are copper-containing polyphenol oxidases found in white-rot fungi. Here, we report the cloning and analysis of the nucleotide sequence of a new laccase gene, fvlac7, based on the genomic sequence of Flammulina velutipes. A primer set was designed from the putative mRNA that was aligned to the genomic DNA of F. velutipes. A cDNA fragment approximately 1.6-kb long was then amplified by reverse transcriptase-PCR using total RNA, which was subsequently cloned and sequenced. The cDNA sequence of fvlac7 was then compared to that of the genomic DNA, and 16 introns were found in the genomic DNA sequence. The fvlac7 protein, which consists of 538 amino acids, showed only 42~51% identity with 12 different mushroom species containing two laccases of F. velutipes, suggesting the fvlac7 is a novel laccase gene. The first 25 amino acids of Fvlac7 correspond to a predicted signal sequence, four copper-binding sites, and four N-glycosylation sites. Fvlac7 cDNA was heterologously overexpressed in an Escherichia coli system with an approximate expected molecular weight of 60 kDa.

DNA 컴퓨팅과 진화 모델을 이용하여 Traveling Salesman Problem를 해결하기 위한 DNA 서열 생성 알고리즘 (A DNA Sequence Generation Algorithm for Traveling Salesman Problem using DNA Computing with Evolution Model)

  • 김은경;이상용
    • 한국지능시스템학회논문지
    • /
    • 제16권2호
    • /
    • pp.222-227
    • /
    • 2006
  • 현재 막대한 병렬성을 갖는 DNA 컴퓨팅을 이용하여 Traveling Salesman Problem (TSP)를 해결하기 위한 연구가 진행되고 있다. 하지만 기존의 방법은 그래프 문제의 표현에서 DNA의 특성을 고려하지 않아, 실제 생물학적 실험 결과와의 차이가 발생하고 있다. 따라서 DNA의 특성을 반영하고 생물학적 실험 오류를 줄일 수 있는 DNA 서열 생성 알고리즘이 필요하다. 본 논문에서는 DNA 컴퓨팅에 진화 모델의 하나인 DNA 코딩 방법을 적용한 DNA 서열 생성 알고리즘을 제안한다. 제안한 알고리즘은 TSP에 적용하여 기존에 단순 유전자 알고리즘과 비교하였다. 그 결과 제안한 알고리즘은 오류를 최소화한 우수한 서열을 생성하고 생물학적 실험 오류율도 줄일 수 있었다.

DNA사슬 내에서 다양한 길이의 팰린드롬쌍 검색 연구 (Identifying Variable-Length Palindromic Pairs in DNA Sequences)

  • 김형래;정경희;전도홍
    • 정보처리학회논문지B
    • /
    • 제14B권6호
    • /
    • pp.461-472
    • /
    • 2007
  • 게놈 프로젝트 연구는 DNA사슬 내에서 생물학적 의미(예, molecule의 진화역사 또는 그 기능)를 추출하기위한 사슬분석 쪽으로 강조가 되어가고 있다. 특히, DNA사슬 내에서 상보적 또는 반복되는 패턴은 생물학적 의미를 가지고 있다. 문제는 상보적 단어가 만들어내는 흥미 있는 패턴과 단어 구성을 찾아 내는 것이다. 본 논문은 다양한 길이의 팰린드롬 쌍을 검색하는 알고리즘에 관한 연구이다. 다양한 길이의 팰린드롬 쌍 내에는 빈 공백을 또한 허용한다. 알고리즘은 팰린드롬 알고리즘이라고 명명하며 O(N)의 계산 시간을 가진다. 하나의 팰린드롬 쌍은 머리핀 형태로 구성되어 있다. 검출된 여러 팰린드롬 쌍을 활용하여 n-쌍 팰린드롬 형태를 구성하였다. 더욱이 발견된 가장 긴 팰린드롬 쌍을 DNA 사슬 원형 구조에 점으로 표현하여 가시성을 제고하였다. 본 알고리즘은 여러 게놈 상에서 실시되었으며 E.coli K12의 결과를 나타내었다. 실험결과 DNA 안에는 랜덤한 경우에는 확률상 매우 발생하기 힘든 긴 팰린드롬 패턴들이 존재 한다는 것을 발견할 수 있었다.

품질 정보를 이용한 서열 배치 알고리즘 (Sequence Alignment Algorithm using Quality Information)

  • 나중채;노강호;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권11_12호
    • /
    • pp.578-586
    • /
    • 2005
  • 본 논문에서 다루는 문제는 품질 정보를 가지는 서열을 배치(alignment)하는 알고리즘이다. 시퀀싱(sequencing) 작업의 일부인 염기 결정 프로그램(base-calling program)에 의해서 생성되는 DNA 서열은 각 염기가 어느 정도 신뢰할 수 있는 가를 나타내는 품질 정보를 가진다. 그러나 지금까지 개발된 서열 배치 알고리즘들은 이러한 품질 정보를 고려하지 않았다. 본 논문에서는 품질 정보를 가지는 두 서열의 배치를 평가하는 기준을 제시한다. 이 평가 기준에 의한 최적의 서열 배치는 동적 프로그래밍(dynamic programming) 기법에 의해서 찾을 수 있다.

Isolation of a cDNA Encoding a Chloroplast Triosephosphate Isomerase from Strawberry

  • Kim, In-Jung;Lee, Byung-Hyun;Jinki Jo;Chung, Won-Il
    • Journal of Plant Biotechnology
    • /
    • 제2권3호
    • /
    • pp.115-121
    • /
    • 2000
  • A cDNA clone encoding chloroplast triosephosphate isomerase (TPI-cp) was isolated from strawberry fruit cDNA library. Sequence analyses indicated that the cDNA contains an open reading frame of 314 amino acids (33.5 kDa) composed of a transit peptide (59 amino acids) in amino terminal region and mature protein (255 amino acids). The existence of transit peptide in the deduced amino acid sequence implies that it encodes a chloroplast isoform. The protein sequence is more similar to other plant chloroplast isoforms than cytosolic isoforms. RNA blot analysis indicated that its expression is ubiquitous in examined five tissues, flowers, leaves, petioles, roots and fruits, and shows differential pattern according to fruit ripening. Genomic DNA blot analysis showed that TPI-cp is encoded by multiple genes in strawberry. Through sequence comparison and phylogenetic tree construction, TPI-cp is distinctively grouped into dicot and chloroplast isoforms.

  • PDF

미생물의 유전자(Genome) 해석과 임상세균학에 이용 (Microbial Genome Analysis and Application to Clinical Bateriology)

  • 김성광
    • Journal of Yeungnam Medical Science
    • /
    • 제19권1호
    • /
    • pp.1-10
    • /
    • 2002
  • With the establishment of rapid sequence analysis of 16S rRNA and the recognition of its potential to determine the phylogenetic position of any prokaryotic organism, the role of 16S rRNA similarities in the present species definition in bacteriology need to be clarified. Comparative studies clearly reveal the limitations of the sequence analysis of this conserved gene and gene product in the determination of relationship at the pathogenic strain level for which DNA-DNA reassociation experiments still constitute the superior method. Since today the primary structure of 16S rRNA is easier to determine than hybridization between DNA strands, the strength of the sequence analysis is to recognize the level at which DNA pairing studies need to be performed, which certainly applies to similarities of 97% and higher.

  • PDF

한국에서 분리된 사람 로타바이러스의 VP7 코딩 RNA 분절의 cDNA 합성과 염기서열 결정 (cDNA Cloning and Nucleotide Sequence Determination for VP7 Coding RNA Segment of Human Rotavirus Isolated in Korea)

  • Kim, Young Bong;Kim, Kyung Hee;Yang Jai Myung
    • 미생물학회지
    • /
    • 제30권5호
    • /
    • pp.397-402
    • /
    • 1992
  • 서울지역의 소아설사환자가 가검물로부터 분리한 로타바이러스의 VP7을 코딩하는 RNA분절 cDNA를 합성한 후 로타바이러스 혈청형1인 WA1과 RE9의 아홉 번째 RNA분절과 비교하였더니 90%이상의 유사성을 보였다. 염기서열로부터 유추된 아미노산 서열중 혈청간에 변이가 많은 VR5와 VR8 지역을 비교한 결과 역시 혈청형 1인 RE9과 WA1 바이러스주와 매우 높은 유사성을 지님을 알 수 있었다.

  • PDF

An Efficient DNA Sequence Compression using Small Sequence Pattern Matching

  • Murugan., A;Punitha., K
    • International Journal of Computer Science & Network Security
    • /
    • 제21권8호
    • /
    • pp.281-287
    • /
    • 2021
  • Bioinformatics is formed with a blend of biology and informatics technologies and it employs the statistical methods and approaches for attending the concerning issues in the domains of nutrition, medical research and towards reviewing the living environment. The ceaseless growth of DNA sequencing technologies has resulted in the production of voluminous genomic data especially the DNA sequences thus calling out for increased storage and bandwidth. As of now, the bioinformatics confronts the major hurdle of management, interpretation and accurately preserving of this hefty information. Compression tends to be a beacon of hope towards resolving the aforementioned issues. Keeping the storage efficiently, a methodology has been recommended which for attending the same. In addition, there is introduction of a competent algorithm that aids in exact matching of small pattern. The DNA representation sequence is then implemented subsequently for determining 2 bases to 6 bases matching with the remaining input sequence. This process involves transforming of DNA sequence into an ASCII symbols in the first level and compress by using LZ77 compression method in the second level and after that form the grid variables with size 3 to hold the 100 characters. In the third level of compression, the compressed output is in the grid variables. Hence, the proposed algorithm S_Pattern DNA gives an average better compression ratio of 93% when compared to the existing compression algorithms for the datasets from the UCI repository.

대용량 DNA 시퀀스 데이타베이스를 위한 효율적인 인덱싱 (Efficient Indexing for Large DNA Sequence Databases)

  • 원정임;윤지희;박상현;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권6호
    • /
    • pp.650-663
    • /
    • 2004
  • DNA 시퀀스 검색은 분자 생물학 분야에서 사용되는 매우 중요한 연산이다. DNA 시퀀스 데이타베이스는 매우 큰 용량을 가지므로 DNA 시퀀스 검색의 효율적인 처리를 위해서는 고속 인덱스의 사용이 필수적이다. 본 논문에서는 DNA 시퀀스 검색을 위하여 기존에 제안된 접미어 트리가 가지는 저장공간, 검색 성능, DBMS와의 통합 등의 문제점들을 지적하고, 이러한 문제점을 해결할 수 있는 새로운 인덱스를 제안한다. 제안된 인덱스는 포인터 없이 트라이를 비트 스트링으로 표현하는 기본 구조와 후처리 시 액세스되어야 하는 트라이의 단말 노드를 신속하게 찾기 위한 보조 자료 구조로 구성된다. 또한, 제안된 인덱스를 이용하여 DNA 시퀀스 검색을 효과적으로 처리하는 알고리즘을 제시한다. 제안된 기법의 우수성을 검증하기 위하여, 실험을 통한 성능 평가를 수행하였다. 실험 결과에 의하면, 제안된 인덱스는 기존의 접미어 트리와 비교하여 더 작은 저장 공간을 가지고도 13배에서 29배까지의 검색 성능의 개선 효과를 가지는 것으로 나타났다.