• 제목/요약/키워드: Genome Projects

검색결과 61건 처리시간 0.028초

Computational Approaches to Gene Prediction

  • Do Jin-Hwan;Choi Dong-Kug
    • Journal of Microbiology
    • /
    • 제44권2호
    • /
    • pp.137-144
    • /
    • 2006
  • The problems associated with gene identification and the prediction of gene structure in DNA sequences have been the focus of increased attention over the past few years with the recent acquisition by large-scale sequencing projects of an immense amount of genome data. A variety of prediction programs have been developed in order to address these problems. This paper presents a review of the computational approaches and gene-finders used commonly for gene prediction in eukaryotic genomes. Two approaches, in general, have been adopted for this purpose: similarity-based and ab initio techniques. The information gleaned from these methods is then combined via a variety of algorithms, including Dynamic Programming (DP) or the Hidden Markov Model (HMM), and then used for gene prediction from the genomic sequences.

Construction of Various Copy Number Plasmid Vectors and Their Utility for Genome Sequencing

  • Yang, Tae-Jin;Yu, Yeisoo;Frisch, David A.;Lee, Seunghee;Kim, Hye-Ran;Kwon, Soo-Jin;Park, Beom-Suk;Wing, Rod A.
    • Genomics & Informatics
    • /
    • 제2권4호
    • /
    • pp.174-179
    • /
    • 2004
  • We developed various plasmid cloning vectors that are useful in the construction of genomic and shotgun libraries. Two medium copy vectors, pCUGlblu21 (pCb21) and pAGlblu21 (pAb21), which are resistant to kanamycin ($Km^R$) and chloramphenicol ($Cam^R$), respectively, are useful for cloning DNA inserts ranging from 5kb to 15kb. Two high copy vectors, pCUGlblu31 (pCb31) and pAGlblu31 (pAb31), containing $Km^R$ and $Cam^R$, respectively, are useful for DNA inserts less than 5kb. These vectors are well adapted for large-scale genome sequencing projects by providing choice of copy number and selectable marker. The small vector size is another advantage of these vectors. All vectors contain lacZa including multicloning sites that originated from pBluscriptllsk- for easy cloning and sequencing. Two medium copy vectors contain unique and rare cutting Swal (ATTTAAAT) restriction enzyme sites for easy determination of insert size. We developed two combined vectors, pC21A31 and pC31A21, which are combinations of (pCb21 + pAb31) and (pCb31 + pAb21), respectively. These two vectors provide four choices of vectors such as $Km^R$ and medium, $Cam^R$ and high, $Cam^R$ and medium, and $Km^R$ and high copy vectors by restriction enzyme cutting, dephosphorylation, and gel purification. These vectors were successfully applied to high throughput shotgun sequencing of rice, tomato, and brassica BAC clones. With an example of extremely biased hydro sheared 3 kb shotgun library of a tomato BAC clone, which is originated from cytogenetically defined peri-centromeric region, we suggest the utility of an additional 10 kb library for sequence assembly of the difficult-to-assemble BAC clone.

Discovering Novel Genes of poultry in Genomic Era

  • S.K. Kang;Lee, B.C.;J.M. Lim;J.Y. Han;W.S. Hwang
    • 한국가금학회지
    • /
    • 제28권2호
    • /
    • pp.143-153
    • /
    • 2001
  • Using bioinformatic tools for searching the massive genome databases, it is possible to Identify new genes in few minutes for initial discoveries based on evolutionary conservation, domain homology, and tissue expression patterns, followed by further verification and characterization using the bench-top works. The development of high-density two-dimensional arrays has allowed the analysis of the expression of thousands of genes simultaneously in the humans, mice, rats, yeast, and bacteria to elucidate the genes and pathways involved in physiological processes. In addition, rapid and automated protein identification is being achieved by searching protein and nucleotide sequence databases directly with data generated from mass spectrometry. Recently, analysis at the bio-chemical level such as biochemical screening and metabolic profiling (Biochemical genomics) has been introduced as an additional approach for categorical assignment of gene function. To make advantage of recent achievements in computational approaches for facilitated gene discoveries in the avian model, chicken expression sequence tags (ESTs) have been reported and deposited in the international databases. By searching EST databases, a chicken heparanase gene was identified and functionally confirmed by subsequent experiments. Using combination of sub-tractive hybridization assay and Genbank database searches, a chicken heme -binding protein family (cSOUL/HBP) was isolated in the retina and pineal gland of domestic chicken and verified by Northern blot analysis. Microarrays have identified several host genes whose expression levels are elevated following infection of chicken embryo fibroblasts (CEF) with Marek's disease virus (MDV). The ongoing process of chicken genome projects and new discoveries and breakthroughs in genomics and proteomics will no doubt reveal new and exciting information and advances in the avian research.

  • PDF

Identification of 1,531 cSNPs from Full-length Enriched cDNA Libraries of the Korean Native Pig Using in Silico Analysis

  • Oh, Youn-Shin;Nguyen, Dinh Truong;Park, Kwang-Ha;Dirisala, Vijaya R.;Choi, Ho-Jun;Park, Chan-Kyu
    • Genomics & Informatics
    • /
    • 제7권2호
    • /
    • pp.65-84
    • /
    • 2009
  • Sequences from the clones of full-length enriched cDNA libraries serve as valuable resources for functional genomics related studies, genome annotation and SNP discovery. We analyzed 7,392 high-quality chromatograms (Phred value ${\geq}$30) obtained from sequencing the 5' ends of clones derived from full-length enriched cDNA libraries of Korean native pigs including brainstem, liver, cerebellum, neocortex and spleen libraries. In addition, 50,000 EST sequence trace files obtained from GenBank were combined with our sequences to identify cSNPs in silico. The process generated 11,324 contigs, of which 2,895 contigs contained at least one SNP and among them 610 contigs had a minimum of one sequence from Korean native pigs. Of 610 contigs, we randomly selected 262 contigs and performed in silico analysis for the identification of cSNPs. From the results, we identified 1,531 putative coding single nucleotide polymorphisms (cSNPs) and the SNP detection frequency was one SNP per 465 bp. A large-scale sequencing result of clones from full-length enriched cDNA libraries and identified cSNPs will serve as a useful resource to functional genomics related projects such as a pig HapMap project in the near future.

단백질 상호작용 추론 및 가시화 시스템 (A Visualization and Inference System for Protein-Protein Interaction)

  • 이미경;김기봉
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권12호
    • /
    • pp.1602-1610
    • /
    • 2004
  • 다양한 유전체 프로젝트로 말미암아 엄청난 서열 데이타들이 쏟아지고, 이에 따라 핵산 및 단백질 수준의 서열 데이타 분석이 매우 중요하게 인식되고 있다. 특히 최근에는 단백질이 단순하게 개별적인 기능을 가진 독립적인 요소가 아닌 전체 단백질 상호작용 네트워크 상에서 다른 객체들과 유기적인 관계를 갖으며 나름대로의 중요한 역할을 수행하고 있다는 점에 초점을 맞추어 연구가 진행되고 있다. 특히 단백질 상호작용 관계 분석을 위해서는 실제로 상호작용이 일어나는 도메인 모듈 정보가 아주 중요하게 작용하는데, 본 논문에서는 이러한 점을 고려하여 우리가 개발한 단백질 기능 및 상호작용 분석을 위한 PIVS(Protein-protein interaction Inference and Visualization System)에 대해 소개하고 있다 PIVS는 기존의 단백질 상호작용 데이타베이스들을 합쳐서 통합 데이타베이스를 생성하고, 다양한 전처리 과정으로 통합 데이타베이스 서열의 기능 및 주석 정보를 추출하여 로컬 데이타베이스화 하였다. 그리고 특히 단백질 상호작용 관계 분석을 위해 중요하게 작용하는 도메인 모듈 정보들을 추출하여 로컬 데이터베이스를 구축하였고, 기존의 단백질 상호작용 관계 데이타를 이용하석 도메인 사이의 상호작용 관계 정보도 수집하여 분석하였다. PIVS는 단백질의 종합적인 분석 정보, 즉, 기능 및 주석, 도메인, 상호작용 관계 정보 등을 손쉽고 편리하게 얻고자 하는 사용자에게 매우 유용하게 사용될 수 있을 것이다.

세균 게놈 유래성 PyrR Orthologue의 기능 분석 (Characterization and Functional Study of PyrR Orthologues from Genome Sequences of Bacteria)

  • 김사열;조현수;설경조;박승환
    • 한국미생물·생명공학회지
    • /
    • 제31권2호
    • /
    • pp.103-110
    • /
    • 2003
  • 그람 양성세균에서 PyrR단백질에 의하여 피리미딘의 생합성이 조절된다는 발견을 바탕으로 하여, Synechocystis sp.PCC6803과 Haemophilus influenzae의 PyrR orthologue 유전자를 Bacillus subtilis에서 형질전환 시켜 피리미딘 생합성의 조절 유무를 조사하였다. Synechocystis sp.PCC6803과 H. influenzae의 PyrR orthologue유전자를 pUC19과 T-vector에 클로닝 한후 pKH1, pKH2, pHPSK1, pHPSK2으로 각각 명명하였다. 이것을 다시 Escherichia. coli와 B. subtiius용 shuttle vector인 pHPS9에 클로닝 하여 pKH3, pKH4, pHPSK3, pHPSK4로 각각 명명하였다. B. subtilis DB104Δ PyrR에 pKH3, pKH4, pHPSK3, pHPSK4을 형질전환후 ATCase 활성을 측정결과 pHPSK3을 가진 균주만 피리미딘에 의한 조절작용이 일어난다는 사실을 통하여, H. influenzae의 PyrR orthologue 유전자의 선도 부분에 조절에 관여하는 미지의 부분이 있음을 예측할 수 있었다. 서로 다른 유래의 PyrR orthologue단백질을 정제하기 위하여 pET14b에 클로닝후 pKH5, pHPSK5으로 각각 명명하였다. SDS-PAGE로 분석한 결과 각각 약 18 kDa과 21 kDa의 분자량을 나타내었다. 정제된 PyrR orthologue 단백질의 UPRTase 활성을 측정한 결과 H. infuenzae의 PyrR orthologue 단백질은 UPRTase 활성을 나타내었으며 다양한 pH에서 측정한 결과 pH 5에서 가장 높은 활성을 나타내었다. 반면에, Synechocystis sp. PCC6803의 PyrR orhologue 단백질은 UPRTase 활성을 나타내지 않았다. 여러 가지 균주의 PyrR 아미노산 서열을 비교한 계통수 분석은 PyrR 단백질의 조절기작과 어느 정도 연관됨을 시사해 주었다.

모티프 자원 통합을 이용한 단백질 모티프 예측 시스템 구현 (Implementation of Protein Motif Prediction System Using integrated Motif Resources)

  • 이범주;최은선;류근호
    • 정보처리학회논문지D
    • /
    • 제10D권4호
    • /
    • pp.679-688
    • /
    • 2003
  • 지놈 서열 시퀀싱을 통해 생성되는 원시 데이터에 대한 단백질 기능 및 구조 예측에 사용되는 모티프 데이터베이스들은 원시 데이터들의 폭발적인 성장추세에 맞추어 그 사용빈도가 증가하고 있다. 그러나 이러한 모티프 데이터베이스들은 독자적으로 개발, 발전하여왔고 웹 기반 cross-reference를 이용한 논리적 통합을 추진하여왔기 때문에 이질적인 검색 결과와 복잡한 질의 처리 문제, 중복된 데이터베이스 엔트리 핸들링 문제 등을 갖고 있다. 따라서, 이 논문에서는 이런 문제점들을 개선하기 위하여 물리적인 모티프 자원 통합을 제안하고, 패밀리 기반 단백질 예측 메소드들에 대한 통합 검색 방법을 기술한다. 끝으로 모티프 통합 데이터베이스 구축 및 단백질 모티프 예측 시스템 구현을 통한 결과를 평가한다.

C-PInvestigation on the technology trend by the intellectual property in Schizandra chinensis

  • Kim, Chang-Kug;Kim, Do-Wan;Lee, Dong-Jun;Oh, Jae-Hyeon;Lee, Tae-Ho
    • 한국자원식물학회:학술대회논문집
    • /
    • 한국자원식물학회 2018년도 추계학술대회
    • /
    • pp.39-39
    • /
    • 2018
  • The Schizandra chinensis (Korean name : omija) is a fruit native to northeast Asia that is cultivated in South Korea and China. Using 1,938 valid patents of 6 group countries, we analyzed the patent trend based on year, countries, applicants, and technology. The technologies are categorized the 10 sub-technologies such as medicine, quasi-drugs, food, feed, cosmetics, cultivation, genome, manufacture, preprocessing, and etc. The technology level and competitiveness are analyzed using patent index such as cites per patent, patent impact index, patent family size and technology strength. In Korea, patent number rapidly increasing and individual technical level is lower than other countries. However, overall technical competitiveness is estimated high due to multiple patents. We suggest that cosmetics and cultivation fields are most likely to be developed in future omiza technology development in Korea. Our study will provides to the information of technical trend to support performing of new projects for omija plant.

  • PDF

생물정보학적 접근을 통한 Caenorhabditis elegans 모델시스템의 생체내 RNAi 기능예측 및 비특이적 공동발현억제 현상 분석 (Bioinformatics Approach to Direct Target Prediction for RNAi Function and Non-specific Cosuppression in Caenorhabditis elegans)

  • 김태호;김의용;주현
    • KSBB Journal
    • /
    • 제26권2호
    • /
    • pp.131-138
    • /
    • 2011
  • Some computational approaches are needed for clarifying RNAi sequences, because it takes much time and endeavor that almost of RNAi sequences are verified by experimental data. Incorrectness of RNAi mechanism and other unaware factors in organism system are frequently faced with questions regarding potential use of RNAi as therapeutic applications. Our massive parallelized pair alignment scoring between dsRNA in Genebank and expressed sequence tags (ESTs) in Caenorhabditis elegans Genome Sequencing Projects revealed that this provides a useful tool for the prediction of RNAi induced cosuppression details for practical use. This pair alignment scoring method using high performance computing exhibited some possibility that numerous unwanted gene silencing and cosuppression exist even at high matching scores each other. The classifying the relative higher matching score of them based on GO (Gene Ontology) system could present mapping dsRNA of C. elegans and functional roles in an applied system. Our prediction also exhibited that more than 78% of the predicted co-suppressible genes are located in the ribosomal spot of C. elegans.

스트링 B-트리를 이용한 게놈 서열 분석 시스템 (An Analysis System for Whole Genomic Sequence Using String B-Tree)

  • 최정현;조환규
    • 정보처리학회논문지A
    • /
    • 제8A권4호
    • /
    • pp.509-516
    • /
    • 2001
  • 생명 과학의 발전과 많은 게놈(genome) 프로젝트의 결과로 여러 종의 게놈 서열이 밝혀지고 있다. 생물체의 서열을 분석하는 방법은 전역정렬(global alignment), 지역정렬(local alignment) 등 여러 가지 방법이 있는데, 그 중 하나가 k-mer 분석이다. k-mer는 유전자의 염기 서열내의 길이가 k인 연속된 염기 서열로서 k-mer 분석은 염기서열이 가진 k-mer들의 빈도 분포나 대칭성 등을 탐색하는 것이다. 그런데 게놈의 염기 서열은 대용량 텍스트이고 k가 클 때 기존의 온메모리 알고리즘으로는 처리가 불가능하므로 효율적인 자료구조와 알고리즘이 필요하다. 스트링 B-트리는 패턴 일치(pattern matching)에 적합하고 외부 메모리를 지원하는 좋은 자료구조이다. 본 논문에서는 스트링 B-트리(string B-tree)를 k-mer 분석에 효율적인 구조로 개선하여, C. elegans 외의 30개의 게놈 서열에 대해 분석한다. k-mer들의 빈도 분포와 대칭성을 보여주기 위해 CGR(Chaotic Game Representation)을 이용한 가시화 시스템을 제시한다. 게놈 서열과 매우 유사한 서열 상의 어떤 부분을 시그니쳐(signature)라 하고, 높은 유사도를 가지는 최소 길이의 시그니쳐를 찾는 알고리즘을 제시한다.

  • PDF