• 제목/요약/키워드: Protein Function Prediction

검색결과 91건 처리시간 0.023초

Genomic Analysis of 13 Putative Active Prophages Located in the Genomes of Walnut Blight Pathogen Xanthomonas arboricola pv. juglandis

  • Cao, Zheng;Cuiying, Du;Benzhong, Fu
    • 한국미생물·생명공학회지
    • /
    • 제50권4호
    • /
    • pp.563-573
    • /
    • 2022
  • Xanthomonas arboricola pv. juglandis (Xaj) is a globally important bacterial pathogen of walnut trees that causes substantial economic losses in commercial walnut production. Although prophages are common in bacterial plant pathogens and play important roles in bacterial diversity and pathogenicity, there has been limited investigation into the distribution and function of prophages in Xaj. In this study, we identified and characterized 13 predicted prophages from the genomes of 12 Xaj isolates from around the globe. These prophages ranged in length from 11.8 kb to 51.9 kb, with between 11-75 genes and 57.82-64.15% GC content. The closest relatives of these prophages belong to the Myoviridae and Siphoviridae families of the Caudovirales order. The phylogenetic analysis allowed the classification of the prophages into five groups. The gene constitution of these predicted prophages was revealed via Roary analysis. Amongst 126 total protein groups, the most prevalent group was only present in nine prophages, and 22 protein groups were present in only one prophage (singletons). Also, bioinformatic analysis of the 13 identified prophages revealed the presence of 431 genes with an average length of 389.7 bp. Prokka annotation of these prophages identified 466 hypothetical proteins, 24 proteins with known function, and six tRNA genes. The proteins with known function mainly comprised prophage integrase IntA, replicative DNA helicase, tyrosine recombinase XerC, and IS3 family transposase. There was no detectable insertion site specificity for these prophages in the Xaj genomes. The identified Xaj prophage genes, particularly those of unknown function, merit future investigation.

Comparative Genomics of T-complex protein 10 like in Humans and Chimpanzees

  • Kim, Il-Chul;Kim, Dae-Soo;Kim, Dae-Won;Choi, Sang-Haeng;Choi, Han-Ho;Chae, Sung-Hwa;Park, Hong-Seog
    • Genomics & Informatics
    • /
    • 제3권2호
    • /
    • pp.61-65
    • /
    • 2005
  • Comparing 231 genes on chimpanzee chromosome 22 with their orthologous on human chromosome 21, we have found that 15 orthologs have indels within their coding sequences. It was rather surprising that significant number of genes have changed by indel, despite the shorter time since their divergence and led us hypothesize that indels and structural changes may represent one of the major mechanism of proteome evolution in the higher primates. Human T-complex protein 10 like (TCP 10L) is a representative having indel within its coding sequence. Gene structure of human TCP10L compared with chimpanzee TCP10L gene showed 16 base pair difference in genomic DNA. As a result of the indel, frame shift mutation occurs in coding sequence (CDS) and human TCP10L express longer polypeptide of 21 amino acid residues than that of chimpanzee. Our prediction found that the indel may affect to dramatic change of secondary protein structure between human and chimpanzee TCP10L. Especially, the structural changes in the C-terminal region of TCP10L protein may affect on the interacting potential to other proteins rather than DNA binding function of the protein. Through these changes, TCP10L might influence gene expression profiles in liver and testis and subsequently influence the physiological changes required in primate evolution.

단백질의 세포내 위치 예측을 위한 다중레이블 분류 방법의 성능 비교 (A Performance Comparison of Multi-Label Classification Methods for Protein Subcellular Localization Prediction)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제18권4호
    • /
    • pp.992-999
    • /
    • 2014
  • 단백질이 존재하는 세포내의 다중 위치를 정확하게 예측하기 위하여 다중레이블 학습 방법을 광범위하게 비교한다. 이를 위하여 다중레이블 분류의 접근 방법인 알고리즘 적응, 문제 변환, 메타 학습의 여러 방법을 비교 평가한다. 다양한 관점에서 다중레이블 분류 방법의 특성을 평가하기 위하여 12가지 평가 척도를 사용하였고, 최적의 성능을 보이는 방법을 찾기 위하여 새로운 요약 척도를 사용하였다. 비교 실험 결과, 흔하지 않은 다중레이블 집합을 가지치기 하는 멱집합 방법과, 관련 레이블들을 추가된 특징으로 나타내는 분류기-체인 방법의 성능이 높았다. 또한, 이들 방법들로 구성된 여러 개의 분류기를 조합하면 더욱 성능이 향상되었다. 즉, 세포내 위치간의 연관관계를 사용하는 것이 예측에 효과적인데, 특정 생물학적 기능을 수행하는 단백질의 세포내 위치들의 관계는 독립적이지 않고 서로 관련되어 있기 때문이라 판단된다.

단백질 기능 흐름 모델 구성 및 평가 기법 (A Method for Protein Functional Flow Configuration and Validation)

  • 장우혁;정석훈;한동수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권4호
    • /
    • pp.284-288
    • /
    • 2009
  • 단백질 상호작용의 예측 및 실험 결과가 대용량으로 배포되면서 바이오 정보 기술 연구자들은 생명체 내의 단백질 상호작용 네트워크를 구성하기 위해 노력하여 왔다. 일반적으로 대용량의 상호작용 데이터들은 많은 오류를 포함한다고 알려져 있으나, 최근 단백질의 물리 화학적 특성 및 구조를 기반으로 한 방법들이 실제 실험과 병행되어 고화질(High resolution)의 결과를 제공하게 되면서, 특정 종에 대한 단백질 상호작용 네트워크가 점차 완성되고 있다. 그러나, 단순 물리적 링크 수준의 단백질 상호작용 네트워크만으로는 특정 병원체의 발병 메커니즘 규명 등과 같은 응용분야의 활용에 한계가 있다. 본 논문에서는 실험을 통하여 보고된 신호 전달 경로(signaling transduction pathway)를 이용하여 단백질 기능 간의 관계를 방향성이 있는 그래프로 표현한 단백질 기능 흐름 모델을 제시한다. 제안하는 모델은 Gene Ontology에서 정의된 molecular function을 정점(vertex)으로 가지고 이들 사이의 관계를 간선(edge)으로 표현함으로써 특정 기능의 전이를 살펴볼 수 있다. 이러한 기능 흐름 모델은 수 만개의 정점(vertex)으로 구성된 단백질 상호작용 네트워크에서 의미 있는 경로를 추출하는 데에 제약 혹은 참조 조건으로 사용될 수 있어 향후 활용도가 클 것으로 기대한다. 평가는 KEGG에서 제공되는 11개의 인간 신호 전달 경로 각각에 대하여 대상 경로를 제외한 나머지로부터 생성된 모델과의 크론바하 알파 계수(Cronbach's alpha)를 측정하였고(${\alpha}=0.67$), 총 1023개의 흐름 중 ${\alpha}=0.6$ 이상의 신뢰도에 대하여 총 765개의 흐름을 가지는 기능 흐름 모델을 최종 구성하였다.

단백질 가시화 형태에 따른 정보표현적합도 평가 (Evaluation of Information Representation Goodness-of-fit According to Protein Visualization Pattern)

  • 변재희;최유주;서정근
    • 인터넷정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.117-125
    • /
    • 2015
  • 단백질 기능을 규명하는 단백질 구조 정보는 단백질 의약품의 약효를 증진시키고, 개발을 단축시키는데 큰 영향을 미친다. 따라서 단백질의 구조를 효과적으로 분석하기 위한 단백질 가시화에 대한 연구가 증가하고 있다. 하지만 단백질 가시화에 대한 연구가 단백질의 구조를 예측하거나 렌더링의 속도를 향상시키는 것을 중심으로 이뤄지고 있으며, 단백질 가시화 형태에 따른 정보 전달 효용성에 대한 연구는 미비한 실정이다. 본 연구는 단백질 의약품에 대한 효율적인 정보 서비스의 사전 연구로써 단백질 1, 2차구조 혼합가시화 형태별 정보표현적합도를 분석하였다. 단백질 1, 2차구조 혼합가시화 형태는 대표적 가시화 서비스인 Chimera, PDB, Cn3D와 기존 가시화 서비스의 문제점을 개선한 단백질 1, 2차구조 혼합가시화 형태를 대상으로 하였다. 정보표현적합도를 구하기 위한 정보요인은 피험자 분석 결과를 바탕으로 단백질 1차구조, 아미노산 위치, 단백질 2차구조, 단백질 2차구조 비율정보로 구분하였으며, 피험자는 단백질 의약품 업계종사기간이 5년 이상인 전문가 집단을 대상으로 하였다. 그 결과 단백질 1, 2차구조 혼합가시화형태별 정보표현적합도에는 유의미한 차이가 있었으며, 가시화 형태별 정보 전달 효용성에 차이가 있음을 입증할 수 있었다.

Backbone 1H, 15N, and 13C Resonances Assignment and Secondary Structure Prediction of SAV0506 from Staphylococcus aureus

  • Lee, In Gyun;Lee, Ki-Young;Kim, Ji-Hun;Chae, Susanna;Lee, Bong-Jin
    • 한국자기공명학회논문지
    • /
    • 제17권1호
    • /
    • pp.54-58
    • /
    • 2013
  • SAV0506 is an 87 residue hypothetical protein from Staphylococcus aureus strain Mu50 and also predicted to have similar function to ribosome associated heat shock protein, Hsp 15. Hsp15 is thought to be involved in the repair mechanism of erroneously produced 50S ribosome subunit. In this report, we present the sequence specific backbone resonance assignment of SAV0506. About 82.5% of all resonances could be assigned unambiguously. By analyzing deviations of the $C{\alpha}$ and $C{\beta}$ chemical shift values, we could predict the secondary structure of SAV0506. This study is an essential step towards the structural characterization of SAV0506.

Predicting tissue-specific expressions based on sequence characteristics

  • Paik, Hyo-Jung;Ryu, Tae-Woo;Heo, Hyoung-Sam;Seo, Seung-Won;Lee, Do-Heon;Hur, Cheol-Goo
    • BMB Reports
    • /
    • 제44권4호
    • /
    • pp.250-255
    • /
    • 2011
  • In multicellular organisms, including humans, understanding expression specificity at the tissue level is essential for interpreting protein function, such as tissue differentiation. We developed a prediction approach via generated sequence features from overrepresented patterns in housekeeping (HK) and tissue-specific (TS) genes to classify TS expression in humans. Using TS domains and transcriptional factor binding sites (TFBSs), sequence characteristics were used as indices of expressed tissues in a Random Forest algorithm by scoring exclusive patterns considering the biological intuition; TFBSs regulate gene expression, and the domains reflect the functional specificity of a TS gene. Our proposed approach displayed better performance than previous attempts and was validated using computational and experimental methods.

단백질의 기능 예측을 위한 도메인 검색 방법 (Search method of Domain for prediction of protein function)

  • 허미영;김홍기;최진성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.239-242
    • /
    • 2003
  • 모든 생명체는 유전자의 최종 산물인 다양한 단백질들이 각각의 복잡한 기능을 수행함과 동시에 그들 사이의 긴밀한 상호작용에 의해 생명을 유지한다. 도메인 (Domain)은 단백질의 기능적 단위로서 한 개 단백질은 최대 수십 개의 도메인을 가지는데 이들 도메인에 대한 정보는 단백질의 기능을 예측하는데 도움이 될 수 있다. 본 논문에서는 종양을 억제하는 기능을 가지는 단백질과 그러한 기능을 가질 것으로 추정되어지는 단백질의 아미노산 서열, 또 기능이 밝혀지지 않은 미지의 아미노산 서열을 가지고 이미 밝혀져 있는 도메인 서열과 비교 검색하여 이들 사이에 일치하는 도메인을 통하여 표적 단백질의 기능 동정에 관한 연구에 도움이 되며, 또한 기능이 밝혀지지 않은 아미노산 서열의 도메인을 검색하여 새로운 기능을 예측함으로써 다른 실험적 방법과 비교하여 시간과 비용을 절약할 수 있는 효과적인 방법을 얻었기에 제안하고자 한다.

  • PDF

An Information-based Model for an Interactive Web Service with Agricultural Biotechnology

  • Kim, Chang-Kug;Seo, Young-Joo;Park, Dong-Suk;Hahn, Jang-Ho
    • Genomics & Informatics
    • /
    • 제9권2호
    • /
    • pp.85-88
    • /
    • 2011
  • The National Agricultural Biotechnology Information Center (NABIC) constructed an agricultural biology-based infrastructure and developed a biological information-based database. The major functions of the NABIC are focused on biotechnological developments for agricultural bioinformatics and providing a web-based service to construct bioinformatics workflows easily, such as protein function prediction and genome systems biology programs. The NABIC has concentrated on the functional genomics of major crops, building an integrated biotechnology database for agro-biotech information that focuses on the proteomics of major agricultural resources, such as rice, Chinese cabbage, rice Ds-tagging lines, and microorganisms.

서열 유사도와 특징 기반 분류를 융합시킨 단백질 기능 예측 시스템 (A Hybrid Protein Function Prediction System Using Sequence Similarity and Feature-based Classification)

  • 문지환;김유성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.197-200
    • /
    • 2010
  • 단백질의 서열 정보와 기능 정보의 양이 증가함에 따라 컴퓨터 실험을 통한 단백질의 기능 예측이 가능해졌으며 정확성이 높은 예측 시스템을 개발하려는 여러 연구가 시도되고 있다. 대표적인 방법으로 서열 유사도를 기반으로 기능 예측을 하는 시스템이 제안되었으나 단백질 중에는 서열이 유사하지만 기능이 다르거나 또는 서열은 다름에도 불구하고 기능이 같은 단백질이 존재하기 때문에 서열의 유사도 만을 이용해서는 단백질의 기능 예측을 어렵다. 이러한 유사도 방법의 단점을 극복하기 위해 단백질 서열로부터 추출한 특징을 기반으로 분류하는 방법도 제안되었다. 본 논문에서는 이러한 기존 방법들의 장점을 얻기 위하여 서열 유사도 방법과 특징 기반 방법을 융합한 단백질 기능 예측 시스템을 제안하고 예측 정확성 분석을 위한 실험을 실시하였다. 실험의 결과에 따르면 제안된 융합시스템이 서열 유사도만을 이용한 방법과 특징 기반 방법보다 좋은 예측 정확률을 갖는 것으로 분석되었다.