• Title/Summary/Keyword: 단백질 기능 예측

Search Result 128, Processing Time 0.024 seconds

Multi-Label Combination for Prediction of Protein Subcellular Localization (다중레이블 조합을 사용한 단백질 세포내 위치 예측)

  • Chi, Sang-Mun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.18 no.7
    • /
    • pp.1749-1756
    • /
    • 2014
  • Knowledge about protein subcellular localization provides important information about protein function. This paper improves a label power-set multi-label classification for the accurate prediction of subcellular localization of proteins which simultaneously exist at multiple subcellular locations. Among multi-label classification methods, label power-set method can effectively model the correlation between subcellular locations of proteins performing certain biological function. With constrained optimization, this paper calculates combination weights which are used in the linear combination representation of a multi-label by other multi-labels. Using these weights, the prediction probabilities of multi-labels are combined to give final prediction results. Experimental results on human protein dataset show that the proposed method achieves higher performance than other prediction methods for protein subcellular localization. This shows that the proposed method can successfully enrich the prediction probability of multi-labels by exploiting the overlapping information between multi-labels.

단백질 구조예측작업 에이전트의 프로토타입 설계

  • Nam, Duk-Woo;Jin, Hoon;Kim, In-Chul
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2003.05a
    • /
    • pp.239-245
    • /
    • 2003
  • 15년에 걸쳐 수행된 게놈프로젝트의 완성으로 인류는 본격적으로 프로테옴 시대로 접어들게 되었다. 90년대 중반 이후 전세계적으로 다량의 단백질 구조정보 및 예측을 위한 방법들이 소개되고 있지만 각 자원들마다 저장, 관리 형식이 다를 뿐만아니라 이용하는 방법도 어렵다. 또한 결과적으로 컴퓨터기술을 이용한 단백질의 구조예측작업을 제대로 지원하기 어렵다. 본 논문에서는 개방형다중 에이전트 시스템을 통해 이를 해결하고자 했으며 특히 단백질 자원 데이터베이스를 효과적으로 이용하기 위한 에이전트 설계방법에 대하여 기술하고자 한다. 단백질 구조 예측 지원을 위해 효과적인 에이전트 내부 구조를 설계함으로써 점차로 요구되는 온톨로지 기술이나, 자동 예측 기능과 같은 다양한 요구사항들을 충족시킬 수 있을 것이다.

  • PDF

Classification Protein Subcellular Locations Using n-Gram Features (단백질 서열의 n-Gram 자질을 이용한 세포내 위치 예측)

  • Kim, Jinsuk
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2007.11a
    • /
    • pp.12-16
    • /
    • 2007
  • The function of a protein is closely co-related with its subcellular location(s). Given a protein sequence, therefore, how to determine its subcellular location is a vitally important problem. We have developed a new prediction method for protein subcellular location(s), which is based on n-gram feature extraction and k-nearest neighbor (kNN) classification algorithm. It classifies a protein sequence to one or more subcellular compartments based on the locations of top k sequences which show the highest similarity weights against the input sequence. The similarity weight is a kind of similarity measure which is determined by comparing n-gram features between two sequences. Currently our method extract penta-grams as features of protein sequences, computes scores of the potential localization site(s) using kNN algorithm, and finally presents the locations and their associated scores. We constructed a large-scale data set of protein sequences with known subcellular locations from the SWISS-PROT database. This data set contains 51,885 entries with one or more known subcellular locations. Our method show very high prediction precision of about 93% for this data set, and compared with other method, it also showed comparable prediction improvement for a test collection used in a previous work.

  • PDF

Discovering Sequence Association Rules for Protein Structure Prediction (단백질 구조 예측을 위한 서열 연관 규칙 탐사)

  • Kim, Jeong-Ja;Lee, Do-Heon;Baek, Yun-Ju
    • The KIPS Transactions:PartD
    • /
    • v.8D no.5
    • /
    • pp.553-560
    • /
    • 2001
  • Bioinformatics is a discipline to support biological experiment projects by storing, managing data arising from genome research. In can also lead the experimental design for genome function prediction and regulation. Among various approaches of the genome research, the proteomics have been drawing increasing attention since it deals with the final product of genomes, i.e., proteins, directly. This paper proposes a data mining technique to predict the structural characteristics of a given protein group, one of dominant factors of the functions of them. After explains associations among amino acid subsequences in the primary structures of proteins, which can provide important clues for determining secondary or tertiary structures of them, it defines a sequence association rule to represent the inter-subsequences. It also provides support and confidence measures, newly designed to evaluate the usefulness of sequence association rules, After is proposes a method to discover useful sequence association rules from a given protein group, it evaluates the performance of the proposed method with protein sequence data from the SWISS-PROT protein database.

  • PDF

Analysis and Visualization for Protein-Protein Interaction Using LEDA (LEDA를 이용한 단백질 상호작용의 분석과 가시화)

  • 윤지현;조환규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.286-288
    • /
    • 2004
  • PPI(Protein-Protein Interaction) 데이터는 생물체 내에서 서로 상호작용하는 단백질(protein)들에 대한 정보이다. 단백질 상호작용은 실제 생체 내에서 어떠한 작용이 일어나게 하는 원인이므로, 많은 생물학자들이 관심을 가지고 연구하고 있으며, 그 결과로 몇몇 데이터베이스가 만들어졌다. 이런 데이터베이스들은 다른 연구자들을 위해 데이터를 공개하고 있지만, 대부분의 데이터베이스가 탭으로 분리된 텍스트 형태로 제공한다. 하지만, 텍스트 형태의 데이터는 사람이 직관적으로 인지할 수 없기 때문에, PPI 데이터를 분석하기 쉬운 그래프 형태로 보여주는 프로그램이 필요하다. 그리고 아직 기능을 모르는 단백질이 많으므로 이를 예측하는 프로그램도 필요하다 본 논문에서는 LEDA를 이용하여 PPI 데이터를 그래프 형태로 표현하며, 이 그래프에 그래프 이론을 적용하여 단백질의 기능을 예측하는 프로그램인 Proteinca에 대해 서술한다.

  • PDF

Predication of Protein Subcelluar Localization by Selecting Significant Sequence Composition (주요 서열 구성의 선택에 의한 단백질의 세포내 소기관 위치 예측)

  • Kim Soo-Jin;Joung Je-Gun;Rhee Je-Keun;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.283-285
    • /
    • 2005
  • 단백질들이 어느 세포내 소기관에 위치하는지에 대한 지식은 그들의 기능을 예측하는데 있어서 중요한 정보를 제공한다. 하지만 실험적으로 세포내 소기관 위치를 분석하는 작업은 않은 비용과 시간을 요구한다. 따라서 지금까지 단백질의 세포내 소기관 위치 예측을 위한 다양한 계산적 방법들이 개발되었으나, 효율적인 학습 데이터의 생성에 있어서 문제점을 가지고 있다. 본 논문은 기계학습 기법을 이용하여 주요 서열 구성을 선택함으로써 예측의 성능을 최대화 하는 방법을 제안하고자 한다. 실험은 효모의 단백질의 세포 내 소기관 위치 예측에 있어서 주요 아미노산 서열들을 선택함으로써 예측의 성능을 향상시키는 결과를 보이고 있다.

  • PDF

A Protein Sequence Prediction Method by Mining Sequence Data (서열 데이타마이닝을 통한 단백질 서열 예측기법)

  • Cho, Sun-I;Lee, Do-Heon;Cho, Kwang-Hwi;Won, Yong-Gwan;Kim, Byoung-Ki
    • The KIPS Transactions:PartD
    • /
    • v.10D no.2
    • /
    • pp.261-266
    • /
    • 2003
  • A protein, which is a linear polymer of amino acids, is one of the most important bio-molecules composing biological structures and regulating bio-chemical reactions. Since the characteristics and functions of proteins are determined by their amino acid sequences in principle, protein sequence determination is the starting point of protein function study. This paper proposes a protein sequence prediction method based on data mining techniques, which can overcome the limitation of previous bio-chemical sequencing methods. After applying multiple proteases to acquire overlapped protein fragments, we can identify candidate fragment sequences by comparing fragment mass values with peptide databases. We propose a method to construct multi-partite graph and search maximal paths to determine the protein sequence by assembling proper candidate sequences. In addition, experimental results based on the SWISS-PROT database showing the validity of the proposed method is presented.

Prediction of Protein Subcellular Localization using Label Power-set Classification and Multi-class Probability Estimates (레이블 멱집합 분류와 다중클래스 확률추정을 사용한 단백질 세포내 위치 예측)

  • Chi, Sang-Mun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.18 no.10
    • /
    • pp.2562-2570
    • /
    • 2014
  • One of the important hints for inferring the function of unknown proteins is the knowledge about protein subcellular localization. Recently, there are considerable researches on the prediction of subcellular localization of proteins which simultaneously exist at multiple subcellular localization. In this paper, label power-set classification is improved for the accurate prediction of multiple subcellular localization. The predicted multi-labels from the label power-set classifier are combined with their prediction probability to give the final result. To find the accurate probability estimates of multi-classes, this paper employs pair-wise comparison and error-correcting output codes frameworks. Prediction experiments on protein subcellular localization show significant performance improvement.

The Problem of the e-value of InterPro to find additional domains in Domain Combination (InterPro의 e-value 조정을 통한 신규 도메인 발견 접근 방식의 문제점)

  • Hur, Hee-Young;Han, Dong-Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10a
    • /
    • pp.17-21
    • /
    • 2006
  • 도메인 기반 단백질 상호작용 예측 기법은 지난 몇 년 동안 활발히 연구되어 왔다. 도메인 기반 접근 방법 중에서도 도메인 조합 기반 단백질 상호작용 가능성 순위 부여 기법은 예측 정확도면에서 다른 기법보다 월등한 결과를 보여주고 있다. 그러나 학습 집단을 사용하는 특징 때문에 전체 도메인 정보를 이용할 수 없는 단점이 있다. 또한, 이 시스템은 도메인 정보가 부족하여 다른 기능을 하는 단백질이라도 같은 도메인 정보를 보여주기 때문에 예측 시스템의 결점을 드러내고 있다. 도메인 조합 기반 단백질 상호작용 가능성 순위 부여 기법은 InterPro 데이터베이스의 도메인 정보를 기반으로 사용한다. InterProScan은 InterPro의 여러 멤버 데이터베이스의 정보를 기반으로 Sequence 분석을 하는 소프트웨어로써 검색 후 단계에서 찾아낸 결과들을 e-value를 기반으로 여과한다. 본 논문에서는 제시된 e-value를 조정 방법을 사용함으로써 단백질 내 도메인 패턴의 다양화와 기존 도메인 정보가 없던 단백질의 도메인을 새롭게 발견할 수 있으나 접근 방식의 한계가 존재함을 확인할 수 있었다.

  • PDF

Comparison of Deep Learning Models Using Protein Sequence Data (단백질 기능 예측 모델의 주요 딥러닝 모델 비교 실험)

  • Lee, Jeung Min;Lee, Hyun
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.6
    • /
    • pp.245-254
    • /
    • 2022
  • Proteins are the basic unit of all life activities, and understanding them is essential for studying life phenomena. Since the emergence of the machine learning methodology using artificial neural networks, many researchers have tried to predict the function of proteins using only protein sequences. Many combinations of deep learning models have been reported to academia, but the methods are different and there is no formal methodology, and they are tailored to different data, so there has never been a direct comparative analysis of which algorithms are more suitable for handling protein data. In this paper, the single model performance of each algorithm was compared and evaluated based on accuracy and speed by applying the same data to CNN, LSTM, and GRU models, which are the most frequently used representative algorithms in the convergence research field of predicting protein functions, and the final evaluation scale is presented as Micro Precision, Recall, and F1-score. The combined models CNN-LSTM and CNN-GRU models also were evaluated in the same way. Through this study, it was confirmed that the performance of LSTM as a single model is good in simple classification problems, overlapping CNN was suitable as a single model in complex classification problems, and the CNN-LSTM was relatively better as a combination model.