• 제목/요약/키워드: Protein prediction

검색결과 475건 처리시간 0.029초

In Silico Functional Assessment of Sequence Variations: Predicting Phenotypic Functions of Novel Variations

  • Won, Hong-Hee;Kim, Jong-Won
    • Genomics & Informatics
    • /
    • 제6권4호
    • /
    • pp.166-172
    • /
    • 2008
  • A multitude of protein-coding sequence variations (CVs) in the human genome have been revealed as a result of major initiatives, including the Human Variome Project, the 1000 Genomes Project, and the International Cancer Genome Consortium. This naturally has led to debate over how to accurately assess the functional consequences of CVs, because predicting the functional effects of CVs and their relevance to disease phenotypes is becoming increasingly important. This article surveys and compares variation databases and in silico prediction programs that assess the effects of CVs on protein function. We also introduce a combinatorial approach that uses machine learning algorithms to improve prediction performance.

젖소에서의 산욕기질병 발생예견에 관한 연구 (A Study on the Prediction of Parturient Syndrome in Holstein Cows)

  • 윤화영;최희인
    • 한국임상수의학회지
    • /
    • 제2권1호
    • /
    • pp.133-141
    • /
    • 1985
  • In order to establish a method predicting susceptible cows to the parturient syndrome, various serum chemical parameters (calcium, phosphorus, Ca/P, magnesium, cholesterol, total protein, albumin, globulin, A/G, total lipid, non-esterified fatty acid(NEFA) and aspartate aminotransferase(AST)) were measured during late pregnancy and their relationships with periparturient diseases were investigated during puerpural period. The results obtained were as follows : 1. The factors affecting the prediction of susceptible cows to parturient syndrome were calcium, magnesium, total protein, globulin, A/G ratio and total lipid at 30 day antepartum and the diagnosability was 70.7%. 2. In the experimental cows producing more than 21kg of milk per day, the factors affecting the prediction of susceptible cows to parturient syndrome were calcium, NEFA and A/G ratio at 30 day antepartum and the diagnosability was 66.7%. 3. In the experimental cows calved more than 3 times, the factors affecting the perdiction of susceptible cows to parturient syndrome were calcium, total protein, albumin and NEFA at 30 day antepartum and the diagnosability was 83.3%.

  • PDF

단백질 서열정렬 정확도 예측을 위한 새로운 방법 (A new method to predict the protein sequence alignment quality)

  • 이민호;정찬석;김동섭
    • Bioinformatics and Biosystems
    • /
    • 제1권1호
    • /
    • pp.82-87
    • /
    • 2006
  • 현재 가장 많이 사용되는 단백질 구조 예측 방법은 비교 모델링 (comparative modeling) 방법이다. 비교 모델링 방법에서의 정확도를 높이기 위해서는 alignment의 정확도 역시 매우 필수적으로 필요하다. 비교 모델링 과정 중의 fold-recognition 단계에서 alignment의 정확도에 의해 template을 고르는 방법은 단지 가장 비슷한 template을 선택하는 방법에 비해 주목을 받지 못하고 있다. 최근에는 두 가지의 alignment에 사이의 shift 정보를 바탕으로 한 shift score라는 수치가 alignment의 성능을 표현하기 위해서 개발되었다. 우리는 더 정확한 구조 예측의 첫걸음이 될 수 있는 shift score를 예측하는 방법을 개발하였다. Shift score를 예측하기 위해 support vector regression (SVR)이 사용되었다. 사전에 구축된 라이브러리 안의 길이가 n 인 template과 구조를 알고 싶은 query 단백질 사이의 alignment는 n+2 차원의 input 벡터로 변환된다. Structural alignment가 가장 좋은 alignment로 가정되었고 SVR은 query 단백질과 template 단백질의 structural alignment과 profile-profile alignment 사이의 shift score를 예측하도록 training 되었다. 예측 정확도는 Pearson 상관계수로 측정되었다. Training 된 SVR은 실제의 shift score와 예측된 shift score 사이에 0.80의 Pearson 상관계수를 갖는 정도로 예측하였다.

  • PDF

최적 연관 속성 규칙을 이용한 비명시적 단백질 상호작용의 예측 (Prediction of Implicit Protein - Protein Interaction Using Optimal Associative Feature Rule)

  • 엄재홍;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권4호
    • /
    • pp.365-377
    • /
    • 2006
  • 단백질들은 서로 다른 단백질들과 상호작용 하거나 복합물을 형성함으로써 생물학적으로 중요한 기능을 한다고 알려져 있다. 때문에 대부분의 세포작용에 있어 중요한 역할을 하는 단백질 상호작용의 분석 및 예측에 대한 연구는 여러 연구그룹으로부터 풍부한 데이타가 산출되고 있는 현(現) 게놈시대에서 또 하나의 중요한 이슈가 되고 있다. 본 논문에서는 효모(Saccharomyces cerevisiae)에 대해 공개되어있는 단백질 상호작용 데이타들에서 속성들 간의 연관을 통해 유추 가능한 잠재적 단백질 상호작용들을 예측하기 위한 연관속성 마이닝 방법을 제시한다. 단백질의 속성들 중 연속값을 가지는 속성값들은 최대상호 의존성에 기반을 두어 이산화 하였으며, 정보이론기반 속성선택 알고리즘을 사용하여 단백질들 간의 상호작용 예측을 위해 고려되는 단백질의 속성(attribute) 수 증가에 따른 속성차원문제를 극복하도록 하였다. 속성들 간의 연관성 발견은 데이타마이닝 분야에서 사용되는 연관규칙 발견(association rule discovery) 방법을 사용하였다 논문에서 제안한 방법은 발견된 연관규칙을 통한 단백질 상호작용 예측문제에 있어 최대 약 96.5%의 예측 정확도를 보였으며 속성필터링을 통하여 속성필터링을 하지 않는 기존의 방법에 비해 최대 약 29.4% 연관규칙 발견속도 향상을 보였다.

수입 박류사료내 에너지 및 영양소 함량의 변이 (Variation in Energy and Nutrient Composition of Oilseed Meals from Different Countries)

  • 손아름
    • 한국가금학회지
    • /
    • 제47권2호
    • /
    • pp.107-114
    • /
    • 2020
  • This study was conducted to investigate the variation in nutrient composition of oilseed meals and to develop prediction equations for amino acid concentrations. Energy and nutrient contents were determined in a total of 1,380 feed ingredient samples including copra byproducts, corn distillers, dried grains with solubles, palm kernel byproducts, and soybean meal. The ingredient samples were imported to the Republic of Korea between 2006 and 2015. Data were analyzed using the MIXED procedure of SAS. The regression procedure of SAS was used to generate the prediction equation for the lysine concentration using the crude protein (CP) concentration as an independent variable. The concentrations of moisture, gross energy, CP, ether extract, crude fiber, ash, calcium, phosphorus, lysine, methionine, cysteine, and threonine in tested oilseed meals differed (P<0.05) depending on producing countries. The prediction equations for amino acid concentrations (% as-is basis) in the oilseed meals are: lysine = -1.08 + 0.080 × CP (root mean square error = 0.244, R2 = 0.924, and P<0.001); threonine = -0.297 + 0.044 × CP (root mean square error = 0.099, R2 = 0.958, and P<0.001). In conclusion, energy and nutrient compositions vary in the oilseed meals depending on the producing countries. Moreover, the crude protein concentration can be used as a suitable independent variable for estimating lysine and threonine concentrations in the oilseed meals.

단백질 서열의 n-Gram 자질을 이용한 세포내 위치 예측 (Classification Protein Subcellular Locations Using n-Gram Features)

  • 김진숙
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.12-16
    • /
    • 2007
  • 단백질의 기능은 그 기능을 발휘하는 세포내의 위치와 밀접한 연관이 있다. 따라서 새로운 단백질의 서열이 밝혀지면 이 단백질의 세포내 위치를 규명하는 것은 생물학적으로 매우 중요한 일이다. 이 논문에서는 단백질의 n-그램과 kNN (k-Nearest Neighbor) 분류기를 이용한 새로운 세포내 위치예측 방법을 다룬다. 이 방법은 입력 단백질 서열과 가장 유사한 가중치를 가지는 k개의 단백질이 가지는 세포내 위치 정보들을 취합하여 입력 단백질의 세포내 위치를 추정한다. 단백질간의 유사도 가중치는 두 단백질서열의 5-그램 자질의 유사도를 비교하여 계산된다. 단백질의 세포내 위치예측 정확도를 검증하기 위해 SWISS-PROT 단백질 데이터베이스로 부터 세포내 위치가 알려진 51,885개의 서열을 추출하여 대용량 테스트 컬렉션을 구축하였으며, 다른 연구자들이 제공하는 또 하나의 소용량 테스트 컬렉션을 실험에 사용하였다. 이 논문에서 사용한 예측방법은 대용량 테스트컬렉션에 대해 약 93%의 정확도를 보여주었으며, 소용량 데스트컬렉션을 이용하여 이전 실험과 비교하였을 때도 이 방법이 다른 시스템에 비해 성능이 우월함을 알 수 있었다.

  • PDF

SVM 모델을 이용한 3차원 패치 기반 단백질 상호작용 사이트 예측기법 (Prediction of Protein-Protein Interaction Sites Based on 3D Surface Patches Using SVM)

  • 박성희
    • 정보처리학회논문지D
    • /
    • 제19D권1호
    • /
    • pp.21-28
    • /
    • 2012
  • 모노머 단백질의 상호작용 사이트 예측은 기능을 알지 못하는 단백질에 대해서 이것과 상호작용하는 단백질로부터 기능을 예측하거나 단백질 도킹을 위한 검색 공간의 감소에 중요한 역할을 한다. 그러나 상호작용사이트 예측은 대부분 단백질 상호작용이 세포 내에서 순간적 반응에 일어나는 약한 상호작용으로 실험에 의한 3차원 결정 구조 식별의 어려움이 따르며 이로 인해 3차원의 복합체 데이터가 제한적으로 양산된다. 이 논문에서는 모노머 단백질의 3차원 패치 계산을 통하여 구조가 알려진 복합체의 상호작용사이트와 비상호작용사이트에 대한 패치 속성을 추출하고 이를 기반으로 Support Vector Machine (SVM) 분류기법을 이용한 예측 모델 개발을 제시한다. 타겟 클래스의 데이터 불균형 문제 해결을 위해 under-sampling 기법을 이용한다. 사용된 패치속성은 2차 구조 요소와 아미노산 구성으로부터 총 9개가 추출된다. 147개의 단백질 복합체에 대해서 10 fold cross validation을 통해서 다양한 분류모델의 성능 평가를 하였다. 평가한 분류 모델 중 SVM은 92.7%의 높은 정확성을 보이고 이를 이용하여 분류 모델을 개발하였다.

단백질 이차 구조 예측을 위한 합성곱 신경망의 구조 (Architectures of Convolutional Neural Networks for the Prediction of Protein Secondary Structures)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.728-733
    • /
    • 2018
  • 단백질을 구성하는 아미노산의 서열 정보만으로 단백질 이차 구조를 예측하기 위하여 심층 학습이 활발히 연구되고 있다. 본 논문에서는 단백질 이차 구조를 예측하기 위하여 다양한 구조의 합성곱 신경망의 성능을 비교하였다. 단백질 이차 구조의 예측에 적합한 신경망의 층의 깊이를 알아내기 위하여 층의 개수에 따른 성능을 조사하였다. 또한 이미지 분류 분야의 많은 방법들이 기반 하는 GoogLeNet과 ResNet의 구조를 적용하였는데, 이러한 방법은 입력 자료에서 다양한 특성을 추출하거나, 깊은 층을 사용하여도 학습과정에서 그래디언트 전달을 원활하게 한다. 합성곱 신경망의 여러 구조를 단백질 자료의 특성에 적합하게 변경하여 성능을 향상시켰다.

Prediction of Protein Kinase Specific Phosphorylation Sites with Multiple SVMs

  • Lee, Won-Chul;Kim, Dong-Sup
    • Bioinformatics and Biosystems
    • /
    • 제2권1호
    • /
    • pp.28-32
    • /
    • 2007
  • The protein phosphorylation is one of the important processes in the cell signaling pathway. A variety of protein kinase families are involved in this process, and each kinase family phosphorylates different kinds of substrate proteins. Many methods to predict the kinase-specific phosphoryrated sites or different types of phosphorylated residues (Serine/Threonine or Tyrosin) have been developed. We employed Supprot Vector Machine (SVM) to attempt the prediction of protein kinase specific phosphorylation sites. 10 different kinds of protein kinase families (PKA, PKC, CK2, CDK, CaM-KII, PKB, MAPK, EGFR) were considered in this study. We defined 9 residues around a phosphorylated residue as a deterministic instance from which protein kinases determine whether they act on. The subsets of PSI-BALST profile was converted to the numerical vectors to represent positive or negative instances. When SVM training, We took advantage of multiple SVMs because of the unbalanced training sets. Representative negative instances were drawn multiple times, and generated new traing sets with the same positive instances in the original traing set. When testing, the final decisions were made by the votes of those multiple SVMs. Generally, RBF kernel was used for the SVMs, and several parameters such as gamma and cost factor were tested. Our approach achieved more than 90% specificity throughout the protein kinase families, while the sensitivities recorded 60% on average.

  • PDF

AllEC: An Implementation of Application for EC Numbers Prediction based on AEC Algorithm

  • Park, Juyeon;Park, Mingyu;Han, Sora;Kim, Jeongdong;Oh, Taejin;Lee, Hyun
    • International Journal of Advanced Culture Technology
    • /
    • 제10권2호
    • /
    • pp.201-212
    • /
    • 2022
  • With the development of sequencing technology, there is a need for technology to predict the function of the protein sequence. Enzyme Commission (EC) numbers are becoming markers that distinguish the function of the sequence. In particular, many researchers are researching various methods of predicting the EC numbers of protein sequences based on deep learning. However, as studies using various methods exist, a problem arises, in which the exact prediction result of the sequence is unknown. To solve this problem, this paper proposes an All Enzyme Commission (AEC) algorithm. The proposed AEC is an algorithm that executes various prediction methods and integrates the results when predicting sequences. This algorithm uses duplicates to give more weights when duplicate values are obtained from multiple methods. The largest value, among the final prediction result values for each method to which the weight is applied, is the final prediction result. Moreover, for the convenience of researchers, the proposed algorithm is provided through the AllEC web services. They can use the algorithms regardless of the operating systems, installation, or operating environment.