• 제목/요약/키워드: 단백질 기능 예측

검색결과 128건 처리시간 0.033초

단백질 상호 작용 예측을 위한 SVM의 부정예제 생성방법론 (Negative example generation methods of SVM for predicting protein-protein interactions)

  • 김철환;정유진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.265-267
    • /
    • 2004
  • 생명체의 기본 정보가 저장된 DNA에서 생성되는 단백질은 생명 현상의 중요한 기능적 역할을 수행하기 때문에 단백질과 관련된 다양한 연구가 진행되고 있다. 본 논문에서는 단백질간 상호작용(protein-protein interaction)을 예측하기 위해 시스템을 통계학적 모델인 Support Vector Machine(SVM)을 사용하였다. SVM 시스템은 상호작용이 있는 데이터(긍정예제)와 상호작용이 없는 데이터(부정예제)를 입력으로 하여 모델링 생성과 테스트를 하는데, 상호작용이 있는 데이터는 DIP에 있는 interaction list로 해결이 가능하지만 상호작용이 없는 데이터는 현재 존재하지 않기 때문에 이를 생성하기 위한 생성방법이 필요하다. 이 논문에서는 shuffling, non-interaction list, 그리고 앞의 두 방법을 보완하는 non-interaction list + shuffling이라는 방법을 제시하고 기존의 실험 결과를 상회하는 부정예제 생성방법을 제시한다.

  • PDF

최적 연관 속성 규칙을 이용한 비명시적 단백질 상호작용의 예측 (Prediction of Implicit Protein - Protein Interaction Using Optimal Associative Feature Rule)

  • 엄재홍;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권4호
    • /
    • pp.365-377
    • /
    • 2006
  • 단백질들은 서로 다른 단백질들과 상호작용 하거나 복합물을 형성함으로써 생물학적으로 중요한 기능을 한다고 알려져 있다. 때문에 대부분의 세포작용에 있어 중요한 역할을 하는 단백질 상호작용의 분석 및 예측에 대한 연구는 여러 연구그룹으로부터 풍부한 데이타가 산출되고 있는 현(現) 게놈시대에서 또 하나의 중요한 이슈가 되고 있다. 본 논문에서는 효모(Saccharomyces cerevisiae)에 대해 공개되어있는 단백질 상호작용 데이타들에서 속성들 간의 연관을 통해 유추 가능한 잠재적 단백질 상호작용들을 예측하기 위한 연관속성 마이닝 방법을 제시한다. 단백질의 속성들 중 연속값을 가지는 속성값들은 최대상호 의존성에 기반을 두어 이산화 하였으며, 정보이론기반 속성선택 알고리즘을 사용하여 단백질들 간의 상호작용 예측을 위해 고려되는 단백질의 속성(attribute) 수 증가에 따른 속성차원문제를 극복하도록 하였다. 속성들 간의 연관성 발견은 데이타마이닝 분야에서 사용되는 연관규칙 발견(association rule discovery) 방법을 사용하였다 논문에서 제안한 방법은 발견된 연관규칙을 통한 단백질 상호작용 예측문제에 있어 최대 약 96.5%의 예측 정확도를 보였으며 속성필터링을 통하여 속성필터링을 하지 않는 기존의 방법에 비해 최대 약 29.4% 연관규칙 발견속도 향상을 보였다.

단백질 기능 흐름 모델 구성 및 평가 기법 (A Method for Protein Functional Flow Configuration and Validation)

  • 장우혁;정석훈;한동수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권4호
    • /
    • pp.284-288
    • /
    • 2009
  • 단백질 상호작용의 예측 및 실험 결과가 대용량으로 배포되면서 바이오 정보 기술 연구자들은 생명체 내의 단백질 상호작용 네트워크를 구성하기 위해 노력하여 왔다. 일반적으로 대용량의 상호작용 데이터들은 많은 오류를 포함한다고 알려져 있으나, 최근 단백질의 물리 화학적 특성 및 구조를 기반으로 한 방법들이 실제 실험과 병행되어 고화질(High resolution)의 결과를 제공하게 되면서, 특정 종에 대한 단백질 상호작용 네트워크가 점차 완성되고 있다. 그러나, 단순 물리적 링크 수준의 단백질 상호작용 네트워크만으로는 특정 병원체의 발병 메커니즘 규명 등과 같은 응용분야의 활용에 한계가 있다. 본 논문에서는 실험을 통하여 보고된 신호 전달 경로(signaling transduction pathway)를 이용하여 단백질 기능 간의 관계를 방향성이 있는 그래프로 표현한 단백질 기능 흐름 모델을 제시한다. 제안하는 모델은 Gene Ontology에서 정의된 molecular function을 정점(vertex)으로 가지고 이들 사이의 관계를 간선(edge)으로 표현함으로써 특정 기능의 전이를 살펴볼 수 있다. 이러한 기능 흐름 모델은 수 만개의 정점(vertex)으로 구성된 단백질 상호작용 네트워크에서 의미 있는 경로를 추출하는 데에 제약 혹은 참조 조건으로 사용될 수 있어 향후 활용도가 클 것으로 기대한다. 평가는 KEGG에서 제공되는 11개의 인간 신호 전달 경로 각각에 대하여 대상 경로를 제외한 나머지로부터 생성된 모델과의 크론바하 알파 계수(Cronbach's alpha)를 측정하였고(${\alpha}=0.67$), 총 1023개의 흐름 중 ${\alpha}=0.6$ 이상의 신뢰도에 대하여 총 765개의 흐름을 가지는 기능 흐름 모델을 최종 구성하였다.

위치 종속 유사도 스펙트럼을 이용한 단백질 서열의 아미노산 조성 추정 (Estimating Amino Acid Composition of Protein Sequences Using Position-Dependent Similarity Spectrum)

  • 지상문
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권1호
    • /
    • pp.74-79
    • /
    • 2010
  • 단백질의 아미노산 조성은 생물정보학의 여러 문제를 해결하기 위한 기초적인 정보로 자주 활용된다. 본 논문에서는 아미노산간의 진화적인 연관성을 정의한 BLOSUM 행렬에서 유도한 유사도 함수를 사용하여 아미노산 조성을 결정한다. 이러한 방법은 생물학적인 연관성이 있는 단백질 서열일수록 비슷한 아미노산 조성을 갖도록 한다. 또한 단백질의 구조와 기능에 중요한 역할을 하는 위치-특이적인 아미노산의 분포를 추정하기 위해서 레이더나 음성 신호의 스펙트럼 분석에 사용되는 개념인 시간-종속 분석, 시간 해상도와 주파수 해상도의 개념을 적용하였다. 제안한 방법을 단백질의 세포내 위치예측에 적용하여 기존의 아미노산 조성 추정 방법을 사용하는 것보다 크게 향상된 성능을 보임을 확인하였다.

EPs-TFP 마이닝 기법을 이용한 단백질 Disorder/Order 지역 분류 (Protein Disorder/Order Region Classification Using EPs-TFP Mining Method)

  • 이헌규;신용호
    • 한국산업정보학회논문지
    • /
    • 제17권6호
    • /
    • pp.59-72
    • /
    • 2012
  • 단백질은 서열의 disorder 구역이 생물학적 반응을 일으켜 order로 변하는 과정에서 그 기능을 하게 되므로 서열 데이터에서 disorder 구역과 order 구역을 분리하는 것은 단백질의 3차 구조 및 특성을 예측하는데 반드시 필요하다. 따라서 이 논문에서는 효율적인 disorder와 order 구역 분류를 위해서 단백질의 특정 특징에 치우치지 않는 분류 결과를 얻으면서, 분류 속도를 향상 시킬 수 있도록 서열 데이터를 이용한 분류/예측 기법을 제안한다. 출현패턴 기반의 EPs-TFP 기법은 중복 출현패턴이 제거된 필수 출현패턴만을 이용하는 분류/예측 기법이다. 이 분류 기법은 disorder 구역의 서열 출현패턴들을 발견하며, 이러한 서열 출현패턴은 disorder 구역에서는 빈발하지만 order 구역에서는 상대적으로 빈발하지 않는 패턴들이다. 또한 제안 알고리즘의 성능 향상을 위해서 기존의 P-tree, T-tree 개념의 TFP 기법을 확장하여 분류/예측 기법으로 적용하였다. EPs-TFP 기법의 성능평가를 위해서 Disprot 4.9와 CASP 7 데이터를 활용하였고, disorder/order 구역을 분류한 결과, 민감도 73.6, 특이도 69.5, 정확도 74.2를 보였다.

단백질 서열 연관 규칙 마이닝을 위한 효율적인 알고리즘 설계 (Efficient Sequence Association Rule Mining for Discovering Protein Relations)

  • 김현민;김지혜
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (하)
    • /
    • pp.1183-1186
    • /
    • 2002
  • DNA 의 염기서열 탐색을 위한 유전체학의 다음 세대인 구조유전체학은 유전체 사업으로 인한 인간 게놈지도의 완성과 축적된 생물정보를 이용한 생물정보학의 발달과 함께 급속한 성장을 계속하고 있다. 포스트 게놈 시대를 맞이하여 생명현상에 대한 궁극적인 이해를 위한 노력으로 단백질의 구조와 기능에 대한 연구가 주목을 받게 되었다. 다양한 구조 규명을 위한 도구들과 단백질 정보를 관리하기 위한 데이터베이스 구축에 따른 관련 기술의 발전은, 앞으로 다가올 생물정보의 방대함을 감안할 때, 가치 있는 지식정보를 얻기 위한 데이터 마이닝 기법들을 통해서만 가능하다. 본 논문은 데이터 마이닝의 근간 기술인 연관규칙 마이닝을 응용한 효율적인 서열 연관 규칙 알고리즘을 제안하며, 단백질 구조의 예측을 위한 단백질 서열 및 DNA 서열간의 패턴 비교 및 연관성을 목적으로 한다. 또한, 공간적 시간적 복잡성을 CMS-tree 라는 자료구조를 통해 알고리즘의 확장성 및 병렬화의 기본 알고리즘으로 사용하도록 개발하였다.

  • PDF

단백질의 세포내 위치 예측을 위한 다중레이블 분류 방법의 성능 비교 (A Performance Comparison of Multi-Label Classification Methods for Protein Subcellular Localization Prediction)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제18권4호
    • /
    • pp.992-999
    • /
    • 2014
  • 단백질이 존재하는 세포내의 다중 위치를 정확하게 예측하기 위하여 다중레이블 학습 방법을 광범위하게 비교한다. 이를 위하여 다중레이블 분류의 접근 방법인 알고리즘 적응, 문제 변환, 메타 학습의 여러 방법을 비교 평가한다. 다양한 관점에서 다중레이블 분류 방법의 특성을 평가하기 위하여 12가지 평가 척도를 사용하였고, 최적의 성능을 보이는 방법을 찾기 위하여 새로운 요약 척도를 사용하였다. 비교 실험 결과, 흔하지 않은 다중레이블 집합을 가지치기 하는 멱집합 방법과, 관련 레이블들을 추가된 특징으로 나타내는 분류기-체인 방법의 성능이 높았다. 또한, 이들 방법들로 구성된 여러 개의 분류기를 조합하면 더욱 성능이 향상되었다. 즉, 세포내 위치간의 연관관계를 사용하는 것이 예측에 효과적인데, 특정 생물학적 기능을 수행하는 단백질의 세포내 위치들의 관계는 독립적이지 않고 서로 관련되어 있기 때문이라 판단된다.

서열 분석을 위한 연관 규칙 탐사 (Association Rule Discovery for Sequence Analysis)

  • 김정자;이도헌
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.91-93
    • /
    • 2001
  • 최근 지놈(Genome) 프로젝트를 통해 핵산, 단백질 서열 정보가 밝혀짐에 따라 분자 수준의 유전자 정보를 다루는 기법들이 활발히 연구되면서 방대한 서열 정보를 데이터 베이스화하고, 부족하기 위한 효과적인 도구와 컴퓨터 알고리즘의 개발을 필요로 하고 있다. 본 논문에서는 여러 단백질에 공통적으로 존재하는 서열 정보간에 존재하는 연관성을 탐사하기 위한 서열 연관 규칙 알고리즘을 제안한다. 원자 항목을 취급하였던 기존 알고리즘과는 달리 중복을 반영해야 하는 서열 데이터의 특성을 고려하여야 한다. 실험을 단백질 서열 데이터를 대상으로 수행하였다. 먼저 여러 서열에 빈발하게 발생하는 부 서열 집합을 찾고, 부 서열 집합들간에 존재하는 관련성을 탐사한다. 본 연구의 결과는 탐사된 규칙으로부터 다른 단백질의 구조와 기능을 예측할 수 있고, 이 정보는 필요로 하는 생물학적 분석을 방향을 제시할 것이다. 이는 생물학적 실험 대상의 후부조합을 최소화함으로써 많은 시간과 노력 비용을 절감할 수 있다.

  • PDF

Duration HMM을 이용한 진핵생물 유전자 예측 프로그램 개발 (A Eukaryotic Gene Structure Prediction Program Using Duration HMM)

  • 태홍석;박기정
    • 미생물학회지
    • /
    • 제39권4호
    • /
    • pp.207-215
    • /
    • 2003
  • 주어진 염기서열에서 단백질로 코딩되는 영역을 예측하는 유전자 구조 예측은 유전자 annotation의 가장 핵심적인 부분으로 유전자 분석 및 유전체 프로젝트 전체에 큰 영향을 준다. 진핵생물의 유전자가 원핵생물의 유전자에 비해 더 복잡한 구조를 가지기 때문에 진핵생물의 유전자 구조 예측 모델 역시 원핵생물에 비해 다양하고 복잡한 모델로 구성되어 있다. 본 연구팀은 duration hidden markov model을 기본형태로 하여 진핵생물의 유전자 구조 예측 프로그램인 EGSP를 개발하였다. 이 프로그램은 각 생명체의 유전자 구조 예측에 필요한 파라메터를 생성하는 학습기능과, 이를 기반으로 핵산 서열을 입력으로 해서 단백질을 코딩하는 부위를 예측하여 출력하는 기능으로 구성되며, 최근의 프로그램들의 추세대로 복수 개 유전자 예측의 기능을 갖추고 있다. EGSP의 학습과 예측에 사용되는 각 파라메터의 전체 성능에 대한 효과 분석 등을 위해 여러 개 signal에 대한 개별 모델이 주는 효과 등을 분석하였다. 진핵생물의 유전자 구조 예측에 가장 많이 연구되는 human dataset을 이용하여 현재 개발된 유전자 구조 예측 프로그램인 GenScan과 GeneID, Morgan 등 보편적으로 사용되는 프로그램들과의 성능을 여러 가지 기준에서 비교한 결과, 본 프로그램이 실용성 있는 수준을 보여주는 것을 확인하였다. 그리고 진핵 미생물인 Saccharomyces cerevisiae로 성능을 테스트한 결과 만족할 만한 수준의 성능을 나타내는 것을 알 수 있었다.

단백질 구조예측 지원을 위한 조정 에이전트의 설계 (Design of a Coordinator Agent for Supporting Protein Structure Prediction)

  • 김현식;예형석;진훈;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (상)
    • /
    • pp.389-392
    • /
    • 2003
  • 인터넷상의 생물학 자원들을 이용하는 에이전트 시스템들에는 몇 가지 특징들이 있는데, 그중 하나가 바로 사용자 에이전트와 공개 데이터베이스들을 대신하는 에이전트들간의 자원 이용과정에서 발생하는 정보를 효율적으로 중계하고 조정하는 역할을 하는 기능이 존재해야 한다는 것이다. 공개 데이터베이스 자원들을 이용하는 경우 서로 다른 데이터 양식과 용어 체계, 제공하는 정보의 양과 정보를 제공하는데 걸리는 시간 등의 차이점이 존재하며, 또한 하나의 UI 에이전트로부터 복수 개의 질의를 수행하는 경우나 복수 개의 UI 에이전트들로부터 복수 개의 질의가 이루어지는 경우, 다양한 형태와 제공 정보로 인해 발생하는 자원들의 특성이 존재하게 된다. 이를 해결하기 위해서는 자원들의 다양성에 대한 고려, 메시지 트랜잭션의 관리와 더불어 다양한 플랫폼들에서 운용이 가능한 메시지 형식을 띠고 있어야 한다. 본 논문에서는 현재 개발중인 단백질 구조예측 연구를 지원하는 APSS 시스템 내에서의 사용자 에이전트와 여러 분석 및 자원 에이전트들 간의 효율적인 메시지 중재 및 조정기능을 갖는 CODY 에이전트를 설계하였고 이에 관하여 기술하고자 한다.

  • PDF