• Title/Summary/Keyword: 유전자 예측

Search Result 503, Processing Time 0.024 seconds

Preprocessing Model for Operon Prediction Using Relative Distance of Genes and COG Distance (COG 거리와 유전자 간의 상대 위치정보를 이용한 오페론 예측 전처리 모델)

  • Chun, Bong-Kyung;Jang, Chul-Jin;Kang, Eun-Mi;Cho, Hwan-Gue
    • Proceedings of the Korean Society for Bioinformatics Conference
    • /
    • 2003.10a
    • /
    • pp.210-219
    • /
    • 2003
  • 오페론(operon)은 보통 미생물에서 다수의 인접한 유전자들로 구성된 그룹으로 하나의 유전자처럼 공통된 프로모터에 의해 전사되는 단위이다. 오페론을 구성하는 유전자들은 기능적으로 서로 유사하거나 같은 물질대사경로(metabolic pathway) 상에 존재하는 특징을 지니기 때문에 이들은 중요한 의미를 가지며, 미생물 유전체 분석에서 오페론을 구성하는 유전자들을 예측하는 것은 상당히 중요하다. 오페론을 예측하는 이전 연구들로는 이미 알려진 오페론의 특징인 유전자간 거리나 오페론을 구성하는 평균 유전자 개수 등을 이용하는 방법, 마이크로어레이 발현 실험을 이용한 방법, 전유전체(whole genome)들 간의 보존된 유전자 집합(conserved gene cluster)을 이용한 방법 그리고 물질대사경로를 이용한 방법 등이 있다. 본 논문에서는 COG 기능(function) 거리, 유전자 간의 거리, 코돈 사용빈도(codon usage) 그리고COG 기능 거리와 유전자간 거리를 같이 적용한 방법을 이용하여 오페론 예측을 위한 전처리 모델을 생성하였다 전처리 모델을 E. coli 전유전체에 적용해본 결과, 알려진 오페론들의 약 90%가 이를 포함하였다. 따라서 본 논문에서 제시한 전처리 모델은, 추후 오페론 예측을 위한 좋은 도구로 활용할 수 있을 것이다.

  • PDF

Gene Prediction Using Phylogenomics and COG (계통유전체학과 COG를 이용한 유전자 기능예측)

  • 신창진;강병철;박준형;신동훈;김철민
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2004.04a
    • /
    • pp.255-258
    • /
    • 2004
  • 본 연구는 유전자 기능예측에 있어서 유사성 검색과 비교유전체학이 가진 한계를 극복하기 위하여 9종의 Human Herpesvirus를 대상으로 COG와 계통유전학적 방법을 적용하여 향상된 유전자 기능예측을 하고자 하였다. COG의 방법을 이용하여 114 HCOGs (Human Herpesvvirus COGs)를 구축하고, HCOGs를 바탕으로 유전자 컨텐츠트리를 제작하였다. 이 트리를 통하여 각 HCOG는 $\alpha$-특이적 그룹, $\beta$-특이적 그룹, $\alpha$, $\beta$, ${\gamma}$ -특이적 그룹 중 하나에 속함을 보였다. 계통유전체학의 적용을 위하여 u, $\beta$, ${\gamma}$ -특이 그룹에 속하는 ORF중 DNA polymerase를 이용하여 종트리를 제작하였다. SDI (Speciation and Duplication) 알고리즘을 통하여 148개의 당단백질에서 47개의 복제점을 예측하였고, 초기 HCOG의 제작에서 제외되었던 7 ORF는 당단백질과 관련된 5개의 HCOG로 재 정의 하였다. 이 연구를 통하여 COG는 ortholog 그룹을 를러스터링하는데 효과적인 방법이며, 이를 더욱 보완할 수 있는 방법으로 비교유전체학이 사용될 수 있음을 확인하였다. 이는 비교유전체학의 방법과 계통유전체학적 방법을 조화시켜 유전자 기능 예측을 보완할 수 있음을 보여 주었다.

  • PDF

Prediction of Cognitive Impairment Using Blood Gene Expression Based on Machine Learning (혈액 유전자 발현을 이용한 기계학습 기반 인지장애 예측)

  • Lee, Seungeun;Zhou, Yu;Kang, Kyungtae
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.61-62
    • /
    • 2022
  • 알츠하이머성 치매는 현존하는 치료법이 없어 경도인지장애 단계에서의 예방이 중요하다. 지금까지의 알츠하이머 연구는 대부분이 뇌영상 마커와 뇌척수액 마커에 집중되어 있었으며, 경도 인지 장애 단계에서의 탐색은 더욱 적었다. 이러한 점에서 혈액 유전자 발현을 이용한 경도 인지장애 단계 예측은 인지 능력에 따른 관련 유전자 식별과 접근 가능한 진단 및 치료 바이오 마커 탐색에 기여할 수 있다. 그러나 유전자 발현 데이터의 경우 환자 수에 비해 높은 차원을 가지기 때문에 과적합을 막고 질병 관련 유전자를 식별하기 위해서는 데이터에서의 의미 있는 차원만을 뽑아내는 차원 축소가 선행되야 한다. 본 연구는 유전자 발현데이터에서의 인지장애 분류를 위해 차원 축소기법과 신경망을 적용하여 인지 장애 정도를 예측하였다. 그 결과, Lasso 이용 차원축소와 신경망을 이용하여 97%의 정확도로 정상과 조기 경도 인지장애, 후기 경도 인지장애 환자를 분류 할 수 있었으며, 더 적은 차원에서도 분류가 가능했다. 이는 혈액 유전자 발현을 이용해 경도 인지장애 단계를 예측한 첫 번째 연구이며, 인지능력 저하에 따른 혈액 유전자 발현의 연관성을 확인하고 향후 조기 진단, 치료 표적 탐색에 기여한다.

  • PDF

A Node2Vec-Based Gene Expression Image Representation Method for Effectively Predicting Cancer Prognosis (암 예후를 효과적으로 예측하기 위한 Node2Vec 기반의 유전자 발현량 이미지 표현기법)

  • Choi, Jonghwan;Park, Sanghyun
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.8 no.10
    • /
    • pp.397-402
    • /
    • 2019
  • Accurately predicting cancer prognosis to provide appropriate treatment strategies for patients is one of the critical challenges in bioinformatics. Many researches have suggested machine learning models to predict patients' outcomes based on their gene expression data. Gene expression data is high-dimensional numerical data containing about 17,000 genes, so traditional researches used feature selection or dimensionality reduction approaches to elevate the performance of prognostic prediction models. These approaches, however, have an issue of making it difficult for the predictive models to grasp any biological interaction between the selected genes because feature selection and model training stages are performed independently. In this paper, we propose a novel two-dimensional image formatting approach for gene expression data to achieve feature selection and prognostic prediction effectively. Node2Vec is exploited to integrate biological interaction network and gene expression data and a convolutional neural network learns the integrated two-dimensional gene expression image data and predicts cancer prognosis. We evaluated our proposed model through double cross-validation and confirmed superior prognostic prediction accuracy to traditional machine learning models based on raw gene expression data. As our proposed approach is able to improve prediction models without loss of information caused by feature selection steps, we expect this will contribute to development of personalized medicine.

A novel Node2Vec-based 2-D image representation method for effective learning of cancer genomic data (암 유전체 데이터를 효과적으로 학습하기 위한 Node2Vec 기반의 새로운 2 차원 이미지 표현기법)

  • Choi, Jonghwan;Park, Sanghyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.383-386
    • /
    • 2019
  • 4 차산업혁명의 발달은 전 세계가 건강한 삶에 관련된 스마트시티 및 맞춤형 치료에 큰 관심을 갖게 하였고, 특히 기계학습 기술은 암을 극복하기 위한 유전체 기반의 정밀 의학 연구에 널리 활용되고 있어 암환자의 예후 예측 및 예후에 따른 맞춤형 치료 전략 수립 등을 가능케하였다. 하지만 암 예후 예측 연구에 주로 사용되는 유전자 발현량 데이터는 약 17,000 개의 유전자를 갖는 반면에 샘플의 수가 200 여개 밖에 없는 문제를 안고 있어, 예후 예측을 위한 신경망 모델의 일반화를 어렵게 한다. 이러한 문제를 해결하기 위해 본 연구에서는 고차원의 유전자 발현량 데이터를 신경망 모델이 효과적으로 학습할 수 있도록 2D 이미지로 표현하는 기법을 제안한다. 길이 17,000 인 1 차원 유전자 벡터를 64×64 크기의 2 차원 이미지로 사상하여 입력크기를 압축하였다. 2 차원 평면 상의 유전자 좌표를 구하기 위해 유전자 네트워크 데이터와 Node2Vec 이 활용되었고, 이미지 기반의 암 예후 예측을 수행하기 위해 합성곱 신경망 모델을 사용하였다. 제안하는 기법을 정확하게 평가하기 위해 이중 교차 검증 및 무작위 탐색 기법으로 모델 선택 및 평가 작업을 수행하였고, 그 결과로 베이스라인 모델인 고차원의 유전자 벡터를 입력 받는 다층 퍼셉트론 모델보다 더 높은 예측 정확도를 보여주는 것을 확인하였다.

Modeling Embryonic Development in Drosophila by Evolutionary Learning of Dynamical System (동역학 시스템의 진화적 학습에 의한 초파리 발생과정 모델링)

  • Rhee Je-Keun;Nam Jin-Wu;Joung Je-Gun;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.280-282
    • /
    • 2005
  • 초파리 초기 발생과정은 gap 유전자, pair-rule 유전자, polarity 유전자의 세 가지 유전자 그룹에 의해서 조직화 된다. Gap 유전자들에 의해 pair-rules 유전자들의 발현이 조절되며, 이들에 의해 결국 polarity 유전자들의 발현을 조절함으로써, 정확한 위치에서 각 기관의 형성을 유도한다. 특히 분열 14단계에서는 pair-rule 유전자 중의 하나인 eve 유전자의 발현이 조절되는데, eve 유전자는 배아의 분할의 줄무늬를 형성시키는 유전자에 해당된다. 본 논문에서는 eve 유전자의 발현조절자인 hunchback, giant, kruppel, bicoid의 gap 유전자들로 구성된 조절 네트워크를 S-system을 이용하여 모델링하였다. 이를 통해 각 유전자들의 발현 데이터로부터 파라미터들을 진화 연산을 통해 예측하고, 각 유전자들의 발현에 대한 시뮬레이션 결과를 보여준다. 예측된 결과와 실제 데이터의 비교는 전체적으로 패턴이 서로 유사함을 보여주고 있다.

  • PDF

A Study on development of short term electric load prediction system with the genetic algorithm and the fuzzy system (유전자알고리즘과 퍼지시스템을 이용한 단기부하예측 시스템 개발에 관한 연구)

  • Kang, Hwan-Il;Jang, Woo-Seok
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.16 no.6
    • /
    • pp.730-735
    • /
    • 2006
  • This paper proposes a time series prediction method for the short term electrical load will) the fuzzy system and the genetic algorithm. At first, we obtain the optimal fuzzy membership function using the genetic algorithm. With the optimal fuzzy rules and its input differences, a better time prediction system may be obtained. We obtain good results for the time prediction of the short term electric load by the proposed algorithm. In addition we implement the graphic user interface for the proposed algorithms. Finally, we implement the regional prediction system for the electric load.

Inference of Gene Regulatory Program using Local Alignment (지역정렬을 이용한 유전자 발현 조절 프로그램 예측)

  • Lee, Ji-Yeon;Jin, Hee-Jeong;Cho, Hwan-Gue
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10a
    • /
    • pp.11-16
    • /
    • 2006
  • 세포의 활동은 단순히 하나의 유전자의 발현으로 설명되기보다 여러 유전자와 그로 인해 생성된 단백질의 상호 작용에 의해 나타난다. 또한 마이크로어레이 실험을 통해 세포 내의 유전자 발현에 대한 정보를 알 수 있게 되고, Chromatin IP 마이크로어레이 실험을 통해 신뢰도가 높은 유전자 발현 조절 관계 데이터를 얻을 수 있게 되면서, 유사한 기능과 유사한 발현 패턴을 보이는 유전자들을 그룹으로 묶어 유전자 모듈로 규정하고 이를 하나의 유전자 조절 네트워크로 구성하고, 분석하는 연구들이 진행되고 있다. 본 논문에서는 ChIP 실험 데이터와 유전자 발현 데이터를 이용하여 지역 정렬을 수행해 하나의 유전자 모듈을 조절하는 조절 프로그램을 예측하는 알고리즘에 대해 기술한다. 조절 프로그램은 유전자 조절 모듈을 조절하는 조절자들의 역할 및 발현 여부에 따른 유전자 조절 모듈 내 유전자들의 발현을 설명할 수 있는 것이다.

  • PDF

Forecasting algorithm using an improved genetic algorithm based on backpropagation neural network model (개선된 유전자 역전파 신경망에 기반한 예측 알고리즘)

  • Yoon, YeoChang;Jo, Na Rae;Lee, Sung Duck
    • Journal of the Korean Data and Information Science Society
    • /
    • v.28 no.6
    • /
    • pp.1327-1336
    • /
    • 2017
  • In this study, the problems in the short term stock market forecasting are analyzed and the feasibility of the ARIMA method and the backpropagation neural network is discussed. Neural network and genetic algorithm in short term stock forecasting is also examined. Since the backpropagation algorithm often falls into the local minima trap, we optimized the backpropagation neural network and established a genetic algorithm based on backpropagation neural network for forecasting model in order to achieve high forecasting accuracy. The experiments adopted the korea composite stock price index series to make prediction and provided corresponding error analysis. The results show that the genetic algorithm based on backpropagation neural network model proposed in this study has a significant improvement in stock price index series forecasting accuracy.

A Study on Construction of Integrated Prokaryotes Gene Prediction System (통합형 미생물 유전자 예측 시스템의 구축에 관한 연구)

  • Chang Jong-won;Ryoo Yoon-kyu;Ku Ja-hyo;Yoon Young-woo
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.6 no.1
    • /
    • pp.27-32
    • /
    • 2005
  • As a large quantity of Genome sequencing has happened to be done a very much a surprising speed in short period, an automatic genome annotation process has become prerequisite. The most difficult process among with this kind of genome annotation works is to finding out the protein-coding genes within a genome. The main 2 subjects of gene prediction are Eukaryotes and Prokaryotes ; their genes have different structures, therefore, their gene prediction methods will also obviously varies. Until now, it is found that among of the 231 genome sequenced species, 200 have been found to be prokaryotes, therefore, for study of biotechnology studies, through comparative genomics, prokaryotes, rather than eukaryotes could may be more appropriate than eukaryotes. Even more, prokaryotes does not have the gene structure called an intron, so it makes the gene prediction easier. Former prokaryotes gene predictions have been shown to be 80%~ to 90% of accuracy. A recent study is aiming at 100% of gene prediction accuracy. In this paper, especially in the case of the E. coli K-12 and S. typhi genomes, gene prediction accuracy which showed 98.5% and 98.7% was more efficient than previous GLIMMER.

  • PDF