• Title/Summary/Keyword: 유전자 데이터

Search Result 661, Processing Time 0.023 seconds

Candidate Marker Identification from Gene Expression Data with Attribute Value Discretization and Negation (속성값 이산화 및 부정값 허용을 하는 의사결정트리 기반의 유전자 발현 데이터의 마커 후보 식별)

  • Lee, Kyung-Mi;Lee, Keon-Myung
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.21 no.5
    • /
    • pp.575-580
    • /
    • 2011
  • With the increasing expectation on personalized medicine, it is getting importance to analyze medical information in molecular biology perspective. Gene expression data are one of representative ones to show the microscopic phenomena of biological activities. In gene expression data analysis, one of major concerns is to identify markers which can be used to predict disease occurrence, progression or recurrence in the molecular level. Existing markers candidate identification methods mainly depend on statistical hypothesis test methods. This paper proposes a search method based decision tree induction to identify candidate markers which consist of multiple genes. The propose method discretizes numeric expression level into three categorical values and allows candidate markers' genes to be expressed by their negation as well as categorical values. It is desirable to have some number of genes to be included in markers. Hence the method is devised to try to find candidate markers with restricted number of genes.

Power-law Distributional Perturbation Analysis of the Topology of Reconstructed Genetic Networks (재구성된 유전자 네트워크의 섭동적(Perturbational) 토폴로지 변형 분석)

  • 이상근;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.754-756
    • /
    • 2003
  • DNA칩 기술로 얻어지는 대규모 섭동데이터(perturbation data)는 생물학적시스템(biological system)의 유전자네트워크(genetic network)를 재구성(reverse-engineering)하는데 있어 유용하다. 그러나 기존의 연구는 유전자 조절 관계의 규명이나 혹은 데이터를 설명하는 최적의 모델을 찾는 방향에만 관심을 두고 있고. 실험적인 한계로 인한 DNA칩 데이터의 오류가 재구성된 네트워크의 구조에 미치는 영향에 대해서는 중요하게 다루고 있지 않다. 본 논문에서는 유전자 네트워크의 멱함수(power-low) 분포 구조를 이용하여, 섭동 데이터의 오류가 재구성된 네트워크의 토폴로지(topology)에 미치는 영향을 분석하였다. 가상의 네트워크에 대한 데이터를 사용하여 실험한 결과, 데이터의 오류 정도에 따른 네트워크 토폴로지의 변형 양상을 관측할 수 있었다.

  • PDF

Cancer Patient Specific Driver Gene Identification by Personalized Gene Network and PageRank (개인별 유전자 네트워크 구축 및 페이지랭크를 이용한 환자 특이적 암 유발 유전자 탐색 방법)

  • Jung, Hee Won;Park, Ji Woo;Ahn, Jae Gyoon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.12
    • /
    • pp.547-554
    • /
    • 2021
  • Cancer patients can have different kinds of cancer driver genes, and identification of these patient-specific cancer driver genes is an important step in the development of personalized cancer treatment and drug development. Several bioinformatic methods have been proposed for this purpose, but there is room for improvement in terms of accuracy. In this paper, we propose NPD (Network based Patient-specific Driver gene identification) for identifying patient-specific cancer driver genes. NPD consists of three steps, constructing a patient-specific gene network, applying the modified PageRank algorithm to assign scores to genes, and identifying cancer driver genes through a score comparison method. We applied NPD on six cancer types of TCGA data, and found that NPD showed generally higher F1 score compared to existing patient-specific cancer driver gene identification methods.

Classification of Gene Expression Data by Ensemble of Bayesian Networks (앙상블 베이지안망에 의한 유전자발현데이터 분류)

  • 황규백;장정호;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.434-436
    • /
    • 2003
  • DNA칩 기술로 얻어지는 유전자발현데이터(gene expression data)는 생채 조직이나 세포의 수천개에 달하는 유전자의 발현량(expression level)을 측정한 것으로, 유전자발현양상(gene expression pattern)에 기반한 암 종류의 분류 등에 유용하다. 본 논문에서는 확률그래프모델(probabilistic graphical model)의 하나인 베이지안망(Bayesian network)을 발현데이터의 분류에 적응하며, 분류 성능을 높이기 위해 베이지안망의 앙상블(ensemble of Bayesian networks)을 구성한다. 실험은 실제 암 조직에서 추출된 유전자발현데이터에 대해 행해졌다 실험 결과, 앙상블 베이지안망의 분류 정확도는 단일 베이지안망보다 높았으며, naive Bayes 분류기, 신경망, support vector machine(SVM) 등과 대등한 성능을 보였다.

  • PDF

Development of an Integrated System for Genetic Regulatory Network Analysis (유전자 조절 네트워크 분석을 위한 통합 시스템 개발)

  • 이경신;조환규;박선희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.283-285
    • /
    • 2004
  • 마이크로 어레이 기술로 인해서 유전자의 발현 데이터를 대량으로 얻을 수 있게 되었다. 따라서 실험조건에 따른 유전자 발현 양상을 한눈에 볼 수 있게 되었고. 이를 기반으로 유전자간의 조절 관계를 예측할 수 있게 되었다. 또한 실험 이미지와 분석 파일들이 많아짐에 따라서 이러한 데이터를 효율적으로 관리하고, 저장하는 시스템이 필요하게 되었다. 이 두 가지 시스템을 통합함으로써 유전자 조절 네트워크 분석에 필요한 발현 데이터를 체계적으로 관리하고 손쉽게 얻을 수 있을 뿐만 아니라 분석 결과 또한 효율적으로 관리할 수 있다. 본 논문에서는 유전자 네트워크 분석 시스템과 마이크로 이미지 및 분석 데이터 관리 시스템을 통합한 시스템을 소개하고 각 시스템에서 제공하는 기능과 통합 시스템의 특징에 대해서 소개한다.

  • PDF

유전자 알고리즘을 이용한 비모수 회귀분석

  • 김병도;노상규
    • Proceedings of the Korea Database Society Conference
    • /
    • 1998.09a
    • /
    • pp.584-594
    • /
    • 1998
  • 선형회귀분석은 가장 널리 사용되는 데이터 분석기법이지만 독립변수와 종속변수간의 관계가 선형이라고 가정하기 때문에 문제점을 가지고 있다. 비모수 회귀분석(Nonparametric Regression)은 선형회귀분석의 문제점을 극복할 수 있는 방법으로 변수간의 관계의 형태를 미리 가정하지 않고 데이터에 의해 결정하는 방법이다. 본 연구에서는 유전자 알고리즘을 비모수 회귀분석법 중의 하나인 Regressoin Splines에 적용하였다. 인위적 데이터를 이용한 평가 결과 유전자 알고리즘은 다양한 상황에서 매우 우수한 것으로 나타났다.

  • PDF

A comparison study of classification method based of SVM and data depth in microarray data (마이크로어레이 자료에서 서포트벡터머신과 데이터 뎁스를 이용한 분류방법의 비교연구)

  • Hwang, Jin-Soo;Kim, Jee-Yun
    • Journal of the Korean Data and Information Science Society
    • /
    • v.20 no.2
    • /
    • pp.311-319
    • /
    • 2009
  • A robust L1 data depth was used in clustering and classification, so called DDclus and DDclass by Jornsten (2004). SVM-based classification works well in most of the situation but show some weakness in the presence of outliers. Proper gene selection is important in classification since there are so many redundant genes. Either by selecting appropriate genes or by gene clustering combined with classification method enhance the overall performance of classification. The performance of depth based method are evaluated among several SVM-based classification methods.

  • PDF

A novel Node2Vec-based 2-D image representation method for effective learning of cancer genomic data (암 유전체 데이터를 효과적으로 학습하기 위한 Node2Vec 기반의 새로운 2 차원 이미지 표현기법)

  • Choi, Jonghwan;Park, Sanghyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.383-386
    • /
    • 2019
  • 4 차산업혁명의 발달은 전 세계가 건강한 삶에 관련된 스마트시티 및 맞춤형 치료에 큰 관심을 갖게 하였고, 특히 기계학습 기술은 암을 극복하기 위한 유전체 기반의 정밀 의학 연구에 널리 활용되고 있어 암환자의 예후 예측 및 예후에 따른 맞춤형 치료 전략 수립 등을 가능케하였다. 하지만 암 예후 예측 연구에 주로 사용되는 유전자 발현량 데이터는 약 17,000 개의 유전자를 갖는 반면에 샘플의 수가 200 여개 밖에 없는 문제를 안고 있어, 예후 예측을 위한 신경망 모델의 일반화를 어렵게 한다. 이러한 문제를 해결하기 위해 본 연구에서는 고차원의 유전자 발현량 데이터를 신경망 모델이 효과적으로 학습할 수 있도록 2D 이미지로 표현하는 기법을 제안한다. 길이 17,000 인 1 차원 유전자 벡터를 64×64 크기의 2 차원 이미지로 사상하여 입력크기를 압축하였다. 2 차원 평면 상의 유전자 좌표를 구하기 위해 유전자 네트워크 데이터와 Node2Vec 이 활용되었고, 이미지 기반의 암 예후 예측을 수행하기 위해 합성곱 신경망 모델을 사용하였다. 제안하는 기법을 정확하게 평가하기 위해 이중 교차 검증 및 무작위 탐색 기법으로 모델 선택 및 평가 작업을 수행하였고, 그 결과로 베이스라인 모델인 고차원의 유전자 벡터를 입력 받는 다층 퍼셉트론 모델보다 더 높은 예측 정확도를 보여주는 것을 확인하였다.

Inferring Disease-related Genes using Title and Body in Biomedical Text (생물학 문헌 데이터의 제목과 본문을 이용한 질병 관련 유전자 추론 방법)

  • Kim, Jeongwoo;Kim, Hyunjin;Yeo, Yunku;Shin, Mincheol;Park, Sanghyun
    • KIISE Transactions on Computing Practices
    • /
    • v.23 no.1
    • /
    • pp.28-36
    • /
    • 2017
  • After the genome projects of the 90s, a vast number of gene studies have been stored in online databases. By using these databases, several biological relationships can be inferred. In this study, we proposed a method to infer disease-gene relationships using title and body in biomedical text. The title was used to extract hub genes from data in the literature; whereas, the body of the literature was used to extract sub genes that are related to hub genes. Through these steps, we were able to construct a local gene-network for each report in the literature. By integrating the local gene-networks, we then constructed a global gene-network. Subsequent analyses of the global gene-network allowed inference of disease-related genes with high rank. We validated the proposed method by comparing with previous methods. The results indicated that the proposed method is a meaningful approach to infer disease-related genes.

Web-based microarray analysis using the virtual chip viewer and bioconductor. (MicroArray의 직관적 시각적 분석을 위한 웹 기반 분석 도구)

  • Lee, Seung-Won;Park, Jun-Hyung;Kim, Hyun-Jin;Kang, Byeong-Chul;Park, Hee-Kyung;Kim, In-Ju;Kim, Cheol-Min
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2005.05a
    • /
    • pp.198-201
    • /
    • 2005
  • DNA microarray 칩은 신약 개발, 유전적 질환 진단, Bio-molecular 상호작용 연구, 유전자의 기능연구 등 폭넓게 사용되고 있다. 이 논문은 cDNA mimcroarray 데이터를 분석하기 위한 웹형태의 시스템 개발에 대한 내용을 다룬다. 하나의 cDNA microarray에는 수 백에서 수 만개의 유전자가 심어져 있으며, 데이터를 분석할 때 대량의 데이터와 다양한 형태의 오류로 인해서 데이터간의 차이를 보정하는 분석 도구와 통계적 기법들이 사용되어야 한다. 본 논문에서는 가상 칩 뷰어를 이용하여 실제 microarray 데이터의 foreground intensity에서 백그라운드의 intensity를 제거하여 일반화된 칩 이미지를 생성한다. 이 가상 칩 뷰어는 여러 가지 필터효과와 서로 다른 두 형광의 차이를 조정하는 global normalization 기법을 사용하여 발현 유전자 분석을 시각적으로 할 수 있고, 중복된 마이크로어레이 칩 데이터를 통하여 시간이 많이 걸리는 분석전 칩의 유효성을 검토할 수 있다. 칩 데이터의 normalization을 위한 통계 방법으로 R 통계 도구와 linear 모델을 사용하여 microarray 칩의 유전자 발현 양상을 분석한다. 통계적 방법을 사용하지 않은 데이터를 추출, 이 데이터의 패턴 그래프 그리고 발현 레벨을 분류하여 마이크로어레이의 각 스팟의 유효성 검토의 정확성을 높였다. 이 시스템은 칩의 유효성 검토, 스팟의 유효성 검토, 유전자 선정에 대해 분석의 용이성과 정확성을 높일 수 있었다.

  • PDF