• Title/Summary/Keyword: 유전자 데이터

Search Result 661, Processing Time 0.021 seconds

Gene Expression Analysis by Co-evolutionary Biclustering (유전자 발현 분석을 위한 공진화적 바이클러스터링 기법)

  • Joung Je-Gun;Kim Soo-Jin;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.22-24
    • /
    • 2006
  • 마이크로어레이는 전체 유전체 수준의 mRNA 발현 여부에 대한 측정이 가능하다는 점에서 분자생물학의 실험 도구로서 가장 강력한 도구 중에 하나로 부각되어 있다. 현재까지 마이크로어래이의 결과로부터 유사한 발현 패턴을 찾기 위한 여러 가지 바이클러스터링 알고리즘들이 개발되어 왔다. 하지만 대다수의 알고리즘들이 최적의 바이클러스터들을 찾기보다는 일정 수준의 가능한 바이클러스터의 결과만을 제시하고 있다. 본 논문에서는 다른 개체집단들과 상호 진화하는 공진화적 학습에 의한 진화연산 기법을 통하여 유전자-조건의 매트릭스로부터 열과 행을 동시에 클러스터링하는 공진화적 바이클러스터링 알고리즘(co-evolutionary biclustering algorithm: CBA)을 제안하고자 한다. CBA는 유전자발현 데이터에서 유전자-조건의 상호의존적인 부성분들로 구성된 최적화 문제에 적합한 계산방식이라고 할 수 있다. 인간 유전자 발현 데이터에 대한 실험 결과. 제시한 알고리즘은 이전의 알고리즘에 비해 발견한 바이클러스터의 패턴 유사도에 있어서 우수한 성능을 보이고 있다.

  • PDF

Analysis of Gene-Drug Interactions Using Bayesian Networks (베이지안망을 이용한 유전자와 약물 간 관계 분석)

  • O, Seok-Jun;Hwang, Gyu-Baek;Jang, Jeong-Ho;Jang, Byeong-Tak
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2002.05a
    • /
    • pp.91-97
    • /
    • 2002
  • 최근의 생물학 연구를 위한 기기의 자동화 및 고속화는 생물학 관련 정보량의 급증을 가져오고 있다. 예를 들어, DNA chip에서 얻어지는 마이크로어레이(microarray)는 수천 종류의 유전자의 발현량을 동시에 측정한다. 이러한 기술들은 생물의 세포나 조직에서 일어나는 일련의 다양한 현상을 전체적으로 조망하는 관점에서 관찰할 수 있는 기회를 제공하고 있으며, 이를 통한 생명공학의 전반적인 발전이 기대되고 있다. 따라서 대량의 생물학 관련 정보의 분석이나 데이터 마이닝이 행해지고 있으며 이를 위한 대표적인 기법들로는 각종 클러스터링(clustering) 및 신경망 계열의 모델 등이 있다. 본 논문에서는 확률그래프모델의 하나인 베이지안망(Bayesian network)을 생물정보분석에 이용한다. 구체적으로 유전자 발현패턴과 약물의 활성패턴 및 암 종류 사이의 확률적 관계를 모델링한다. 이러한 모델은 NCI60 dataset(http://discover.nci.nih.gov)에서 베이지안망을 학습함으로써 구성된다. 분석의 대상이 되는 데이터가 sparse하기 때문에 발생하는 어려움들을 해결하기 위한 기법들이 제시되며 학습된 모델에 대한 검증은 이미 생물학적으로 확인되어 있는 사실과의 비교를 통해 이루어진다. 학습된 베이지안망 모델은 각각의 유전자 간, 혹은 유전자와 처리된 약물 간의 실제 생물학적 관계를 다수 표현하며, 이는 제시되는 방법이 생물학적으로 유의미한 가설을 데이터 분석을 통해 효율적으로 생성하는데 유용하게 활용될 수 있음을 보인다.

  • PDF

Gene Screening and Clustering of Yeast Microarray Gene Expression Data (효모 마이크로어레이 유전자 발현 데이터에 대한 유전자 선별 및 군집분석)

  • Lee, Kyung-A;Kim, Tae-Houn;Kim, Jae-Hee
    • The Korean Journal of Applied Statistics
    • /
    • v.24 no.6
    • /
    • pp.1077-1094
    • /
    • 2011
  • We accomplish clustering analyses for yeast cell cycle microarray expression data. To reflect the characteristics of a time-course data, we screen the genes using the test statistics with Fourier coefficients applying a FDR procedure. We compare the results done by model-based clustering, K-means, PAM, SOM, hierarchical Ward method and Fuzzy method with the yeast data. As the validity measure for clustering results, connectivity, Dunn index and silhouette values are computed and compared. A biological interpretation with GO analysis is also included.

An Intelligent System of Marker Gene Selection for Classification of Cancers using Microarray Data (마이크로어레이 데이터를 이용한 암 분류 표지 유전자 선별 시스템)

  • Park, Su-Young;Jung, Chai-Yeoung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.14 no.10
    • /
    • pp.2365-2370
    • /
    • 2010
  • The method of cancer classification based on microarray could contribute to being accurate cancer classification by finding differently expressing gene pattern statistically according to a cancer type. Therefore, the process to select a closely related informative gene with a particular cancer classification to classify cancer using present microarray technology with effect is essential. In this paper, the system can detect marker genes to likely express the most differentially explaining the effects of cancer using ovarian cancer microarray data. And it compare and analyze a performance of classification of the proposed system with it of established microarray system using multi-perceptron neural network layer. Microarray data set including marker gene that are selected using ANOVA method represent the highest classification accuracy of 98.61%, which show that it improve classification performance than established microarray system.

Molecular Profiling of Clinical Features in Breast Cancer Using Principal Component Analysis (주성분 분석 방법을 이용한 유방암의 임상적 특징과 관련된 유전자 분석)

  • Han, Mi-Ryung;Lee, Seok-Ho;Han, Won-Shik;Kim, Mi-Hyeon;Noh, Dong-Young;Kim, Ju-Han
    • Proceedings of the Korean Society for Bioinformatics Conference
    • /
    • 2004.11a
    • /
    • pp.29-35
    • /
    • 2004
  • 유방암 환자의 임상정보(clinical features)와 cDNA microarray 기술을 이용하여 얻은 유전자 발현 프로파일은 유방암 예후 인자를 찾는 데에 매우 중요하다. 본 논문에서는 임상정보와 유전자 발현 정보를 접목해서 분석하는 방법으로써 주성분 분석(Principal Component Analysis)을 이용하였다. 이 방법은 다변량 자료의 차원을 줄이는 방법으로써, 대용량 실험 데이터로 인해 발생하는 문제점을 해결하기 위하여 많이 쓰이고 있다. 본 연구에서는 주성분 분석을 이용하여 먼저 한국인 유방암 환자 73명의 cDNA microarray 데이터 차원을 줄이고, 이를 통해 얻어진 주성분(Principal Components)과 임상정보 데이터와의 상관관계를 보았다. One-way ANOVA를 이용한 상관관계 분석 결과의 P-value는 permutation test를 통해 검증하였다. 동일한 방법을 estrogen receptor(ER)(+) 환자 20명과 ER(-) 환자 31명에 적용해본 결과, ER(-) 환자 중에서 재발과 관련된 유전자를 찾을 수 있었다. 주성분 분석을 molecular phenotypic profiles of clinical features에 이용한 결과 발견된 유전자는 유방암의 재발과 관련된 예후 인자로서 의미가 있다.

  • PDF

Informatics Network Representation Between Cells Using Probabilistic Graphical Models (확률적 그래프 모델을 이용한 세포 간 정보 네트워크 추론)

  • Ra, Sang-Dong;Shin, Hyun-Jae;Cha, Wol-Suk
    • KSBB Journal
    • /
    • v.21 no.4
    • /
    • pp.231-235
    • /
    • 2006
  • This study is a numerical representative modeling analysis for the application of the process that unravels networks between cells in genetics to web of informatics. Using the probabilistic graphical model, the insight from the data describing biological networks is used for making a probabilistic function. Rather than a complex network of cells, we reconstruct a simple lower-stage model and show a genetic representation level from the genetic based network logic. We made probabilistic graphical models from genetic data and extends them to genetic representation data in the method of network modeling in informatics

A MA-plot-based Feature Selection by MRMR in SVM-RFE in RNA-Sequencing Data

  • Kim, Chayoung
    • The Journal of Korean Institute of Information Technology
    • /
    • v.16 no.12
    • /
    • pp.25-30
    • /
    • 2018
  • It is extremely lacking and urgently required that the method of constructing the Gene Regulatory Network (GRN) from RNA-Sequencing data (RNA-Seq) because of Big-Data and GRN in Big-Data has obtained substantial observation as the interactions among relevant featured genes and their regulations. We propose newly the computational comparative feature patterns selection method by implementing a minimum-redundancy maximum-relevancy (MRMR) filter the support vector machine-recursive feature elimination (SVM-RFE) with Intensity-dependent normalization (DEGSEQ) as a preprocessor for emphasizing equal preciseness in RNA-seq in Big-Data. We found out the proposed algorithm might be more scalable and convenient because of all libraries in R package and be more improved in terms of the time consuming in Big-Data and minimum-redundancy maximum-relevancy of a set of feature patterns at the same time.

Gene Expression Data Analysis Using Parallel Processor based Pattern Classification Method (병렬 프로세서 기반의 패턴 분류 기법을 이용한 유전자 발현 데이터 분석)

  • Choi, Sun-Wook;Lee, Chong-Ho
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.46 no.6
    • /
    • pp.44-55
    • /
    • 2009
  • Diagnosis of diseases using gene expression data obtained from microarray chip is an active research area recently. It has been done by general machine learning algorithms, because it is difficult to analyze directly. However, recent research results about the analysis based on the interaction between genes is essential for the gene expression analysis, which means the analysis using the traditional machine learning algorithms has limitations. In this paper, we classify the gene expression data using the hyper-network model that considers the higher-order correlations between the features, and then compares the classification accuracies. And also, we present the new hypo-network model that improve the disadvantage of existing model, and compare the processing performances of the existing hypo-network model based on general sequential processor and the improved hypo-network model implemented on parallel processors. In the experimental results, we show that the performance of our model shows improved and competitive classification performance than traditional machine learning methods, as well as, the existing hypo-network model. We show that the performance is maximized when the hypernetwork model is implemented on our parallel processors.

The implementation of efficient pattern classification system using the gene algorithm (유전자 알고리즘을 이용한 효율적인 패턴 분류 시스템 구현)

  • 이호현;최용호;서원택;조범준
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.11b
    • /
    • pp.792-795
    • /
    • 2002
  • 현재 많은 관심의 대상이 되고 있는 데이터 마이닝은 대용량의 데이터베이스로부터 일정한 패턴을 분류하여 지식의 형태로 추출하는 작업이다. 데이터 마이닝의 대표적인 기법인 군집화는 군집내의 유사성을 최대화하고 군집들간의 유사성을 최소화 시키도록 데이터 집합을 분할하는 것이다. 데이터 마이닝에서 군집화는 대용량 데이터를 다루기 때문에 원시 데이터에 대한 접근 횟수를 줄이고 알고리즘이 다루어야 할 데이터 구조의 크기를 줄이는 군집화 기법이 활발하게 사용된다. 그런데 기존의 군집화 알고리즘은 잡음에 매우 민감하고, local minima에 반응한다. 또한 사전에 군집의 개수를 미리 결정해야 하고, initialization 값에 따라 군집의 성능이 좌우되는 문제점이 있다. 본 연구에서는 유전자 알고리즘을 이용하여 자동으로 군집의 개수를 결정하는 LONGEPRO 알고리즘을 제안하고, 여기서 제시하는 적합도 함수의 최적화된 군집을 찾아내여 조금더 효율적인 알고리즘을 만들어 대용량 데이터를 다루는 데이터 마이닝에 적용해 보려 한다.

  • PDF

Application of Gene Algorithm for the development of efficient clustering system (효율적인 군집화 시스템의 개발을 위해 유전자 알고리즘의 적용)

  • Hong, Gil-Dong;Kim, Cheol-Soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.277-280
    • /
    • 2003
  • 현재 많은 관심의 대상이 되고 있는 데이터 마이닝은 대용량의 데이터베이스로부터 일정한 패턴을 분류하여 지식의 형태로 추출하는 작업이다. 데이터 마이닝의 대표적인 기법인 군집화는 군집내의 유사성을 최대화하고 군집들간의 유사성을 최소화시키도록 데이터 집합을 분할하는 것이다. 데이터 마이닝에서 군집화는 대용량 데이터를 다루기 때문에 원시 데이터에 대한 접근횟수를 줄이고 알고리즘이 다루어야 할 데이터 구조의 크기를 줄이는 군집화 기법이 활발하게 사용된다. 그런데 기존의 군집화 알고리즘은 잡음에 매우 민감하고, local minima에 반응한다. 또한 사전에 군집의 개수를 미리 결정해야 하고, initialization 값에 다라 군집의 성능이 좌우되는 문제점이 있다. 본 연구에서는 유전자 알고리즘을 이용하여 자동으로 군집의 개수를 결정하는 군집화 알고리즘을 제안하고, 여기서 제시하는 적합도 함수의 최적화된 군집을 찾아내어 조금더 효율적인 알고리즘을 만들어 대용량 데이터를 다루는 데이터 마이닝에 적용해 보려한다.

  • PDF