• Title/Summary/Keyword: 마이크로어레이실험

Search Result 100, Processing Time 0.019 seconds

Bayesian Validation Method based on Fuzzy c-Means Algorithm for Analysis of Optimal Gene Clustering (최적의 유전자 클러스터 분석을 위한 퍼지 c-Means 알고리즘 기반의 베이지안 검증 방법)

  • 유시호;원홍희;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.736-738
    • /
    • 2003
  • 수천 개의 유전자 발현 정보를 가지고 있는 DNA 마이크로어레이 기술의 발달로 대량의 생물정보를 빠른 시간 내에 분석하는 것이 가능하게 되었다. 유전자를 분석하는 방법 중 하나인 클러스터링 방법은 비슷한 기능을 가진 유전자들을 집단화시켜서 집단내의 유전자들의 기능을 밝히거나, 미지의 유전자를 분석하는데 이용되고 있다. 본 논문에서는 유전자 데이터를 분석하기 위한 퍼지 클러스터링 방법과 이를 효과적으로 검증할 수 있는 베이지안 검증 방법을 제안한다. 퍼지 c-means 알고리즘을 사용하여 클러스터를 생성하고, 클러스터 결과를 기존의 퍼지 클러스터 검증 방법들과 본 논문에서 제안하는 베이지안 검증 방법을 사용하여 비교 평가한다. 베이지안 검증 방법은 각 유전자의 클러스터 멤버쉽을 확률로 이용하여 각 클러스터에 속할 확률을 계산하고, 이 값을 가장 크게 해주는 클러스터 집단을 선택한다. 이 방법은 기존의 퍼지 클러스터 검증 방법들과는 달리 클러스터 수에 무관한 평가가 가능한 장점을 가지고 있다. Serum과 Yeast 데이터에 대한 실험 결과, 베이지안 검증 방법의 유용성을 확인할 수 있었다.

  • PDF

Analysis of Gene Expression Data Using Gath-Geva Algorithm (Gath-Geva 알고리즘을 이용한 유전자 발현 데이터의 분석)

  • 박한샘;유시호;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.253-255
    • /
    • 2004
  • 다량의 유전자 발현 정보를 담고 있는 DNA 마이크로어레이 기술의 발달로 인해 대량의 생물정보를 한번의 실험을 통해 분석할 수 있게 되었다. 유전자 발현 데이터를 분석하는 방법 중 하나인 클러스터링은 비슷한 기능을 가진 유전자들을 그룹별로 묶어서 그룹 레의 유전자들의 기능을 밝히거나 미지의 유전자를 분석하는데 이용되고 있다 본 논문에서는 유전자 발현 데이터를 클러스터링 하여 그로부터 유전 정보를 찾아내기 위한 방법으로 GG (Gath-Geva) 알고리즘을 제시한다. 퍼지 클러스터링 알고리즘중 하나인 GG 알고리즘은 대표적인 퍼지 클러스터링 방법인 퍼지 c-means 와 GK (Gustafson-Kessel) 알고리즘을 개선한 것으로. 차원이 크고 분포가 애매하여 클러스터링이 어려운 유전자 발현 데이터의 클러스터링에 적합한 알고리즘이다. 혈청(Serum) 유전자 데이터와 효모(Yeast) 세포주기 데이터를 CG 알고리즘 이용해 클러스터링 해 보고, 그 결과를 퍼지 c-means 알고리즘, GK알고리즘과 비교해 본 결과, GG 알고리즘이 유전자 발현 데이터의 클러스터링에 더 적합함을 확인하였다.

  • PDF

Variable Selection in Normal Mixture Model Based Clustering under Heteroscedasticity (이분산 상황 하에서 정규혼합모형 기반 군집분석의 변수선택)

  • Kim, Seung-Gu
    • The Korean Journal of Applied Statistics
    • /
    • v.24 no.6
    • /
    • pp.1213-1224
    • /
    • 2011
  • In high dimensionality where the number of variables are excessively larger than observations, it is required to remove the noninformative variables to cluster observations. Most model-based approaches for variable selection have been considered under the assumption of homoscedasticity and their models are mainly estimated by a penalized likelihood method. In this paper, a different approach is proposed to remove the noninformative variables effectively and to cluster based on the modified normal mixture model simultaneously. The validity of the model was provided and an EM algorithm was derived to estimate the parameters. Simulation studies and an experiment using real microarray dataset showed the effectiveness of the proposed method.

Analysis of Putative Downstream Genes of Arabidopsis AtERF71/HRE2 Transcription Factor using a Microarray (마이크로어레이를 이용한 애기장대 AtERF71/HRE2 전사인자의 하위 유전자 분석)

  • Seok, Hye-Yeon;Lee, Sun-Young;Woo, Dong-Hyuk;Park, Hee-Yeon;Moon, Yong-Hwan
    • Journal of Life Science
    • /
    • v.22 no.10
    • /
    • pp.1359-1370
    • /
    • 2012
  • Arabidopsis AtERF71/HRE2, a transcription activator, is located in the nucleus and is involved in the signal transduction of low oxygen and osmotic stresses. In this study, microarray analysis using AtERF71/HRE2-overexpressing transgenic plants was performed to identify genes downstream of AtERF71/HRE2. A total of 161 different genes as well as AtERF71/HRE2 showed more than a twofold higher expression in AtERF71/HRE2-overexpressing transgenic plants compared with wild-type plants. Among the 161 genes, 24 genes were transcriptional regulators, such as transcription factors and DNA-binding proteins, based on gene ontology annotations, suggesting that AtERF71/HRE2 is an upstream transcription factor that regulates the activities of various downstream genes via these transcription regulators. RT-PCR analysis of 15 genes selected out of the 161 genes showed higher expression in AtERF71/HRE2-overexpressing transgenic plants, validating the microarray data. On the basis of Genevestigator database analysis, 51 genes among the 161 genes were highly expressed under low oxygen and/or osmotic stresses. RT-PCR analysis showed that the expression levels of three genes among the selected 15 genes increased under low oxygen stress and another three genes increased under high salt stress, suggesting that these genes might be downstream genes of AtERF71/HRE2 in low oxygen or high salt stress signal transduction. Microarray analysis results indicated that AtERF71/HRE2 might also be involved in the responses to other abiotic stresses and also in the regulation of plant developmental processes.

Effect of Genetic Correlations on the P Values from Randomization Test and Detection of Significant Gene Groups (유전자 연관성이 랜덤검정 P값과 유의 유전자군의 탐색에 미치는 영향)

  • Yi, Mi-Sung;Song, Hae-Hiang
    • The Korean Journal of Applied Statistics
    • /
    • v.22 no.4
    • /
    • pp.781-792
    • /
    • 2009
  • At an early stage of genomic investigations, a small sample of microarrays is used in gene expression experiments to identify small subsets of candidate genes for a further accurate investigation. Unlike the statistical analysis methods for a large sample of microarrays, an appropriate statistical method for identifying small subsets is a randomization test that provides exact P values. These exact P values from a randomization test for a small sample of microarrays are discrete. The possible existence of differentially expressed genes in the sample of a full set of genes can be tested for the null hypothesis of a uniform distribution. Subsets of smaller P values are of prime interest for a further accurate investigation and identifying these outlier cells from a multinomial distribution of P values is possible by M test of Fuchs et al. (1980). Above all, the genome-wide gene expressions in microarrays are correlated, but the majority of statistical analysis methods in the microarray analysis are based on an independence assumption of genes and ignore the possibly correlated expression levels. We investigated with simulation studies the effect that correlated gene expression levels could have on the randomization test results and M test results, and found that the effects are often not ignorable.

Classifying Cancer Using Partially Correlated Genes Selected by Forward Selection Method (전진선택법에 의해 선택된 부분 상관관계의 유전자들을 이용한 암 분류)

  • 유시호;조성배
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.41 no.3
    • /
    • pp.83-92
    • /
    • 2004
  • Gene expression profile is numerical data of gene expression level from organism measured on the microarray. Generally, each specific tissue indicates different expression levels in related genes, so that we can classify cancer with gene expression profile. Because not all the genes are related to classification, it is needed to select related genes that is called feature selection. This paper proposes a new gene selection method using forward selection method in regression analysis. This method reduces redundant information in the selected genes to have more efficient classification. We used k-nearest neighbor as a classifier and tested with colon cancer dataset. The results are compared with Pearson's coefficient and Spearman's coefficient methods and the proposed method showed better performance. It showed 90.3% accuracy in classification. The method also successfully applied to lymphoma cancer dataset.

Preprocessing Model for Operon Prediction Using Relative Distance of Genes and COG Distance (COG 거리와 유전자 간의 상대 위치정보를 이용한 오페론 예측 전처리 모델)

  • Chun, Bong-Kyung;Jang, Chul-Jin;Kang, Eun-Mi;Cho, Hwan-Gue
    • Proceedings of the Korean Society for Bioinformatics Conference
    • /
    • 2003.10a
    • /
    • pp.210-219
    • /
    • 2003
  • 오페론(operon)은 보통 미생물에서 다수의 인접한 유전자들로 구성된 그룹으로 하나의 유전자처럼 공통된 프로모터에 의해 전사되는 단위이다. 오페론을 구성하는 유전자들은 기능적으로 서로 유사하거나 같은 물질대사경로(metabolic pathway) 상에 존재하는 특징을 지니기 때문에 이들은 중요한 의미를 가지며, 미생물 유전체 분석에서 오페론을 구성하는 유전자들을 예측하는 것은 상당히 중요하다. 오페론을 예측하는 이전 연구들로는 이미 알려진 오페론의 특징인 유전자간 거리나 오페론을 구성하는 평균 유전자 개수 등을 이용하는 방법, 마이크로어레이 발현 실험을 이용한 방법, 전유전체(whole genome)들 간의 보존된 유전자 집합(conserved gene cluster)을 이용한 방법 그리고 물질대사경로를 이용한 방법 등이 있다. 본 논문에서는 COG 기능(function) 거리, 유전자 간의 거리, 코돈 사용빈도(codon usage) 그리고COG 기능 거리와 유전자간 거리를 같이 적용한 방법을 이용하여 오페론 예측을 위한 전처리 모델을 생성하였다 전처리 모델을 E. coli 전유전체에 적용해본 결과, 알려진 오페론들의 약 90%가 이를 포함하였다. 따라서 본 논문에서 제시한 전처리 모델은, 추후 오페론 예측을 위한 좋은 도구로 활용할 수 있을 것이다.

  • PDF

Microarray analysis of hypoxia-induced changes in gene expression in BV-2 microglial cells (BV-2 microglia 세포주에서 저산소증의 유전자 발현에 대한 마이크로어레이 분석)

  • Kim, Bum-Shik;Seo, Jung-chul
    • Journal of Acupuncture Research
    • /
    • v.20 no.4
    • /
    • pp.85-92
    • /
    • 2003
  • 목적 : 허혈시 발생되는 저산소중 상태에서는 세포독성을 유발한다고 알려져 있으나 정확한 기전은 아직 규명되지 않았다. 본 연구에서는 뇌허혈로 인한 세포독성의 기전을 유전자 발현을 통하여 살펴보고자 하였다. 방법 : 본 실험에서는 BV-2 microglia 세포주에 12시간 동안의 저산소 상태에서의 유전자 발현을 분석하기 위하여 마이크로에레이를 시행하였다. 결과 : 저산소 상태에서는 정상에 비하여 cathepsin F, growth factor independent 1, calcitonin/calcitonin-related poly, leucine-rich repeat LGI family membrane, dublecortin, cyclohydrolase 1, Ia-associated invariant chain, carbohydrate kinase-like과 erythrocyte protein band 4.1-like 3 등의 유전자 발현이 3배 이상 증가하였다. 한편 neuronal guanine nucleotide exchange factor, Bcl-2-related ovarian killer protein, chemokine (C-X-C motif) ligand 5, RNA binding motif protein 3, interleukin 2 receptor, alpha chain, crystallin zeta, cytochrome P450 subfamily IV B, asparagine synthetase과 moesin 등의 유전자 발현은 0.2배 이하로 감소하였다. 결론 : 이상의 결과는 저산소중에 관여하는 유전자 및 저산소중과 관련된 뇌경색 등의 질환의 기전을 밝히는데 기초적 자료로 이용될 수 있을 것이다.

  • PDF

Transcriptome Profiling of Kidney Tissue from FGS/kist Mice, the Korean Animal Model of Focal Segmental Glomerulosclerosis (국소성 분절성 사구체 신병증의 동물 모델 (FGS/kist 생쥐) 신 조직의 유전자 발현 양상)

  • Kang, Hee-Gyung;Lee, Byong-Sop;Lee, Chul-Ho;Ha, Il-Soo;Cheong, Hae-Il;Choi, Yong
    • Childhood Kidney Diseases
    • /
    • v.15 no.1
    • /
    • pp.38-48
    • /
    • 2011
  • Purpose: Focal segmental glomerulosclerosis (FSGS) is the most common glomerulopathy causing pediatric renal failure. Since specific treatment targeting the etiology and pathophysiology of primary FSGS is yet elusive, the authors explored the pathophysiology of FSGS by transcriptome analysis of the disease using an animal model. Methods: FGS/kist strain, a mouse model of primary FSGS, and RFM/kist strain, as control and the parent strain of FGS/kist, were used. Kidney tissues were harvested and isolated renal cortex was used to extract mRNA, which was run on AB 1700 mouse microarray chip after reverse transcription to get the transcriptome profile. Results: Sixty two genes were differentially expressed in FGS/kist kidney tissue compared to the control. Those genes were related to cell cycle/cell death, immune reaction, and lipid metabolism/vasculopathy, and the key molecules of their networks were TNF, IL-6/4, IFN${\gamma}$, TP53, and PPAR${\gamma}$. Conclusion: This study confirmed that renal cell death, immune system activation with subsequent fibrosis, and lipid metabolism-related early vasculopathy were involved in the pathophysiology of FSGS. In addition, the relevance of methodology used in this study, namely transcriptome profiling, and Korean animal model of FGS/kist was validated. Further study would reveal novel pathophysiology of FSGS for new therapeutic targets.

A Comparative Study of Parametric Methods for Significant Gene Set Identification Depending on Various Expression Metrics (유전자 발현 메트릭에 기반한 모수적 방식의 유의 유전자 집합 검출 비교 연구)

  • Kim, Jae-Young;Shin, Mi-Young
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.1
    • /
    • pp.1-8
    • /
    • 2010
  • Recently lots of attention has been paid to gene set analysis for identifying differentially expressed gene-sets between two sample groups. Unlike earlier approaches, the gene set analysis enables us to find significant gene-sets along with their functional characteristics. For this reason, various novel approaches have been suggested lately for gene set analysis. As one of such, PAGE is a parametric approach that employs average difference (AD) as an expression metric to quantify expression differences between two sample groups and assumes that the distribution of gene scores is normal. This approach is preferred to non-parametric approach because of more effective performance. However, the metric AD does not reflect either gene expression intensities or variances over samples in calculating gene scores. Thus, in this paper, we investigate the usefulness of several other expression metrics for parametric gene-set analysis, which consider actual expression intensities of genes or their expression variances over samples. For this purpose, we examined three expression metrics, WAD (weighted average difference), FC (Fisher's criterion), and Abs_SNR (Absolute value of signal-to-noise ratio) for parametric gene set analysis and evaluated their experimental results.