• Title/Summary/Keyword: 유전자 데이터

Search Result 661, Processing Time 0.027 seconds

Defining microRNA functional families through correlation analysis of microRNA microarray data (microRNA 발현 데이터의 상관관계 분석을 통한 microRNA Functional Family 탐색)

  • Nam Jin-Wu;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.13-15
    • /
    • 2006
  • microRNA는 유전자의 전사 후 과정에서 negative regulation을 담당하는 small noncoding RNA의 한 증류이다. 최근까지 330여개의 인간 microRNA가 발견되었지만 그들의 기능이 밝혀진 것은 소수에 불과하다. microRNA의 기능은 3'UTR에 불완전 상보결합을 통해 negative regulation을 받게 되는 유전자의 기능으로부터 유추되는 것이 일반적이다. 특별히 유전체상에 군집화 된 microRNA들은 하나의 전사체로부터 발현되는 것으로 판단되며, 같은 또는 관련된 기능을 하거나 같은 목표 유전자를 조절하기 위한 functional family일 가능성이 높다. 또한 이러한 functional family는 하나의 전사체로부터 발현되기 때문에, 조직별로 조건별로 같은 발현 패턴을 보여야 한다. 본 연구에서는 발현데이터로부터 microRNA functional family를 탐색하기 위해, 5개의 연구 그룹에서 공개한 조직별 microRNA 발현데이터를 표준화 작업을 거친 후 통합하고 k-nearest neighbor 알고리즘을 이용해 결측치를 보정한 후 microRNA 발현사이의 correlation을 계산한다. 이때 데이터 통합에서 생기는 문제에 robust한 결과를 얻기 위해 실제 발현데이터가 아닌 rank 데이터부터 correlation을 측정한다. 계산된 spearman ranked correlation 결과와 microRNA의 genomic coordination 정보로부터 34개의 functional family를 정의할 수 있었다.

  • PDF

Identification of Heterogeneous Prognostic Genes and Prediction of Cancer Outcome using PageRank (페이지랭크를 이용한 암환자의 이질적인 예후 유전자 식별 및 예후 예측)

  • Choi, Jonghwan;Ahn, Jaegyoon
    • Journal of KIISE
    • /
    • v.45 no.1
    • /
    • pp.61-68
    • /
    • 2018
  • The identification of genes that contribute to the prediction of prognosis in patients with cancer is one of the challenges in providing appropriate therapies. To find the prognostic genes, several classification models using gene expression data have been proposed. However, the prediction accuracy of cancer prognosis is limited due to the heterogeneity of cancer. In this paper, we integrate microarray data with biological network data using a modified PageRank algorithm to identify prognostic genes. We also predict the prognosis of patients with 6 cancer types (including breast carcinoma) using the K-Nearest Neighbor algorithm. Before we apply the modified PageRank, we separate samples by K-Means clustering to address the heterogeneity of cancer. The proposed algorithm showed better performance than traditional algorithms for prognosis. We were also able to identify cluster-specific biological processes using GO enrichment analysis.

Feature-based Gene Classification and Region Clustering using Gene Expression Grid Data in Mouse Hippocampal Region (쥐 해마의 유전자 발현 그리드 데이터를 이용한 특징기반 유전자 분류 및 영역 군집화)

  • Kang, Mi-Sun;Kim, HyeRyun;Lee, Sukchan;Kim, Myoung-Hee
    • Journal of KIISE
    • /
    • v.43 no.1
    • /
    • pp.54-60
    • /
    • 2016
  • Brain gene expression information is closely related to the structural and functional characteristics of the brain. Thus, extensive research has been carried out on the relationship between gene expression patterns and the brain's structural organization. In this study, Principal Component Analysis was used to extract features of gene expression patterns, and genes were automatically classified by spatial distribution. Voxels were then clustered with classified specific region expressed genes. Finally, we visualized the clustering results for mouse hippocampal region gene expression with the Allen Brain Atlas. This experiment allowed us to classify the region-specific gene expression of the mouse hippocampal region and provided visualization of clustering results and a brain atlas in an integrated manner. This study has the potential to allow neuroscientists to search for experimental groups of genes more quickly and design an effective test according to the new form of data. It is also expected that it will enable the discovery of a more specific sub-region beyond the current known anatomical regions of the brain.

Generating Rank-Comparison Decision Rules with Variable Number of Genes for Cancer Classification (순위 비교를 기반으로 하는 다양한 유전자 개수로 이루어진 암 분류 결정 규칙의 생성)

  • Yoon, Young-Mi;Bien, Sang-Jay;Park, Sang-Hyun
    • The KIPS Transactions:PartD
    • /
    • v.15D no.6
    • /
    • pp.767-776
    • /
    • 2008
  • Microarray technology is extensively being used in experimental molecular biology field. Microarray experiments generate quantitative expression measurements for thousands of genes simultaneously, which is useful for the phenotype classification of many diseases. One of the two major problems in microarray data classification is that the number of genes exceeds the number of tissue samples. The other problem is that current methods generate classifiers that are accurate but difficult to interpret. Our paper addresses these two problems. We performed a direct integration of individual microarrays with same biological objectives by transforming an expression value into a rank value within a sample and generated rank-comparison decision rules with variable number of genes for cancer classification. Our classifier is an ensemble method which has k top scoring decision rules. Each rule contains a number of genes, a relationship among involved genes, and a class label. Current classifiers which are also ensemble methods consist of k top scoring decision rules. However these classifiers fix the number of genes in each rule as a pair or a triple. In this paper we generalized the number of genes involved in each rule. The number of genes in each rule is in the range of 2 to N respectively. Generalizing the number of genes increases the robustness and the reliability of the classifier for the class prediction of an independent sample. Also our classifier is readily interpretable, accurate with small number of genes, and shed a possibility of the use in a clinical setting.

유전체 데이터베이스와 EST 데이터 베이스 구축

  • Ryu, Geun-Ho
    • Journal of Scientific & Technological Knowledge Infrastructure
    • /
    • s.3
    • /
    • pp.48-61
    • /
    • 2000
  • 유전체(genome)란 용어는 H.Winker가 1970년에 반수성 염색체구조를 표현하기 위하여 처음으로 사용하였다. 이것은 배우자에 들어 있는 유전자 전체를 의미하며 Gene + Chromosome의 합성어다. Gee는 유전자를 의미하고 Chromosome은 유전자의 형체를 의미하기 때문에 유전체(Genome)라고 한다.

  • PDF

Design of Web-Bioconductor System for DNA chip data analysis (DNA chip 데이터 분석을 위한 Web-Bioconductor System 설계)

  • 신동훈;박준형;강병철;신창진;김철민
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2004.04a
    • /
    • pp.251-254
    • /
    • 2004
  • Web-Bioconductor System은 유전자 분석에 대한 통계적 모듈과 그래픽 환경을 제공하는 R언어와 DNA chip 데이터의 분석을 수행하는 Bioconductor 패키지를 이용하여 웹으로 DNA chip 데이터를 분석할 수 있도록 설계한 시스템이다. 본 시스템은 DNA chip 데이터의 분석을 위해 사용자 계정 모듈, 데이터 입력 모듈, 전 처리 모듈, 유전자 차등 발현 분석 모듈, 결과 출력 모듈로 구성되어 있으며, 분석된 결과물은 HTML, 이미지, XLS 파일 형태로 제공된다. 웹을 이용하여 DNA chip 분석을 수행함으로써 인터넷이 가능한 곳이면 시간과 장소의 구분이 없이 DNA chip 데이터 분석이 가능하며, 인터넷으로 DNA chip 데이터 분석 자료를 공유할 수 있음으로 연구자들의 상호 의견 교환을 바탕으로 효율적인 분석이 가능할 것이다. 또한 기존의 R언어와 Bioconductor가 전산 지식이 부족한 사람들에게는 접근하기 어려운 점을 웹 인터페이스로 간단하게 구현함으로써 DNA chip 데이터 분석에 있어 용이성과 효율성을 중대하고 있다.

  • PDF

Optimal Identification of Data Granules-based Genetically Optimized Fuzzy Relation Polynomial Neural Networks (데이터 입자 기반 유전론적 퍼지 관계 다항식 뉴럴네트워크의 최적 동정)

  • Lee In-Tae;Lee Young-Il;Oh Sung-Kwun
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2005.11a
    • /
    • pp.367-370
    • /
    • 2005
  • 본 논문에서는 정보 입자화와 유전자 알고리즘을 기반으로 최적 퍼지 다항식 뉴럴네트워크를 제안하고, 유전자 알고리즘을 사용하여 종합적인 설계방법을 개발한다. 제안된 모델은 기존의 진화론적 퍼지 다항식 뉴럴네트워크의 구조를 정보입자화를 통해 좀 더 빠르게 최적의 해공간에 접근시키는데 그 목적이 있다. 퍼지 관계기반 다항식 뉴럴네트워크는 퍼지 다항식 뉴론이 기초가 되어 가능한 구조적이고 요소적으로 모델의 성능을 향상 시켜준다. 퍼지 다항식 뉴런의 최적 구조를 위해 유전자 알고리즘을 이용하여 입력변수의 수와 후반부 다항식의 차수 입력변수 수에 따른 입력변수 그리고 멤버쉽 함수의 수를 동조한다. 여기서, 클러스터링의 하나의 방법인 HCM에 의해 퍼지 규칙 각각의 전반부와 후반부에 데이터 중심값을 이용하여 다항식함수의 파라미터값을 결정한다. 제안된 유전론적 퍼지 관계 다항식 뉴럴네트워크의 성능평가는 기존 퍼지 모델링에서 이용된 표준 데이터를 활용하여 평가한다.

  • PDF

Efficient Identification of Gene Regulatory Networks by Multi-Stage Evolutionary Algorithms (다중 진화 알고리즘에 의한 유전자 조절 네트워크의 효율적인 탐색)

  • Kim Kee-Young;Cho Dong-Yeon;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.277-279
    • /
    • 2005
  • DNA 마이크로어레이 기술의 발전으로 유전자 발현에 대한 많은 양의 정보가 쏟아지게 되었고, 이러한 정보들을 이용하여 유전자 조절 네트워크를 수학적으로 모델링하는 것이 시스템 생물학의 중요 관심사로 떠오르고 있다. 본 논문에서는 실험에서 얻어낸 데이터를 유전 프로그래밍을 이용한 기호 회귀를 통해 데이터 지점을 조정하고 유전 프로그래밍의 결과 함수를 이용해 각 지점에서의 미분값을 얻어내었다. 그 뒤, 불리안 네트워크를 표현하는 이진 배열과 S-시스템을 표현하는 실수 배열을 결합한 해를 사용하는 유전 알고리즘으로 앞에서 얻은 데이터를 이용해 원하는 S-시스템의 구조와 매개변수를 구해내었다.

  • PDF

A Study on the Hierarchical Expression of Human Cell Lineage (인간 세포 Lineage 의 계층적 표현에 관한 연구)

  • Park, JaeSoon;Kwon, Seong Gyu;Oh, Ji Won;Lee, JongHyuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.663-664
    • /
    • 2020
  • 차세대 염기서열 분석 기술은 성능과 비용 면에서 매우 향상되어 한 개체 내 여러 세포의 유전자 분석이 가능한 수준이다. 한 개체 내 여러 조직 세포의 유전자는 모두 동일하지 않기 때문에 여러 조직 세포의 Lineage 를 계층적으로 표현하고 이를 조직 세포 간 변이 정도를 파악하는 데 활용한다면 암 돌연변이 발생 등을 미리 예측할 수 있다. 본 논문은 한 개체 내 여러 조직 간 변이를 관찰하기 위해 변이 검출 데이터를 계층적 군집 방법을 이용해 분석하고 이를 시각화 하는 방법을 제안한다. 실제의 8 개 조직 세포의 유전자를 분석하고 변이를 검출하여 Dendrogram 그래프로 시각화 하였다.

Gene Set and Pathway Analysis of Microarray Data

  • Kim Seon-Yeong
    • Proceedings of the Korean Society for Bioinformatics Conference
    • /
    • 2006.02a
    • /
    • pp.20-28
    • /
    • 2006
  • 최근의 microarray 기술의 발달로 인해 점점 더 많은 양의 mRNA 발현 데이터가 쌓여 가고 있다. 이제는 데이터를 만드는 단계보다는 데이터로부터 중요한 생물학적 의미를 끌어내는 것이 더욱 중요한 일이 되었다. micorarray 기술이 처음 도입된 이후로, 많은 앨고리즘과 소프트웨어가 개발되어, 실험자들이 microarray 데이터로부터 생물학적 의미를 끌어내는 작업을 도와주어 왔다. 그런데, 이전의 데이터 마이닝 방법들은 거의 예외 없이 전체 데이터로부터 선택된 몇 십, 몇 백 개의 유전자 리스트로부터 출발한다. 그런데, 이러한 방법 (over-representation analysis, ORA로 줄임)은 몇 가지 한계를 가지고 있어서, 최근에는 전체 데이터로부터 의미 있는 유전자 세트 (gene set)를 찾아내는 방법들이 도입되었다. 본 세미나는 이런 방법들, 줄여서 gene set analysis라 함, 에 사용되는 앨고리즘들과 소프트웨어들을 비교, 검토하고자 한다.

  • PDF