• Title/Summary/Keyword: 유전자 데이터

Search Result 660, Processing Time 0.029 seconds

Selection of Discriminative Genes for Data Mining of Time-series Microarray Data (시계열 마이크로어레이 데이터 마이닝을 위한 분별력 있는 유전자 선정 방법)

  • Lee Min-Su;Park Seung-Soo;Kang Sung-Hee;Park Woong-Yang
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.25-27
    • /
    • 2006
  • 본 논문에서는 시계열 마이크로어레이데이터 마이닝을 위한 전처리 작업으로 시계열 마이크로어레이 데이터에 특징 추출 방법 및 상관관계 분석을 이용하여 분화 과정에 대해 분별력 있는 유전자들을 선정하기 위한 방법을 제안하고, 줄기세포가 신경세포로 분화하는 과정에서 특이적으로 발현되는 유전자들을 찾기 위한 시계열 마이크로어레이 데이터 분석 과정을 하나의 예로 제시한다. 분석 결과, 제안한 방법이 분화 특이적으로 발현되는 분별력 있는 유전자들, 분화 과정에서 공통적으로 발현되는 유전자들, 그리고 경계선에 존재하는 유전자들을 통해서 줄기세포 신경분화의 특징들을 규명하는데 매우 유용함을 보였다.

  • PDF

Research for clustering algorithm for the functional classification of genes (유전자의 기능분류를 위한 클러스터링 알고리즘 연구)

  • Han, Seok-Hyeon;Yi, Gangman
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1149-1151
    • /
    • 2015
  • 차세대 유전정보 분석기 시퀀서의 개발은 양질의 시퀀싱 데이터를 증가시켰다. 수많은 유전정보는 유전자 분석의 새로운 연구 방향을 제시하였다. 본 논문은 유전자 분석 중에서 기존의 유전정보를 활용하여 유전자의 기능예측을 하고자 한다. 클러스터링 알고리즘의 정확도를 높이기 위해서 본 논문에서는 데이터 유사성 조절이 가능한 클러스터링 알고리즘을 적용하였다. 그 결과 데이터 유사성 조절을 할 경우에 그렇지 않을 경우보다 유전자 기능 예측의 정확도가 높아졌다. 따라서 제안된 데이터 유사성 조절 기법은 유전자 기능을 예측하는 방법에 정확도를 높일 수 있을 것으로 기대된다.

Modeling Embryonic Development in Drosophila by Evolutionary Learning of Dynamical System (동역학 시스템의 진화적 학습에 의한 초파리 발생과정 모델링)

  • Rhee Je-Keun;Nam Jin-Wu;Joung Je-Gun;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.280-282
    • /
    • 2005
  • 초파리 초기 발생과정은 gap 유전자, pair-rule 유전자, polarity 유전자의 세 가지 유전자 그룹에 의해서 조직화 된다. Gap 유전자들에 의해 pair-rules 유전자들의 발현이 조절되며, 이들에 의해 결국 polarity 유전자들의 발현을 조절함으로써, 정확한 위치에서 각 기관의 형성을 유도한다. 특히 분열 14단계에서는 pair-rule 유전자 중의 하나인 eve 유전자의 발현이 조절되는데, eve 유전자는 배아의 분할의 줄무늬를 형성시키는 유전자에 해당된다. 본 논문에서는 eve 유전자의 발현조절자인 hunchback, giant, kruppel, bicoid의 gap 유전자들로 구성된 조절 네트워크를 S-system을 이용하여 모델링하였다. 이를 통해 각 유전자들의 발현 데이터로부터 파라미터들을 진화 연산을 통해 예측하고, 각 유전자들의 발현에 대한 시뮬레이션 결과를 보여준다. 예측된 결과와 실제 데이터의 비교는 전체적으로 패턴이 서로 유사함을 보여주고 있다.

  • PDF

A review of gene selection methods based on machine learning approaches (기계학습 접근법에 기반한 유전자 선택 방법들에 대한 리뷰)

  • Lee, Hajoung;Kim, Jaejik
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.5
    • /
    • pp.667-684
    • /
    • 2022
  • Gene expression data present the level of mRNA abundance of each gene, and analyses of gene expressions have provided key ideas for understanding the mechanism of diseases and developing new drugs and therapies. Nowadays high-throughput technologies such as DNA microarray and RNA-sequencing enabled the simultaneous measurement of thousands of gene expressions, giving rise to a characteristic of gene expression data known as high dimensionality. Due to the high-dimensionality, learning models to analyze gene expression data are prone to overfitting problems, and to solve this issue, dimension reduction or feature selection techniques are commonly used as a preprocessing step. In particular, we can remove irrelevant and redundant genes and identify important genes using gene selection methods in the preprocessing step. Various gene selection methods have been developed in the context of machine learning so far. In this paper, we intensively review recent works on gene selection methods using machine learning approaches. In addition, the underlying difficulties with current gene selection methods as well as future research directions are discussed.

A Bayesian Validation Method based on Decision Tree for Evaluating Fuzzy Clusters of Gene Expression Data (유전자 발현 데이터의 퍼지 클러스터 평가를 위한 결정트리 기반의 베이지안 검증방법)

  • 유지호;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.262-264
    • /
    • 2004
  • 퍼지 클러스터링 방법은 일반적인 클러스터링 방법과는 달리 하나의 샘플이 다수의 집단에 속할 수 있으며 그 속하는 정도를 표현하여 보다 유연한 클러스터 분할의 분석을 가능하게 한다. 유전자 발현 데이터는 노이즈가 많고 공통된 기능을 가진 유전자들의 집단이 존재하기 때문에 퍼지 클러스터링을 사용하면 더욱 효율적으로 분석할 수 있다. 이러한 퍼지 클러스터링 방법에 있어서 중요한 것은 얼마나 분할이 정확하게 이루어졌으며 실제 데이터가 가지고 있는 분할과 결과가 얼마나 유사한가이다. 본 논문에서는 효과적인 유전자 클러스터의 평가를 위하여 베이지안 검증 방법을 제시하고, 결정트리로 생성된 규칙에 의하여 각 데이터의 특성에 따라 유연하게 검증하는 방법을 제안한다. 다양한 유전자 발현 데이터를 퍼지 c-means 알고리즘을 이용하여 클러스터링하고 제안하는 방법으로 검증한 결과, 그 유용성을 확인할 수 있었다.

  • PDF

Constructing Gene Regulatory Networks using Temporal Relation Rules from 3-Dimensional Gene Expression Data (3차원 유전자 발현 데이터에서의 시간 관계 규칙을 이용한 유전자 상호작용 조절 네트워크 구축)

  • Meijing Li;Jin Hyoung Park;Heon Gyu Lee;Keun Ho Ryu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.340-343
    • /
    • 2008
  • 유전자들은 복잡한 상호작용을 통해 세포의 기능이 조절된다. 상호작용하는 유전자 그룹들을 유전자 조절 네트워크라고 한다. 기존의 유전자 조절 네트워크는 2D microarray 데이터를 이용하여 시간의 흐름에 따른 유전자간의 상호작용을 알 수가 없었다. 이 논문에서는 시간의 변화에 따른 유전자들 간의 조절관계를 살펴 볼 수 있는 조절네트워크 모델링의 방법을 제시한다. 유전자의 발현양을 표시하기 위해 이진 이산화 방법을 사용하였고 3D microarray 데이터에서 유전자 발현 패턴을 찾기 위해 Cube mining 알고리즘을 적용하였고, 유전자간의 관계를 밝히기 위해 시간 관계 규칙탐사 기법을 사용하여 유전자들 간의 시간 관계를 포함한 유전자 조절네트워크를 구축하였다. 이 연구는 시간의 흐름에 따른 유전자간의 상호작용을 알 수 있으며, 모델링된 조절 네트워크를 이용하여 기능이 아직 발견되지 않은 유전자들의 기능을 예측 할 수 있다.

Classifying Cancer Using Partially Correlated Genes Selected by Forward Selection Method (전진선택법에 의해 선택된 부분 상관관계의 유전자들을 이용한 암 분류)

  • 유시호;조성배
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.41 no.3
    • /
    • pp.83-92
    • /
    • 2004
  • Gene expression profile is numerical data of gene expression level from organism measured on the microarray. Generally, each specific tissue indicates different expression levels in related genes, so that we can classify cancer with gene expression profile. Because not all the genes are related to classification, it is needed to select related genes that is called feature selection. This paper proposes a new gene selection method using forward selection method in regression analysis. This method reduces redundant information in the selected genes to have more efficient classification. We used k-nearest neighbor as a classifier and tested with colon cancer dataset. The results are compared with Pearson's coefficient and Spearman's coefficient methods and the proposed method showed better performance. It showed 90.3% accuracy in classification. The method also successfully applied to lymphoma cancer dataset.

Candidate Significant Gene Recommendation with Symbolic Encoding of Microarray Data (마이크로어레이 데이터의 기호코딩을 통한 유의한 후보 유전자 검출)

  • Lee, Geon-Myeong;Lee, Hye-Ri;Kim, Won-Jae;Yun, Seok-Jung;Kim, Yong-Jun;Jeong, Pil-Du;Kim, Eun-Jeong
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.04a
    • /
    • pp.417-420
    • /
    • 2007
  • 마이크로어레이는 생명과학 분야에서 사용되는 대규모의 유전자 발현정도를 동시에 측정할 수 있는 도구이다. 마이크로어레이 실험은 많은 양의 데이터를 생성하기 때문에, 자동화된 효과적인 분석기법이 필요하다. 이 논문에서는 약물의 영향 분석을 위해 약물의 투여량 및 투여후의 시간대별로 샘플을 추출하여, 마이크로어레이를 이용하여 유전자의 발현량을 분석하는 경우에, 약물에 대해서 반응하는 유전자를 추출하는 데이터 마이닝 기법을 제안한다. 제안한 방법에서는 유전자의 발현정도값을 이전 시간의 값을 기준값으로 하여 증가, 감소, 답보에 해당하는 기호로 매핑하여, 분석자가 원하는 패턴을 보이는 유전자를 추천한다. 한편, 유전자의 상호간에 많은 영향을 주고 받기 때문에 특정 약물을 투여할 때, 이에 직접적인 영향을 받는 것도 있지만, 이와는 전혀 상관없이 동작하는 것도 있기 때문에, 제안한 방법에서는 이러한 약물 투여와 유의성이 있을 가능성이 있는 유전자만을 전처리과정을 통해서 필터링하는 기법을 활용한다. 제안한 방법은 실제 약물 투여 실험 샘플에 대한 마이크로어레이 데이터에 적용하여 활용가능성을 확인하였다.

  • PDF

Applying Speciated GA to Huge-scale Feature Selection in Bioinformatics (생명정보학에서의 거대규모 특징추출을 위한 종분화 GA의 활용)

  • 황금성;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.229-231
    • /
    • 2002
  • 최근 생물 유전자 정보에 대한 관심이 커지면서 이를 위한 효과적인 분석 방법이 요구되고 있다. 특히, 분류기의 데이터로 사용하기 위해서 필요한 특징만을 뽑는 과정인 특징 추출은 대량의 유전자 정보에서 의미 있는 정보를 선별하는 중요한 과정이다. 그러나 유전자 정보는 사용되는 데이터의 특징규모가 매우 크기 때문에 일반적인 데이터 마이닝 기법으로는 분석이 힘들다. 본 논문에서는 효율적인 거대규모 특징 추출을 위해 유전자 알고리즘(GA)파 신경망을 사용한 특징추출 방법을 소개하고, 종분화 기법을 사용한 효과적인 특징추출 방법을 제시한다. 그리고, CAMDA 2000에 공개된 암 DNA Microarray로 안종류를 분류하는 문제에 대하여 성능을 평가하였다.

  • PDF

Trend Pattern Extraction from Microarray Data with Symbolic Encoding (기호코딩을 통한 마이크로어레이 데이터의 추이 패턴 추출)

  • Lee, Sun-A;Lee, Keon-Myung;Kim, Wun-Jae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.1
    • /
    • pp.14-19
    • /
    • 2008
  • 대규모로 유전자 발현정도를 동시에 측정하는 마이크로어레이 실험은 많은 양의 데이터를 생성하기 때문에, 자동화된 효과적인 분석기법이 필요하다. 이 논문에서는 약물의 영향 분석을 위해 약물의 투여량 및 투여후의 시간대별로 샘플을 추출하여, 마이크로어레이를 이용하여 유전자의 발현량을 분석하는 경우에, 약물에 대해서 반응하는 유전자를 추출하는 데이터마이닝 기법을 제안한다. 제안한 방법에서는 유전자의 발현 정도값을 이전 비교대상의 값을 기준값으로 하여 증가, 감소, 답보에 해당하는 기호로 매핑하여, 분석자가 원하는 패턴을 보이는 유전자를 추천한다. 한편, 유전자의 상호간에 많은 영향을 주고받기 때문에 특정 약물을 투여할 때, 이에 직접적인 영향을 받는 것도 있지만, 이와는 전혀 상관없이 동작하는 것도 있기 때문에, 제안한 방법에서는 이러한 약물 투여와 유의성이 있을 가능성이 있는 유전자만을 전처리과정을 통해서 필터링하는 기법을 활용한다.