• Title/Summary/Keyword: gene information

Search Result 1,639, Processing Time 0.03 seconds

Classification of Gene Expression Data by Ensemble of Bayesian Networks (앙상블 베이지안망에 의한 유전자발현데이터 분류)

  • 황규백;장정호;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.434-436
    • /
    • 2003
  • DNA칩 기술로 얻어지는 유전자발현데이터(gene expression data)는 생채 조직이나 세포의 수천개에 달하는 유전자의 발현량(expression level)을 측정한 것으로, 유전자발현양상(gene expression pattern)에 기반한 암 종류의 분류 등에 유용하다. 본 논문에서는 확률그래프모델(probabilistic graphical model)의 하나인 베이지안망(Bayesian network)을 발현데이터의 분류에 적응하며, 분류 성능을 높이기 위해 베이지안망의 앙상블(ensemble of Bayesian networks)을 구성한다. 실험은 실제 암 조직에서 추출된 유전자발현데이터에 대해 행해졌다 실험 결과, 앙상블 베이지안망의 분류 정확도는 단일 베이지안망보다 높았으며, naive Bayes 분류기, 신경망, support vector machine(SVM) 등과 대등한 성능을 보였다.

  • PDF

Eukaryotic Gene Structure Prediction Using Duration HMM (Duration HMM을 이용한 진핵생물 유전자 구조 예측)

  • Tae, Hong-Seok;Park, Kie-Jung
    • Proceedings of the Korean Society for Bioinformatics Conference
    • /
    • 2003.10a
    • /
    • pp.200-209
    • /
    • 2003
  • 주어진 염기서열에서 유전자 영역을 예측하는 유전자 구조 예측은 유전체 프로젝트의 중요한 과정 중 하나이며 유전체 프로젝트 전체에 큰 영향을 준다. 진핵생물의 유전체가 원핵생물의 유전체에 비해 더 복잡한 구조를 가지기 때문에 진핵생물의 유전자 구조 예측 모델 역시원핵생물에 비해 다양한 모델이 제안되었다. 본 연구팀은 duration hidden markov model을 기본형태로 하여 EGSP(Eukaryotic Gene Structure Prediction)프로그램을 개발하였다. 현재 개발된 진핵생물의 유전자 구조 예측 알고리즘 중에서 GenScan이 가장 정교한 젓으로 보고 되고 있는데, EGSP의 결과분석을 위해 Genscan과 함께 GeneID, Morgan의 예측결과를 여러 가지 기준에서 비교하였다. EGSP는 정교한 예측모델을 가지고 있음에도 각 구성모듈에 대한 파라메터의 정교함에서 부족한 면이 나타나므로, 모델의 개선과 각 모듈의 조율을 통해 더욱 개선된 결과를 가지게 될 것이다.

  • PDF

Epilepsy syndromes during the first year of life and the usefulness of an epilepsy gene panel

  • Lee, Eun Hye
    • Clinical and Experimental Pediatrics
    • /
    • v.61 no.4
    • /
    • pp.101-107
    • /
    • 2018
  • Recent advances in genetics have determined that a number of epilepsy syndromes that occur in the first year of life are associated with genetic etiologies. These syndromes range from benign familial epilepsy syndromes to early-onset epileptic encephalopathies that lead to poor prognoses and severe psychomotor retardation. An early genetic diagnosis can save time and overall cost by reducing the amount of time and resources expended to reach a diagnosis. Furthermore, a genetic diagnosis can provide accurate prognostic information and, in certain cases, enable targeted therapy. Here, several early infantile epilepsy syndromes with strong genetic associations are briefly reviewed, and their genotype-phenotype correlations are summarized. Because the clinical presentations of these disorders frequently overlap and have heterogeneous genetic causes, next-generation sequencing (NGS)-based gene panel testing represents a more powerful diagnostic tool than single gene testing. As genetic information accumulates, genetic testing will likely play an increasingly important role in diagnosing pediatric epilepsy. However, the efforts of clinicians to classify phenotypes in nondiagnosed patients and improve their ability to interpret genetic variants remain important in the NGS era.

Gene Algorithm of Crowd System of Data Mining

  • Park, Jong-Min
    • Journal of information and communication convergence engineering
    • /
    • v.10 no.1
    • /
    • pp.40-44
    • /
    • 2012
  • Data mining, which is attracting public attention, is a process of drawing out knowledge from a large mass of data. The key technique in data mining is the ability to maximize the similarity in a group and minimize the similarity between groups. Since grouping in data mining deals with a large mass of data, it lessens the amount of time spent with the source data, and grouping techniques that shrink the quantity of the data form to which the algorithm is subjected are actively used. The current grouping algorithm is highly sensitive to static and reacts to local minima. The number of groups has to be stated depending on the initialization value. In this paper we propose a gene algorithm that automatically decides on the number of grouping algorithms. We will try to find the optimal group of the fittest function, and finally apply it to a data mining problem that deals with a large mass of data.

Gene sequence analysis and management system for supporting functional genomics (기능 유전체학을 지원하는 유전자 서열 분석 및 관리시스템)

  • Heo, Jin-Seok;Kim, Hyun-Sik;Jin, Hoon;Kim, In-Cheol
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.11a
    • /
    • pp.480-488
    • /
    • 2002
  • 본 논문에서는 하나의 시스템 안에서 효율적인 유전자 데이터의 관리와 다양한 서열 분석작업이 가능한 기능 유전체학을 지원하는 서열 분석 및 관리 시스템인 GWB(Gene WorkBench)를 설계하고 구현하였다. GWB는 로컬 데이터베이스 관리뿐만 아니라 GenBank, EMBL, SWISSPROT와 같은 외부 공공 데이터베이스에 대한 접근 기능도 제공하며, 권한을 가진 내부 이용자와 그렇지 못한 외부 이용자들을 구분하여 일부 유용한 기능들은 외부 사용자들도 이용할 수 있도록 설계되었다. 또 GWB는 유전자에 관한 문헌정보 검색과 관련 유전자 탐색 기능 등 일부 유전자 기능 연구를 지원하는 기능을 제공하고 있다.

  • PDF

Inferring genetic regulatory networks of the inflammatory bowel disease in human peripheral blood mononuclear cells

  • Kim, Jin-Ki;Lee, Do-Heon;Yi, Gwan-Su
    • Bioinformatics and Biosystems
    • /
    • v.2 no.2
    • /
    • pp.71-74
    • /
    • 2007
  • Cell phenotypes are determined by groups of functionally related genes. Microarray profiling of gene expression provides us response of cellular state to its perturbation. Several methods for uncovering a cellular network show reliable network reconstruction. In this study, we present reconstruction of genetic regulatory network of inflammation bowel disease in human peripheral blood mononuclear cell. The microarray based on Affymetrix Gene Chip Human Genome U133 Array Set HG-U133A is processed and applied network reconstruction algorithm, ARACNe. As a result, we will show that inferred network composed of 450 nodes and 2017 edges is roughly scale-free network and hierarchical organization. The major hub, CCNL2 (cyclin A2), in inferred network is shown to be associated with inflammatory function as well as apoptotic function.

  • PDF

Tree-Dependent Components of Gene Expression Data for Clustering (유전자발현데이터의 군집분석을 위한 나무 의존 성분 분석)

  • Kim Jong-Kyoung;Choi Seung-Jin
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.4-6
    • /
    • 2006
  • Tree-dependent component analysis (TCA) is a generalization of independent component analysis (ICA), the goal of which is to model the multivariate data by a linear transformation of latent variables, while latent variables fit by a tree-structured graphical model. In contrast to ICA, TCA allows dependent structure of latent variables and also consider non-spanning trees (forests). In this paper, we present a TCA-based method of clustering gene expression data. Empirical study with yeast cell cycle-related data, yeast metaboiic shift data, and yeast sporulation data, shows that TCA is more suitable for gene clustering, compared to principal component analysis (PCA) as well as ICA.

  • PDF

DNA Chip Gene Selection Method Research using Genetic Algorithm and Neural Network (유전자 알고리즘과 신경망을 이용한 DNA Chip유전자 선택 방법 연구)

  • Lee Ho Il;Choi Yo Han;Yoon Kyong Oh;Kim Myoung Sun;Hang Youn Soo;Park Hyun Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.289-291
    • /
    • 2005
  • 최근 유전자 칩의 발전으로 다양하고 방대한 양의 유전자 정보를 이용한 정확하고 신뢰성 높은 분류, 군집 및 질병을 예측하는 분석 기법이 증가하고 있다. 하지만 특징적인 유전자를 선택하는 Gene Selection 기법의 종류는 많지가 않으며 주로 통계적인 방법에 의존하여 유전자를 선택하는 기법을 많이 사용하고 있다. 본 논문에서는 유전자 알고리즘과 신경망의 결합을 통한 데이터마이닝을 기반으로 신뢰성 높은 특징적인 유전자를 선택하는 Gene Selection 기법에 대하여 연구을 진행하였다.

  • PDF

A Machine Learning Approach for Automatic Protein Name Extraction from Journal Articles (기계학습 알고리즘에 근거한 단백질 이름의 자동 추출)

  • 김정호;백은옥;이공주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.259-261
    • /
    • 2004
  • 생물학 분야의 문헌으로부터 유전자 및 단백질 이름을 추출하는 기술은 바이오 텍스트 마이닝 분야의 기반 기술로 그 중요성이 점차 증대되고 있다. 이 연구에서는 생물학 분야 문헌의 초록으로부터 하나의 토큰으로 구성된 single gene name은 물론 여러 개의 토큰으로 이루어진 multi gene name까지 유전자나 단백질의 이름을 자동으로 추출하는 시스템 TagGeN(Tagger for Gene Name)을 제안한다. TagGeN은 기존의 태거와 달리, 문자나 숫자 이외의 기호를 포함한 유전자나 단백질 이름의 품사 처리에 있어 개선 방안을 제시하고, 여러 토큰으로 이루어진 이름의 인식에 있어 나란한 두 토큰이 갖는 태그 정보를 이용한 조건부 확률에 근거하여 Markov 모델을 도입한다. 위와 같은 개선방안을 구현한 TagGeN은 성능면에서 기존의 유사시스템에 비해 recall 20.8%, precision 4.7%의 성능향상을 보임으로써 본 연구에서 제안한 방법론의 효과를 입증한다.

  • PDF

Recent Advances in the Clinical Application of Next-Generation Sequencing

  • Ki, Chang-Seok
    • Pediatric Gastroenterology, Hepatology & Nutrition
    • /
    • v.24 no.1
    • /
    • pp.1-6
    • /
    • 2021
  • Next-generation sequencing (NGS) technologies have changed the process of genetic diagnosis from a gene-by-gene approach to syndrome-based diagnostic gene panel sequencing (DPS), diagnostic exome sequencing (DES), and diagnostic genome sequencing (DGS). A priori information on the causative genes that might underlie a genetic condition is a prerequisite for genetic diagnosis before conducting clinical NGS tests. Theoretically, DPS, DES, and DGS do not require any information on specific candidate genes. Therefore, clinical NGS tests sometimes detect disease-related pathogenic variants in genes underlying different conditions from the initial diagnosis. These clinical NGS tests are expensive, but they can be a cost-effective approach for the rapid diagnosis of rare disorders with genetic heterogeneity, such as the glycogen storage disease, familial intrahepatic cholestasis, lysosomal storage disease, and primary immunodeficiency. In addition, DES or DGS may find novel genes that that were previously not linked to human diseases.