• 제목/요약/키워드: Informative gene selection

검색결과 15건 처리시간 0.022초

Informative Gene Selection Method in Tumor Classification

  • Lee, Hyosoo;Park, Jong Hoon
    • Genomics & Informatics
    • /
    • 제2권1호
    • /
    • pp.19-29
    • /
    • 2004
  • Gene expression profiles may offer more information than morphology and provide an alternative to morphology- based tumor classification systems. Informative gene selection is finding gene subsets that are able to discriminate between tumor types, and may have clear biological interpretation. Gene selection is a fundamental issue in gene expression based tumor classification. In this report, techniques for selecting informative genes are illustrated and supervised shaving introduced as a gene selection method in the place of a clustering algorithm. The supervised shaving method showed good performance in gene selection and classification, even though it is a clustering algorithm. Almost selected genes are related to leukemia disease. The expression profiles of 3051 genes were analyzed in 27 acute lymphoblastic leukemia and 11 myeloid leukemia samples. Through these examples, the supervised shaving method has been shown to produce biologically significant genes of more than $94\%$ accuracy of classification. In this report, SVM has also been shown to be a practicable method for gene expression-based classification.

Feature Selection via Embedded Learning Based on Tangent Space Alignment for Microarray Data

  • Ye, Xiucai;Sakurai, Tetsuya
    • Journal of Computing Science and Engineering
    • /
    • 제11권4호
    • /
    • pp.121-129
    • /
    • 2017
  • Feature selection has been widely established as an efficient technique for microarray data analysis. Feature selection aims to search for the most important feature/gene subset of a given dataset according to its relevance to the current target. Unsupervised feature selection is considered to be challenging due to the lack of label information. In this paper, we propose a novel method for unsupervised feature selection, which incorporates embedded learning and $l_{2,1}-norm$ sparse regression into a framework to select genes in microarray data analysis. Local tangent space alignment is applied during embedded learning to preserve the local data structure. The $l_{2,1}-norm$ sparse regression acts as a constraint to aid in learning the gene weights correlatively, by which the proposed method optimizes for selecting the informative genes which better capture the interesting natural classes of samples. We provide an effective algorithm to solve the optimization problem in our method. Finally, to validate the efficacy of the proposed method, we evaluate the proposed method on real microarray gene expression datasets. The experimental results demonstrate that the proposed method obtains quite promising performance.

나이브 베이스 분류기를 이용한 유전발현 데이타기반 암 분류를 위한 순위기반 다중클래스 유전자 선택 (Rank-based Multiclass Gene Selection for Cancer Classification with Naive Bayes Classifiers based on Gene Expression Profiles)

  • 홍진혁;조성배
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권8호
    • /
    • pp.372-377
    • /
    • 2008
  • 최근 활발히 연구가 진행 중인 유전발현 데이타를 이용한 다중클래스 암 분류는 DNA 마이크로어레이로부터 획득된 대규모의 유전자 정보를 분석하여 암의 종류를 판단한다. 수집된 유전발현 데이타에는 대상 암과 관련이 없는 유전자도 포함되어 있기 때문에 높은 성능의 분류 결과를 얻기 위해서 유용한 유전자를 선택하는 것이 필요하다. 기존의 순위기반 유전자 선택은 이진클래스를 대상으로 고안되었고 이상표식 유전자(Ideal marker gene)를 이용하기 때문에 다중클래스 암 분류에 직접 적용하기에는 한계가 있다. 본 논문에서는 이상표식 유전자를 사용하지 않고 유전발현 수준의 분포를 직접 분석하는 순위기반 다중클래스 유전자 선택 기법을 제안한다. 유전발현 수준을 이산화하고 학습 데이타로부터 빈도를 계산하여 클래스 간 분별력을 측정한 후, 선택된 유전자를 이용하여 나이브 베이즈 분류기를 사용해 다중 암 분류를 수행한다. 제안하는 방법을 다수의 다중클래스 암 분류 데이타에 적용하여 기존 유전자 선택 방법에 비해 우수함을 확인하였다.

유전자 알고리즘과 Feature Wrapping을 통한 마이크로어레이 데이타 중복 특징 소거법 (Removing Non-informative Features by Robust Feature Wrapping Method for Microarray Gene Expression Data)

  • 이재성;김대원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권8호
    • /
    • pp.463-478
    • /
    • 2008
  • 본 논문에서는 유전자 사이의 상관계수가 높은 마이크로어레이 데이타에 대하여 제안하는 알고리즘을 통해 상관계수가 낮은 유전자들의 부집합을 만들고, 이에 대해 적합 함수를 통한 평가로 기존 방법론이 가지는 한계를 극복할 수 있도록 하였다. 기존 방법론은 개별 특징의 평가를 통해 중복 특징을 제거하며, 상관계수에 대한 고려가 없어 선택된 유전자 부집합들의 상관계수가 논은 문제가 있었다. 이에 따라 제안하는 알고리즘은 특징간의 관계를 평가하는 Feature Wrapping 기법을 활용하여, 추출된 유전자 부집합에 포함된 유전자 사이의 상관관계가 낮고, 클래스 구분력이 높은 특징을 갖도록 하였다.

2 단계 접근법을 통한 통합 마이크로어레이 데이타의 분류기 생성 (Building a Classifier for Integrated Microarray Datasets through Two-Stage Approach)

  • 윤영미;이종찬;박상현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권1호
    • /
    • pp.46-58
    • /
    • 2007
  • 마이크로어레이 데이타는 동시에 수 만개 유전자의 발현 값을 포함하고 있기 때문에 질병의 발현 형질 분류에 매우 유용하게 쓰인다. 그러나 동일한 생물학적 주제라 할지라도 여러 독립된 연구 집단에서 생성된 마이크로어레이의 분석결과는 서로 다르게 나타날 수 있다. 이에 대한 주된 이유는 하나의 마이크로어레이 실험에 참여한 샘플의 수가 제한적이기 때문이다. 따라서 개별적으로 수행된 마이크로어레이 데이타를 통합하여 샘플의 수를 늘리는 것은, 보다 정확한 분석을 하는데 있어 매우 중요하다. 본 연구에서는 이에 대한 해결 방안으로 두 단계 접근방법을 제안한다. 제 1 단계에서는 개별적으로 생성된 동일주제의 마이크로어레이 데이타를 통합한 후 인포머티브(Informative) 유전자를 추출하고 제 2 단계에서는 인포머티브 유전자만을 이용하여 클래스 분류(Classification) 과정 후 분류자를 추출한다. 이 분류자를 다른 테스트 샘플 데이타에 적용한 실험결과를 보면 마이크로어레이 데이타를 통합하여 샘플의 수를 증가시킬수록, 비교 방법에 비해 정확도가 최대 24.19% 높은 분류자를 만들어 내는 것을 알 수 있다.

암 분류를 목적으로 하는 기계 학습 분류기를 위한 효과적인 유전자 선택 방법 (The Method of Gene Selection for Machine Learning Classifiers In Career Classification)

  • 박형근;이수정;이일병
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.205-207
    • /
    • 2004
  • 유전자 발현 분석 시스템에 있어서 microarray 기술의 발전은 유전 질환 진단의 정확성과 신뢰도를 향상시키는 데에 큰 기여를 하였다. 다양한 microarray기술을 통해 얻은 대량의 유전자 발현 정보는 기계 학습분류기를 이용한 암의 분류와 진단, 예측 분야에도 효과적으로 이용될 수 있다. 이 과정에서 종류에 따른 암의 정확한 분류를 위해서는 되도록 해당 암 클래스와의 직접적인 연관이 있는 유전자만을 선택하여 활용하는 것이 효과적이다. 본 논문에서는 이러한 정보력 있는 유전자(informative gene)를 효과적으로 선택 할 수 있는 유전자 선택 방법을 제시하고, 이를 이용하여 세 가지 벤치마크 암 데이터에 대하여 체계적인 실험을 하였다. 그 결과 향상된 분류 성능을 확인할 수 있었다.

  • PDF

마이크로어레이 데이터를 이용한 암 분류 표지 유전자 선별 시스템 (An Intelligent System of Marker Gene Selection for Classification of Cancers using Microarray Data)

  • 박수영;정채영
    • 한국정보통신학회논문지
    • /
    • 제14권10호
    • /
    • pp.2365-2370
    • /
    • 2010
  • 마이크로어레이를 기반으로 하는 암 분류 방법은 암 종류에 따라 다르게 발현되는 유전자 양상을 통계적으로 발견함으로써 정확한 암 분류에 기여할 수 있다. 따라서 현재의 마이크로어레이 기술을 이용해서 효과적으로 암을 분류하기 위해서는 특정 암과 밀접하게 관련이 있는 정보력 있는 유전자를 선택하는 과정이 필수적이다. 본 논문에서는 난소 암 마이크로어레이 데이터를 이용하여 암에 영향을 미치는 가장 다르게 발현할 가능성이 있는 표지 유전자를 추출할 수 있는 시스템을 고안하고, 다층퍼셉트론 분류기를 이용하여 기존의 마이크로어레이 시스템과 분류 성능을 비교분석하였다. 그 결과 ANOVA를 이용하여 선택된 표지 유전자를 포함하는 마이크로어레이 데이터 셋에서 98.61%의 향상된 분류 성능을 보였다.

이분산 상황 하에서 정규혼합모형 기반 군집분석의 변수선택 (Variable Selection in Normal Mixture Model Based Clustering under Heteroscedasticity)

  • 김승구
    • 응용통계연구
    • /
    • 제24권6호
    • /
    • pp.1213-1224
    • /
    • 2011
  • 관측치의 개수보다 변량의 개수가 더 많은 다변수 상황에서 정규혼합모형을 이용하여 군집분석을 하기 위해서는 비정보적인 변수들을 제거하는 과정이 필수적으로 요구된다. 이와 같은 변수선택과 군집의 동시 처리를 위한 기존 연구의 대부분은 군집별 등분산 가정 하에서 이루어져 왔으며, 비정보적인 변수를 제거하기 위해 주로 벌점화 우도 기법이 이용되었다. 본 연구에서는 약간 변형된 정규혼합모형을 기반으로 비현실적인 등분산 가정을 탈피하면서 효율적으로 비정보적인 변수를 제거하는 새로운 방법을 제공한다. 이 모형에 대한 타당성을 설명하였고, 모수 추정을 위한 EM 알고리즘을 유도하였다. 그리고 모의실험 및 실자료 실험을 통해 제안된 방법의 유효성을 보였다.

Evaluation of the classification method using ancestry SNP markers for ethnic group

  • Lee, Hyo Jung;Hong, Sun Pyo;Lee, Soong Deok;Rhee, Hwan seok;Lee, Ji Hyun;Jeong, Su Jin;Lee, Jae Won
    • Communications for Statistical Applications and Methods
    • /
    • 제26권1호
    • /
    • pp.1-9
    • /
    • 2019
  • Various probabilistic methods have been proposed for using interpopulation allele frequency differences to infer the ethnic group of a DNA specimen. The selection of the statistical method is critical because the accuracy of the statistical classification results vary. For the ancestry classification, we proposed a new ancestry evaluation method that estimate the combined ethnicity index as well as compared its performance with various classical classification methods using two real data sets. We selected 13 SNPs that are useful for the inference of ethnic origin. These single nucleotide polymorphisms (SNPs) were analyzed by restriction fragment mass polymorphism assay and followed by classification among ethnic groups. We genotyped 400 individuals from four ethnic groups (100 African-American, 100 Caucasian, 100 Korean, and 100 Mexican-American) for 13 SNPs and allele frequencies that differed among the four ethnic groups. Additionally, we applied our new method to HapMap SNP genotypes for 1,011 samples from 4 populations (African, European, East Asian, and Central-South Asian). Our proposed method yielded the highest accuracy among statistical classification methods. Our ethnic group classification system based on the analysis of ancestry informative SNP markers can provide a useful statistical tool to identify ethnic groups.

정보력 있는 유전자 선택 방법 조합을 이용한 마이크로어레이 분류 시스템 구현 (The Implement of System on Microarry Classification Using Combination of Signigicant Gene Selection Method)

  • 박수영;정채영
    • 한국정보통신학회논문지
    • /
    • 제12권2호
    • /
    • pp.315-320
    • /
    • 2008
  • 오늘날 인간 genome프로젝트와 같은 종합적인 연구의 궁극적 목적을 달성하기 위해서는 이들 연구로부터 획득한 대량의 관련 데이터에 대해 새로운 현실적 의미를 부여할 수 있어야 한다. 이러한 맥락에서 유전자 발현 분석 시스템과 염기 서열 분석 시스템의 구축이 포스트 genome 시대를 맞이하여 새롭게 주복을 받고 있다. 최근에는 종양의 특정 부 클래스가 특정 염색체와 관련되어 있다는 사실이 밝혀지면서, 마이크로어레이는 유전자 발현 정보를 기반으로 암의 분류와 예측을 통한 진단 분야에도 활용되기 시작했다. 본 논문에서는 암에 걸린 흰쥐 외피 기간 세포 분화 실험에서 얻어진 3840 유전자의 마이크로어레이 cDNA를 이용하여 데이터의 정규화를 거쳐 정보력 있는 유전자 목록을 별도로 추출할 수 있는 시스템을 고안하고 보다 정보력 있는 유전자를 선택하기 위해 조합 방법을 제안하였다. 그리고 제안한 시스템과 방법론의 가능성을 실험을 통해 검증하였다. 그 결과 PC-ED 조합이 98.74%의 정확도와 0.04%의 MSE를 보여 단일 유사성 척도를 사용하여 유전자 목록을 생성하고 실험을 수행한 경우보다 분류 성능이 향상되었다.