DOI QR코드

DOI QR Code

Candidate Marker Identification from Gene Expression Data with Attribute Value Discretization and Negation

속성값 이산화 및 부정값 허용을 하는 의사결정트리 기반의 유전자 발현 데이터의 마커 후보 식별

  • 이경미 (충북대학교 컴퓨터과학과, PT-ERC) ;
  • 이건명 (충북대학교 컴퓨터과학과, PT-ERC)
  • Received : 2011.09.02
  • Accepted : 2011.10.15
  • Published : 2011.10.25

Abstract

With the increasing expectation on personalized medicine, it is getting importance to analyze medical information in molecular biology perspective. Gene expression data are one of representative ones to show the microscopic phenomena of biological activities. In gene expression data analysis, one of major concerns is to identify markers which can be used to predict disease occurrence, progression or recurrence in the molecular level. Existing markers candidate identification methods mainly depend on statistical hypothesis test methods. This paper proposes a search method based decision tree induction to identify candidate markers which consist of multiple genes. The propose method discretizes numeric expression level into three categorical values and allows candidate markers' genes to be expressed by their negation as well as categorical values. It is desirable to have some number of genes to be included in markers. Hence the method is devised to try to find candidate markers with restricted number of genes.

맞춤형 의료에 대한 기대가 커지면서 분자생물학적인 의료정보의 분석이 중요해지고 있다. 유전자 발현 데이터는 생명현상의 분자생물학적 동태을 보여주는 대표적인 데이터이다. 유전자 발현 데이터의 분석을 통해서 유전자 발현 수준에서의 특정 질병의 발병, 전이, 재발 등을 예측하기 위한 마커에 대한 관심이 많다. 두 개의 대조적인 관심 집단을 식별하는 유전자를 찾기 위해 통계적인 방법 등이 이용되어 왔다. 이 논문에서는 여러 유전자의 조합을 통해서 집단을 식별할 수 있는 후보 마커를 찾는 의사결정트리 기반 방법을 제안한다. 제안한 방법에서는 수치적인 유전자의 발현값을 세 개의 범주값으로 이산화시키고, 유전자 발현값을 해당 범주값뿐만 아니라 범주값의 부정값을 허용할 수 있도록 한다. 한편, 마커로 활용하기 위해서는 소수의 유전자만을 사용하는 것이 바람직하기 때문에, 마커에 소속할 유전자의 개수를 제한하여 마커를 찾도록 한다.

Keywords

References

  1. G. McDougall, Personalized Medicine : The Time to Act and Collaborate Is Now, Breakthroughs, 7-9, Apr. 2010.
  2. E. Dalmasso, Planning for Success in Bioma rker Discovery, GEN, Vol.28, No.12, Jun. 2008.
  3. R. Rosell, E. Felip, M. Taron, et al., Gene Expression as a Predictive Marker of Outcome in Stage IIB-IIIA-IIIB Non-Small Cell Lung Cancer After Induction Gemcitabine- Based Chemotherapy Followed By Resectional Surgery, Clinical Cancer Research, Vol.10, No.12, 2004.
  4. S. Draghici, Data Analysis Tools for DNA Microarrays, Chapman & Hall/CRC, 2003.
  5. T.A. Brown, Genomes, John Wiley & Sons, 1999.
  6. V. G. Tusher, R. Tibshirani, G. Chu, Significance analysis of microarrays applied to the ionizing radiation reponse, Proc. of Nat. Acad.Sci., Vol.98, No.9, 5116-5121, Apr. 2001. https://doi.org/10.1073/pnas.091062498
  7. 강호일, 김야석 역, DNA:마이크로어레이 데이터 해석, 월드사이언스, 2005.
  8. K. M. Lee, K. S. Hwang, C. H. Lee, Fuzzy Set-based Microarray Data Analysis Techniques for Interesting Block Identification, Proc. of FUZZ- IEEE2009, 2009.
  9. M. L. Metzker, Sequencing Technologies - the next generation, Nature Review Genetics, Vol.11, pp.31-46, 2010. https://doi.org/10.1038/nrg2626

Cited by

  1. Knowledge Extractions, Visualizations, and Inference from the big Data in Healthcare and Medical vol.23, pp.5, 2013, https://doi.org/10.5391/JKIIS.2013.23.5.400