DOI QR코드

DOI QR Code

The Training Data Generation and a Technique of Phylogenetic Tree Generation using Decision Tree

트레이닝 데이터 생성과 의사 결정 트리를 이용한 계통수 생성 방법

  • 채덕진 (전남대학교 대학원 전산학과) ;
  • 신예호 (극동대학교 정보통신학부) ;
  • 천태영 (충북대학교 생물학과) ;
  • 고흥선 (충북대학교 생물학과) ;
  • 류근호 (충북대학교 전기전자 및 컴퓨터공학부) ;
  • 황부현 (전남대학교 전산학과)
  • Published : 2003.10.01

Abstract

The traditional animal phylogenetic tree is to align the body structure of the animal phylums from simple to complex based on the initial development character. Currently, molecular systematics research based on the molecular, it is on the fly, is again estimating prior trend and show the new genealogy and interest of the evolution. In this paper, we generate the training set which is obtained from a DNA sequence ans apply to the classification. We made use of the mitochondrial DNA for the experiment, and then proved the accuracy using the MEGA program which is anaysis program, it is used in the biology field. Although the result of the mining has to proved through biological experiment, it can provede the methodology for the efficient classify and can reduce the time and effort to the experiment.

전통적인 동물 계통수(系統樹)는 초기발생 혈질에 기초하여 몸 구조가 단순한 것에서 복잡한 것으로 동물문(animal phylum)들을 배열하는 것이다. 현재 활발하게 연구 진행되는 분자수준에서의 분자계통 분류학(Molecular Systematics) 연구들이 이런 경향을 재평가하고 새로운 계통과 진화의 의미를 제시하고 있다. 본 논문에서는 한 염기서열로부터 획득할 수 있는 특성 값들을 추출하여 트레이닝 데이터를 생성하고, 생성된 데이터를 기반으로 데이터마이닝 기법중의 하나인 분류기법(classification) 을 사용하여 계통수를 생성하였다. 실험용 데이터는 미토콘드리아 염기서열을 사용하였으며 생물학분야에서 사용하는 분석 프로그램인 MEGA 프로그램을 사용하여 이를 증명하였다. 비록 마이닝을 수행한 결과는 생물학적 실험을 거쳐 정확성을 검증 받아야 하지만 인터넷상에 떠다니는 무수한 유전체들에 대한 유효한 분류기준을 제시할 수 있고 계통수 제작을 위한 실험에 소요되는 많은 시간과 노력들을 줄일 수 있다.

Keywords

References

  1. P. Adriaans and D. Zanting, 'Data Mining,' Addison Wesley, 1996
  2. Alvis Brazma, Inge Jonassen, Ingvar Eidhammer and David Gilbert, 'Approaches to the automatic discovery of pattern biosequences,' The Journal of Computational Biology, November, 1997
  3. J. L. Boore, T. M. Collins, D. Stanton, L. L. Daehler and W. M. Brown, 'Deducing the patterns of arthropod phylogeny from mitochondrial DNA rearrangements,' Nature 376, pp.163-165, 1995 https://doi.org/10.1038/376163a0
  4. T. D. Kocher, W. K. Thomas, A. Meyer, S. V. Edwards, S. Paabo, F. X. Villablanca and A. C. Wilson, 'Dynamics of mitochondrial DNA evolution in animals: amplification and sequencing with conserved primers,' Proc. Natl. Acad. Sci. USA. 16, pp.6196-6200, 1989
  5. Usama Fayadd, Gregory Piatetsky-Shapiro and Padhraic Smyth, Chapter 1 From Data Mining to Knowledge Discovery : An Overview, Advances in Knowledge Discovery and Data Mining, AAAI Press, pp.1-34, 1996
  6. J L. Boore, D. V. Lavrov and W. M. Brown, 'Gene translocation links insects and crustaceans,' Nature 392, pp, 667-668, 1998 https://doi.org/10.1038/33577
  7. Manish Mehta, Rakesh Agarawal, and Jorma Rissanen, 'SLIQ : A Fast Scalable Classifier for Data Mining,' EDBT 96, Avignon, France, March, 1996
  8. Peiter Adriaans and Dolf Zantinge, 'Data Mining,' Addition Wesley, 1996
  9. P. S. Bradley, U. M. Fayyad and O. L. Mangasarian, 'Data Mining: Overview and Optimization Opportunities,' http:// elib.stanford.edu, Technical Report MP-TR-98-01, 1998
  10. M. Rebhan, V. Chalifa-Caspi, J Prilusky and D. Lancet, 'GeneCards : a novel functional genornics compendium with automated data mining and query reformulation support,' Bioinformatics, Vol.14, No.8, pp.656-664, 1998 https://doi.org/10.1093/bioinformatics/14.8.656
  11. R. J. Hilderman, H. J. Hamilton and N. Cercone, 'Data Mining in Large Databases Using Domain Generalization Graphs,' Dept. of CS, Univ. of Regina, submitted for publication, 1998
  12. J. Setubal and Meidanis J. 'Introduction to Computational Molecular Biology,' MA : PWS Publishing Company, Boston, 1997
  13. T. Zhang, 'Data Clustering for Very Large Datasets Plus Applications,' A dissertation submitted in partial fulfillment of the requirements for the degree of Doctor of Philosophy, Dept. of CS, Univ of Wisconsin, 1997
  14. 정재훈 '생물정보학과 인터넷 자원', 한국유전학회, 유전 제3권, pp.176-200, 2000
  15. 김기중, 분자생물학적 자료와 계통수 제작, 한국유전학회, 유전 제3권, pp.259-271, 2000
  16. RuleQuest Research Data Mining Tools, See5, http://www. relequest.comlindex.html
  17. M. Mehta, J Rissanen and R. Agrawal, 'MDL-based De cision Tree Pruning,' Proc. of the 1st Int'l Conference on Knowledge Discovery in Databases and Data Mining, Montrcal, Canada, August, 1995