DOI QR코드

DOI QR Code

Development of Multidimensional Analysis System for Bio-pathways

바이오 패스웨이 다차원 분석 시스템 개발

  • 서동민 (한국과학기술정보연구원 소프트웨어연구센터 과학기술마이닝팀) ;
  • 최윤수 (한국과학기술정보연구원 소프트웨어연구센터 과학기술마이닝팀) ;
  • 전선희 (한국과학기술정보연구원 소프트웨어연구센터 과학기술마이닝팀) ;
  • 이민호 (한국과학기술정보연구원 소프트웨어연구센터 과학기술마이닝팀)
  • Received : 2014.10.16
  • Accepted : 2014.11.04
  • Published : 2014.11.28

Abstract

With the development of genomics, wearable device and IT/NT, a vast amount of bio-medical data are generated recently. Also, healthcare industries based on big-data are booming and big-data technology based on bio-medical data is rising rapidly as a core technology for improving the national health and aged society. A pathway is the biological deep knowledge that represents the relations of dynamics and interaction among proteins, genes and cells by a network. A pathway is wildly being used as an important part of a bio-medical big-data analysis. However, a pathway analysis requires a lot of time and effort because a pathway is very diverse and high volume. Also, multidimensional analysis systems for various pathways are nonexistent even now. In this paper, we proposed a pathway analysis system that collects user interest pathways from KEGG pathway database that supports the most widely used pathways, constructs a network based on a hierarchy structure of pathways and analyzes the relations of dynamics and interaction among pathways by clustering and selecting core pathways from the network. Finally, to verify the superiority of our pathway analysis system, we evaluate the performance of our system in various experiments.

최근 유전체학의 발전, 웨어러블 디바이스의 확산, IT/NT의 발전 등에 따라 방대한 양의 바이오-메디컬 데이터가 생산되고, 이에 따라 빅데이터를 활용한 헬스케어 산업이 급속히 발달하고 있으며, 이와 관련된 빅데이터 기술은 국민의 건강 증대와 건강한 고령 삶을 제공하는 핵심 기술로 급부상하고 있다. 패스웨이(Pathway)는 단백질, 유전자, 세포 등의 생체적 요소 간의 역학관계 혹은 상호작용 등을 네트워크 형식으로 표현한 생물학적 심층지식으로, 바이오-메디컬 빅데이터 분석에 있어서 널리 활용되고 있다. 하지만 패스웨이는 매우 다양한 형태를 갖고 용량이 매우 큰 빅데이터로 이를 분석하는데 많은 시간이 소요되며, 현재까지도 다양한 패스웨이를 통합 분석할 수 있는 시스템은 전무하다. 그래서 본 논문에서는 세계적으로 가장 우수하고 방대한 양의 패스웨이를 제공하는 KEGG 패스웨이 데이터베이스로부터 사용자가 관심 갖는 패스웨이만을 자동 수집하고 패스웨이 간 계층구조를 기반으로 네트워크를 구성 후, 해당 패스웨이 네트워크에 대한 클러스터링과 핵심 패스웨이 선정을 통해 패스웨이 간의 역학관계 또는 상호작용을 직관적으로 분석할 수 시스템을 제안했다. 마지막으로, 다양한 성능 평가 결과를 통해 개발한 분석 시스템의 우수성을 입증한다.

Keywords

References

  1. 서동민, 정한민, "빅데이터 분석 서비스 지원을 위한 지능형 웹 크롤러", 한국콘텐츠학회논문지, 제13권, 제12호, pp.575-584, 2013. https://doi.org/10.5392/JKCA.2013.13.12.575
  2. 성원경, 이상환, 정한민, 박경석, 이승우, 김선태, 황미녕, 조민희, 과학기술 빅데이터 추진과제 발굴 및 활용 극대화를 위한 추진전략 마련 기획연구, 교육과학기술부, 2013.
  3. 윤미영, 권정은, 빅데이터로 진화하는 세상 - Big Data 글로벌 선진 사례, 한국정보화진흥원, 2012.
  4. http://1000genomes.org
  5. http://www.va.gov/health/
  6. 백인수, 박지혜, "데이터 시대: 데이터 분석의 중요성", IT&Future Strategy, 제9호, p.12, 2013.
  7. http://www.genome.jp/kegg/pathway.html
  8. 이재권, 강태호, 이영훈, 유재수, "단백질 경로 분석 시스템의 설계 및 구현", 한국콘텐츠학회논문지, 제5권, 제6호, pp.31-40, 2005.
  9. S. J. Cho, J. W. Ryu, and J. S. Yoo, "Analysis of KEGG Flows Network Based on Protein-protein Interaction Networks," Proc. IDDIE, pp.215-216, 2011.
  10. L. P. Cordella, P. Foggia, C. Sansone, and M. Vento, "An Improved Algorithm for Matching Large Graphs," 3rd IAPR-TC15 Workshop on Graph-based Representations in Pattern Recognition, Cuen, pp.149-159, 2001.