Abstract
With the development of genomics, wearable device and IT/NT, a vast amount of bio-medical data are generated recently. Also, healthcare industries based on big-data are booming and big-data technology based on bio-medical data is rising rapidly as a core technology for improving the national health and aged society. A pathway is the biological deep knowledge that represents the relations of dynamics and interaction among proteins, genes and cells by a network. A pathway is wildly being used as an important part of a bio-medical big-data analysis. However, a pathway analysis requires a lot of time and effort because a pathway is very diverse and high volume. Also, multidimensional analysis systems for various pathways are nonexistent even now. In this paper, we proposed a pathway analysis system that collects user interest pathways from KEGG pathway database that supports the most widely used pathways, constructs a network based on a hierarchy structure of pathways and analyzes the relations of dynamics and interaction among pathways by clustering and selecting core pathways from the network. Finally, to verify the superiority of our pathway analysis system, we evaluate the performance of our system in various experiments.
최근 유전체학의 발전, 웨어러블 디바이스의 확산, IT/NT의 발전 등에 따라 방대한 양의 바이오-메디컬 데이터가 생산되고, 이에 따라 빅데이터를 활용한 헬스케어 산업이 급속히 발달하고 있으며, 이와 관련된 빅데이터 기술은 국민의 건강 증대와 건강한 고령 삶을 제공하는 핵심 기술로 급부상하고 있다. 패스웨이(Pathway)는 단백질, 유전자, 세포 등의 생체적 요소 간의 역학관계 혹은 상호작용 등을 네트워크 형식으로 표현한 생물학적 심층지식으로, 바이오-메디컬 빅데이터 분석에 있어서 널리 활용되고 있다. 하지만 패스웨이는 매우 다양한 형태를 갖고 용량이 매우 큰 빅데이터로 이를 분석하는데 많은 시간이 소요되며, 현재까지도 다양한 패스웨이를 통합 분석할 수 있는 시스템은 전무하다. 그래서 본 논문에서는 세계적으로 가장 우수하고 방대한 양의 패스웨이를 제공하는 KEGG 패스웨이 데이터베이스로부터 사용자가 관심 갖는 패스웨이만을 자동 수집하고 패스웨이 간 계층구조를 기반으로 네트워크를 구성 후, 해당 패스웨이 네트워크에 대한 클러스터링과 핵심 패스웨이 선정을 통해 패스웨이 간의 역학관계 또는 상호작용을 직관적으로 분석할 수 시스템을 제안했다. 마지막으로, 다양한 성능 평가 결과를 통해 개발한 분석 시스템의 우수성을 입증한다.