The LD based Haplotype Reconstruction System for Large scale Genotype dataset

대용량 유전자형 데이터에 대한 LD기반의 일배체형 재구성 시스템

  • Kim Sang-Jun (School of Computer Science & Engineering, Chung-Ang University) ;
  • Yeo Sang-Soo (School of Computer Science & Engineering, Chung-Ang University) ;
  • Kim Sung-Kwon (School of Computer Science & Engineering, Chung-Ang University)
  • 김상준 (중앙대학교 컴퓨터공학부) ;
  • 여상수 (중앙대학교 컴퓨터공학부) ;
  • 김성권 (중앙대학교 컴퓨터공학부)
  • Published : 2005.07.01

Abstract

유전자 분석기술의 발전은 지놈 프로젝트(genome project)와 햅맵 프로젝트(hapmap project)를 가능하게 하였으며 이제는 맞춤형 진단 및 신약 개발 등 실제 사업의 구체화를 가져오게 하였다. 실제 사업에 적용시키기 위해서는 비용 절감의 문제를 해결해야 한다. 그래서 대용량의 유전자형(genotype)데이터를 정확하고 빠르게 일배체형(haplotype)으로 재구성해 줄 수 있는 시스템이 생물 산업 및 제약 산업에서 제기되어 지고 있다. 기존의 연구에서 비록 정확성이 높은 알고리즘들이 개발되어 있지만 기존의 방법들은 계산에 필요한 양이 크기 때문에 대용량 데이터에 대한 처리가 불가능하였다. 우리가 제안하는 시스템은 대용량 데이터를 유동적인 크기로 블록을 분할하여 대용량 데이터 처리 문제를 해결하였다. 또한 나누어진 블록에서 나타나는 모호한 이형접합체(heterozygote)의 위상(phase)의 결정 과정에 LD기반의 블록 분할 방법을 이용함으로써, 추론된 결과의 정확률을 높였다. 구현된 시스템의 성능평가는 ms로 구성한 인공데이터를 사용하여 수행하였다.

Keywords