Abstract
In diploid organisms like human, each chromosome consists of two copies. A haplotype is a SNP(single nucleotide polymorphism) sequence information from each copy. Finding the complete map of haplotypes in human population is one of the important issues in human genome. To obtain haplotypes via experimental methods is both time-consuming and expensive. Therefore, inference methods have been used to infer haplotyes from the genotype samples. In this paper, we propose a new approach using genetic algorithm to infer haplotypes, which is based on the model of finding the minimum number of haplotypes that explain the genotype samples. We show that by doing a computational experiment, our algorithm has the correctness similar to HAPAR[1] which is known to produce good results while the execution time of our algorithm is less than that of HAPAR as the input size is increased. The experimental result is also compared with the result by the recent method PTG[2].
인간과 같은 2배체의 각 염색체는 부모로부터 물려받은 2벌의 복제로 이루어져 있다. 이들 각 복제에서 SNP(single nucleotide polymorphism) 서열 정보를 하플로타입이라 부른다. 인간의 하플로타입 지도를 완전히 찾는 것은 인간 지놈의 중요한 작업 중의 하나인데, 실험적인 방법으로 하플로타입을 직접 얻는 것은 시간이 많이 걸리고 비용이 많이 든다. 따라서 두 하플로타입 정보가 혼합된 지노타입의 샘플들로부터 하플로타입을 추론하는 것에 대하여 연구되어왔다. 이 논문에서는 지노타입들을 설명하는 최소 개수의 하플로타입들을 찾는 모델(최소 하플로타입 추론문제)에 근거하여, 유전자 알고리즘을 사용하여 하플로타입을 추론하는 새로운 접근 방법을 제시한다. 좋은 결과를 주는 것으로 알려진 HAPAR[1]와 이 논문에 제시한 알고리즘을 컴퓨터 실험에 의한 비교를 통하여, 입력이 클 때 이 논문의 알고리즘이 수행시간은 적게 걸리면서 정확성이 비슷함을 보인다. 또한 이 실험 결과를 최근에 제시된 방법인 PTG[2]와 비교한다.