• Title/Summary/Keyword: 차세대 시퀀싱

Search Result 23, Processing Time 0.033 seconds

A parallel SNP detection algorithm for RNA-Seq data (RNA 시퀀싱 데이터를 이용한 병렬 SNP 추출 알고리즘)

  • Kim, Deok-Keun;Lee, Deok-Hae;Kong, Jin-Hwa;Lee, Un-Joo;Yoon, Jee-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.1260-1263
    • /
    • 2011
  • 최근 차세대 시퀀싱 (Next Generation Sequencing, NGS) 기술이 발전하면서 DNA, RNA 등의 시퀀싱 데이터를 이용한 유전체 분석 방식에 관한 연구가 활발히 이루어지고 있다. 차세대 시퀀싱 데이터를 이용한 유전체 분석 방식은 마이크로어레이 혹은 EST/cDNA 데이터를 이용한 기존의 분석 방식에 비하여 비용이 적게 들고 정확한 결과를 얻을 수 있다는 장점이 있다. 그러나 이 들 DNA, RNA 시퀀싱 데이터는 각 시퀀스의 길이가 짧고 전체 용량은 매우 커서 이 들 데이터로부터 정확한 분석 결과를 추출하는 데에 많은 어려움이 있다. 본 연구에서는 클라우드 컴퓨팅 기술을 기반으로 하여 대용량의 RNA 시퀀싱 데이터를 고속으로 처리하는 병렬 SNP 추출 알고리즘을 제안한다. 전체 게놈 데이터 중 유전자 영역만을 high coverage로 시퀀싱하여 얻어지는 RNA 시퀀싱 데이터는 유전자 변이 추출을 목적으로 분석되며, SNP(Single Nucleotide Polymorphism)와 같은 유전자 변이는 질병의 원인 규명 및 치료법 개발에 직접 이용된다. 제안된 알고리즘은 동시에 실행되는 다수의 Map/Reduce 함수에 의해서 대규모 RNA 시퀀스를 병렬로 처리하며, 레퍼런스 시퀀스에 매핑된 각 염기의 출현 빈도와 품질점수를 이용하여 SNP를 추출한다. 또한 이 들 SNP 추출 결과에 대한 시각적 분석 도구를 제공하여 SNP 추출 과정 및 근거를 시각적으로 확인/검증할 수 있도록 지원한다.

SNP Analysis Method for Next-generation Sequencing Data (차세대 시퀀싱 데이터를 위한 SNP 분석 방법)

  • Hong, Sang-kyoon;Lee, Deok-hae;Kong, Jin-hwa;Kim, Deok-Keun;Hong, Dong-wan;Yoon, Jee-hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.95-98
    • /
    • 2010
  • 최근 차세대 시퀀싱 기술의 급속한 발전에 따라 서열 정보의 해독이 비교적 쉬워지면서 개인별 맞춤의학의 실현에 대한 기대와 관심이 높아지고 있다. 각 개인의 서열 정보 사이에는 SNP (single nucleotide polymorphism), Indel, CNV (copy number variation) 등의 다양한 유전적 구조 변이가 존재하며, 이러한 서열 정보의 부분적 차이는 각 개인의 유전적 특성 및 질병 감수성 등과 밀접한 관련을 갖는다. 본 연구에서는 차세대 시퀀싱 결과로 산출되는 수많은 짧은 DNA 서열 조각인 리드 데이터를 이용한 SNP 추출 알고리즘을 제안한다. 제안된 알고리즘에서는 레퍼런스 시퀀스의 각 위치에 대한 리드 시퀀스의 매핑 정보를 기반으로 SNP 후보 영역을 추출하며, 품질 정보 등을 활용하여 에러 발생률을 최소화한다. 또한 대규모 시퀀싱 데이터와 SNP 구조 변이 데이터의 효율적인 저장/검색을 지원하는 시각적 분석 도구를 구현하여 제안된 방식의 유용성을 검증한다.

Analysis of Read Sequencing Simulator (리드 시퀀싱 시뮬레이터 비교 분석)

  • Tak, Haesung;Lee, Sang-min;Park, Kiejung;Lee, Dohoon;Cho, Hwan-gue
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1203-1206
    • /
    • 2013
  • 차세대 유전자 서열 시퀀싱 기법이 등장함에 따라 참조 유전자 서열로부터 리드를 생성하는 시퀀서의 기술이 다양화 되었다. 이전 시퀀싱 방식에 비해 비용 및 시간 측면에서 효율성이 증대 되었으나, 매핑도구의 검증을 위해서 다양한 생물학적 특이성을 반영하거나 비용이 소요되지 않는 방법을 연구하는 과정에서 리드 시퀀싱 시뮬레이터가 개발되었다. 본 논문에서는 현재 사용되고 있는 리드 시퀀싱 시뮬레이터에서 반영된 시퀀싱 기법을 분석하고 시뮬레이터의 기능적 특성을 분석하고자 한다. 이는 시뮬레이터 개발에 필요한 기능 설계 및 생물학적 특성을 반영하는데 활용하고자 한다.

Genotype-Calling System for Somatic Mutation Discovery in Cancer Genome Sequence (암 유전자 배열에서 체세포 돌연변이 발견을 위한 유전자형 조사 시스템)

  • Park, Su-Young;Jung, Chai-Yeoung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.17 no.12
    • /
    • pp.3009-3015
    • /
    • 2013
  • Next-generation sequencing (NGS) has enabled whole genome and transcriptome single nucleotide variant (SNV) discovery in cancer and method of the most fundamental being determining an individual's genotype from multiple aligned short read sequences at a position. Bayesian algorithm estimate parameter using posterior genotype probabilities and other method, EM algorithm, estimate parameter using maximum likelihood estimate method in observed data. Here, we propose a novel genotype-calling system and compare and analyze the effect of sample size(S = 50, 100 and 500) on posterior estimate of sequencing error rate, somatic mutation status and genotype probability. The result is that estimate applying Bayesian algorithm even for 50 of small sample size approached real parameter than estimate applying EM algorithm in small sample more accurately.

Parallel Processing of BLAST Using Hadoop and Its Performance Evaluation (하둡을 이용한 BLAST의 병렬 처리 및 성능 분석)

  • Choi, Hoon;Um, Jungho;Yoon, Hwa-mook;Choi, Yun-Soo;Lee, Minho;Lee, Won-Goo;Song, Sa-Kwang;Jung, Hanmin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.115-117
    • /
    • 2012
  • 차세대 시퀀싱 장비는 기존의 컴퓨팅 방법으로 처리할 수 없을 만큼 많은 양의 시퀀스 데이터를 생성하고 있다. 본 논문에서는 차세대 시퀀스 데이터의 정렬을 위해 널리 사용되고 있는 BLAST의 병렬 처리 방법을 하둡을 사용하여 제시하며, 이의 성능 개선 효과를 분석한다.

AGB (Ancestral Genome Browser): A Web Interface for Browsing Reconstructed Ancestral Genomes (AGB (Ancestral Genome Browser): 조상유전체 데이터의 시각적 열람을 위한 웹 인터페이스)

  • Lee, Daehwan;Lee, Jongin;Hong, Woon-Young;Jang, Eunji;Kim, Jaebum
    • Journal of KIISE
    • /
    • v.42 no.12
    • /
    • pp.1584-1589
    • /
    • 2015
  • With the advancement of next-generation sequencing (NGS) technologies, various genome browsers have been introduced. Because existing browsers focus on comparison of the genomic data of extant species, however, there is a need for a genome browser for ancestral genomes and their evolution. In this paper, we introduce a genome browser, AGB (Ancestral Genome Browser), that displays ancestral genome data reconstructed from existing species. With AGB, it is possible to trace genomic variations that occurred during evolution in a simple and intuitive way. We explain the capability of AGB in terms of visualizing ancestral genomic information and evolutionary genomic variations. AGB is now available at http://bioinfo.konkuk.ac.kr/genomebrowser/.

회원사 소개 - 중소중견기업편 - 시크제네시스(SeqGenesis)

  • 한국식품연구원
    • Bulletin of Food Technology
    • /
    • v.26 no.4
    • /
    • pp.344-348
    • /
    • 2013
  • 시크제네시스(SeqGenesis)는 2011년 7월 설립된 대전소재 생물정보분석 전문기업으로, 국가 연구기관에서 다수 미생물, 인간, 동물, 식물에 대한 오믹스 통합 데이터베이스 및 생물정보 분석 플랫폼 개발, 영양유전체 연구지원 시스템 구축, 분석알고리즘 개발 등 다양한 생물정보분석에 대한 경력을 가진 전문연구원으로 구성되어 있다. 현재 차세대시퀀싱(NGS)데이터 분석, 마이크로바이옴(microbiome) 분석, 고밀도 마이크로어레이 프로브 디자인 및 분석, 생물 정보 컨설팅, 오믹스 데이터베이스 구축 등 연구 지원 파트너로서 생물정보분석 서비스를 하고 있다.

  • PDF

Current Status and Outlook of pNFS and Its Implementation (pNFS 표준화 및 연구개발 동향)

  • Park, J.S.;Kim, S.Y.;Cha, M.H.;Kim, D.O.;Kim, Y.C.;Kim, H.Y.
    • Electronics and Telecommunications Trends
    • /
    • v.26 no.5
    • /
    • pp.55-65
    • /
    • 2011
  • 요즘 신산업으로 떠오르고 있는 개인 유전체 분석이나 차세대 시퀀싱 기술과 같은 고성능 컴퓨팅 응용들은 data-intensive한 작업들을 요구하며, 이러한 응용을 지원하기 위한 고성능 파일 시스템 기술에 대한 연구들이 다수 진행 중이다. 그러나 그 결과물들은 업체별로 보유한 고유 기술로서, 상호 호환성 등의 문제로 인해 표준화의 필요성이 제기되어 왔다. 현재 파일 시스템과 관련하여 거의 모든 IT 업체에서 사용하고 있는 실질적인 표준은 NFS(Network File System)이다. IETF(Internet Engineering Task Force)에서는 이러한 요구사항들을 반영하여 2010년에 NFSv4.1 표준을 공표하였고, 특히 I/O 성능을 향상시키기 위한 pNFS(parallel NFS)는 NFSv4.1의 핵심 기능으로서 다수업체들과 연구기관들에서 많은 관심을 받고 있다. 본 고에서는 pNFS 표준화 및 연구개발 동향과 관련된 이슈들에 대해 기술하고자 한다.

  • PDF

Highly accurate detection of cancer-specific copy number variations with MapReduce (맵리듀스 기반의 암 특이적 유전자 단위 반복 변이 추출)

  • Shin, Jae-Moon;Hong, Sang-Kyoon;Lee, Un-Joo;Yoon, Jee-Hee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.19-21
    • /
    • 2012
  • 모든 암 세포는 체세포 변이를 동반한다. 따라서 암 유전체 변이 분석에 의하여 암을 발생시키는 유전자 및 진단/치료법을 찾아낼 수 있다. 본 연구에서는 차세대 시퀀싱 데이터를 이용하여 암 특이적 단이 반복 변이(copy number variation, CNV) 유형을 밝히는 새로운 알고리즘을 제안한다. 제안하는 방식은 암 환자의 정상 세포와 암세포로부터 얻어진 정상 유전체와 암 유전체를 동시 분석하여 각각 CNV 후보 영역을 추출하며, 통계적 유의성 분석을 통하여 암 특이적 CNV 후보 영역을 선별하고, 다음 후처리 과정에서 참조 표준 서열(reference sequence)에 존재하는 오류 영역 보정 작업을 수행하여 정확한 암 특이적 CNV 영역을 추출해 낸다. 또한 다수의 대용량 유전체 데이터 동시 분석을 위하여 맵리듀스(MapReduce) 기법을 기반으로 하는 병렬 수행 알고리즘을 제안한다.