• Title/Summary/Keyword: 서열 변환

Search Result 56, Processing Time 0.027 seconds

Design and Implementation of an Intelligent Multiple DNA Sequence Translation Tool (지능적 다중염기서열 변환 도구의 설계 및 구현)

  • Lee Hye-Ri;Lee Geon-Myeong;Lee Chan-Hui;Lee Seong-Deok;Kim Seong-Su
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2006.05a
    • /
    • pp.37-40
    • /
    • 2006
  • 계통분석을 하는 생물학자들은 관련된 분석대상에 대한 정보를 확보하여 비교분석하기 위해 NCBI 등으로부터 염기서열을 확보하여 아미노산 서열로 변환하는 작업을 수행하게 된다. 많은 서열 데이터에 대해서 데이터베이스로부터 데이터를 검색하고 이를 변환하는 작업을 순차적으로 분석자가 관여하여 작업하는 것이 현재 분석환경이다. 따라서 본 논문에서는 분석의 효율성을 향상시키기 위해, 관심서열의 등록번호(Accession Number) 리스트를 입력하면 해당 서열에 대항 정보를 NCBI로부터 웹로봇을 통해 자동으로 확보한 다음, 확보된 염기서열 전체를 아미노산 서열로 자동 변환하여 가장 긴 ORF(Open Reading Frame)을 추천해주기 위해 설계된 지능형 다중 염기서열 변환 도구에 대해서 소개한다.

  • PDF

Building a Biological Genomic Database Management System in Laboratory Level (실험실 레벨의 유전체 생물학 데이터베이스 관리시스템 구축)

  • 차효성;정광수;박성희;류근호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.28-30
    • /
    • 2004
  • 대부분의 생물학 실험실에서는 스퀸싱 실험으로 얻어진 서열조각에 대해 어셈블리 과정을 통해 획득된 일치된 서열을 서열 실험파일 형태로 저장한다. 이러한 서열 파일형태로 서열 데이터를 저장하면 사용자의 임의로 서열 정보 수정 및 서열 정보의 중복 등 서열 데이터에 대한 일관성 있고 무결성 있는 저장 관리가 어렵다 또한 이질적 데이터 및 포맷을 통한 다양한 생물학적 분석이 요구된다. 따라서 이 논문에서는 시퀸싱을 통해 생성된 유전체 및 단백질 서열 데이터의 자장관리를 위해 서열 정보의 편집, 저장 및 검색과 서열 파일 포멧 변환을 수행하는 서열 정보관리 시스템의 구현을 목적으로 한다. 서열 저장시 서열 버전의 생성 및 검출을 위해 능동 데이터베이스의 트리거를 이용하여 시스템의 성능을 향상시킨다. 또한 서열정보 분석을 위해 이질적인 서열 포맷간의 포맷 변환은 서열 및 관련된 정보를 XML로 표현하고 포맷간의 매핑정보를 XML의 스타일 언어인 XSL을 적용하여 수행한다. 그러므로 원시 소스 변경시 영향을 적게 받으므로 이질적인 포맷간의 파서를 이용한 포맷 변환 보다 효율적이다.

  • PDF

A Labor-Saving Bioinformatics Tool for Multiple Sequence Collection and Translation (분석 비용을 줄여주는 다중 서열 수집과 번역을 위한 생물정보학 도구)

  • Lee, Seung-Hui;Lee, Hye-Ri;Lee, Geon-Myeong;Lee, Chan-Hui
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.04a
    • /
    • pp.43-47
    • /
    • 2007
  • 많은 생물학적 데이터베이스와 도구들이 네트워크 상에서 이용 가능하다. 데이터베이스와 도구를 효과적으로 활용하면, 비용을 줄이면서 우수한 품질의 분석결과를 얻을 수 있다. 이 논문에서는 서열분석시 관련된 서열을 자동으로 수집하여, 아미노산 서열로 변환하는 도구에서 대해서 소개한다. 개발된 도구는 필요한 서열을 주어진 질의를 기반으로 하나의 DNA 서열 정보와 관련된 서열을 검색하도록 하고, 분석자가 관심 있는 항목을 쉽게 선택하게 하여, 이것을 아미노산 서열로 번역하고, 찾은 ORF를 기반으로 유사한 것을 추천하고, 번역된 ORF 서열과 어울리는 관련된 모든 정보를 검색하는 분석 과정을 자동화한 것이다.

  • PDF

A DNA Sequence Search Algorithm Using Integer Type Transformation (정수형 변환을 이용한 DNA 서열 검색 알고리즘)

  • Yoon, Kyong-Oh;Cho, Sung-Bae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.357-359
    • /
    • 2012
  • 초 고성능 바이오 서열 분석 장비 기술의 발달로 대량의 바이오 정보가 쏟아져 나오고 있으며, 바이오산업의 발달로 개인별 유전체 정보에 의한 맞춤의학의 시대가 도래되고 있다. 수많은 서열에 대한 분석에는 많은 저장장치 및 주기억장치가 필요하므로 슈퍼컴퓨터 급의 서버와 대량의 데이터를 빠르게 처리할 수 있는 프로그램이 필요하다. 이러한 분석에는 염기서열 일치 검색과 이를 기반으로 하는 Alignment와 Assembly 분석이 있으며, 이를 수행하는 기존의 알고리즘 및 대부분의 프로그램들은 염기서열을 문자열로 취급하고, 해쉬 인덱스 테이블, Brujin 그래프의 사용, 버러우즈 휠러 변환(BWT) 등의 기법을 활용하여 효율적인 분석을 도모하였다. 본 논문에서는 염기서열을 문자열이 아닌 k-mer 묶음의 정수형 하나로 변환하여 검색함으로써 저장 공간의 크기를 약 28% 이상으로 줄이고 형 변환 상태에서의 검색을 수행할 수 있는 알고리즘을 제안한다. Assembly 분석 프로그램인 CalcGen 프로그램을 개발하여 본 알고리즘의 효용성 및 효율성을 실험을 통해 검증하였다. 이 연구의 결과는 향후 대량의 유전체 염기서열의 효율적 분석과 저장 및 처리에 또 하나의 새로운 접근 방법을 제안하는데에 그 의미를 둘 수 있다.

Anlaysis of Eukaryotic Sequence Pattern using GenScan (GenScan을 이용한 진핵생물의 서열 패턴 분석)

  • Jung, Yong-Gyu;Lim, I-Suel;Cha, Byung-Heun
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.11 no.4
    • /
    • pp.113-118
    • /
    • 2011
  • Sequence homology analysis in the substances in the phenomenon of life is to create database by sorting and indexing and to demonstrate the usefulness of informatics. In this paper, Markov models are used in GenScan program to convert the pattern of complex eukaryotic protein sequences. It becomes impossible to navigate the minimum distance, complexity increases exponentially as the exact calculation. It is used scorecard in amino acid substitutions between similar amino acid substitutions to have a differential effect score, and is applied the Markov models sophisticated concealment of the transition probability model. As providing superior method to translate sequences homologous sequences in analysis using blast p, Markov models. is secreted protein structure of sequence translations.

Implementation of an Information Management System for Nucleotide Sequences based on BSML using Active Trigger Rules (BSML 기반 능동 트리거 규칙을 이용한 염기서열정보관리시스템의 구현)

  • Park Sung Hee;Jung Kwang Su;Ryu Keun Ho
    • Journal of KIISE:Databases
    • /
    • v.32 no.1
    • /
    • pp.24-42
    • /
    • 2005
  • Characteristics of biological data including genome sequences are heterogeneous and various. Although the need of management systems for genome sequencing which should reflect biological characteristics has been raised, most current biological databases provide restricted function as repositories for biological data. Therefore, this paper describes a management system of nucleotide sequences at the level of biological laboratories. It includes format transformation, editing, storing and retrieval for collected nucleotide sequences from public databases, and handles sequence produced by experiments. It uses BSML based on XML as a common format in order to extract data fields and transfer heterogeneous sequence formats. To manage sequences and their changes, version management system for originated DNA is required so as to detect transformed new sequencing appearance and trigger database update. Our experimental results show that applying active trigger rules to manage changes of sequences can automatically store changes of sequences into databases.

Building a Integrated Protein Data Management System Using the XPath Query Process (XPath 질의 처리를 적용한 단백질 데이터 통합 관리시스템 구축)

  • 차효성;정광수;정영진;류근호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.103-105
    • /
    • 2004
  • 최근 바이오 인포매틱스 분야의 발전에 따라 방대한 양의 유전체 데이터에 대한 연구가 진행되고 있으며, 이러한 데이터를 효율적으로 다루기 위해 다양한 형태의 파일과 데이터베이스들이 사용되고 있다. 하지만 표준화의 미비로 인하여 데이터의 관리 및 변환에 어려움이 많다. 따라서 이 논문에서는 시퀀싱을 통해 생성된 유전체 및 단백질 서열 데이터의 통합 저장 관리를 위해 서열 정보의 편집, 저장 및 검색과 서열 파일 포맷 변환을 수행하는 서열 정보관리 시스템의 구현을 목적으로 한다. 이러한 요구사항을 만족시키기 위해 바이오 인포메틱스 데이터를 다루기 위한 표준으로 BSML(Bioinformatic Sequence Markup Language)을 채택하고 이질적 플랫파일들은 DTD를 기반으로 BSML 스키마로 통합 및 저장한다. 그리고 객체 관계 데이터베이스 특성을 적용하여 XML 문서를 보다 쉽게 저장 관리하고 범위 또는 구조적 질의에 효율적인 XPath 질의 처리를 위한 시스템을 개발하였다.

  • PDF

An Effective Bioinformatics Tool for Multiple Sequence Acquisition and Translation (다중서열수집 및 변환을 위한 효과적인 바이오인포메틱스 도구)

  • Lee, Hye-Ri;Lee, Seung-Hee;Lee, Keon-Myung;Kim, Sung-Soo;Lee, Chan-Hee;Lee, Sung-Duk
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.1
    • /
    • pp.27-31
    • /
    • 2008
  • 많은 바이오인포매틱스 관련 데이터베이스와 도구가 네트워크를 통해서 제공되고 있고, 이들을 효과적으로 활용하면 생물학적 분석을 적은 비용으로 우수한 결과를 얻을 수 있다. 이 논문에서는 주어진 질의에 대해서 잠재적으로 관련된 DNA 서열 정보를 획득하고, 분석자가 관심 있는 항목을 선택하면, 선택된 항목에 대한 모든 DNA 서열 정보를 확보하고, 이들에 대해서 아미노산 서열로 자동변환하여 ORF라는 정보를 활용하여 가장 가능성이 큰 것을 추천하는 도구를 소개한다. 해당 도구에는 웹 로봇 기법과 ORF 검색등을 위한 생물학적 지식을 활용한다.

A Compressing Method for Genome Sequence Cluster Using Sequence Alignment (서열정렬을 이용한 유전체 서열클러스터의 압축 방법)

  • Yu, Nam-Hee;Jung, Kwang-Su;Ryu, Keun-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.194-197
    • /
    • 2008
  • 생물학자들은 기능이 밝혀진 단백질들로부터 치환된 몇몇의 잔기를 이용해 새로운 유용한 단백질들을 만든다. 만들어진 단백질은 높은 서열 유사성을 가지는데 우리는 이런 유사한 서열들로 구성되어 있는 클러스터를 서열 클러스터라고 정의한다. 이 논문에서는 서열정렬방법을 이용하여 서열들의 클러스터에 새로운 요약적 표현방법을 제안한다. 먼저 클러스터 안의 모든 서열들 각각의 거리에서 최소거리를 갖는 서열을 대표로 선택한다. 이 서열거리는 계산된 정렬스코어에 의해 얻을 수 있고 서열정렬의 결과에서 변환된 서열을 Edit-Script라고 불리는 보존정보에 저장한다. 대표로 선택된 서열과 각 클러스터의 Edit-Script가 데이터베이스에 저장되고 이 정보로 각 클러스터의 서열들이 보다 쉽게 만들어진다. 본 연구의 결과에서 Edit-Script의 정보를 이용하면 클러스터안의 서열들의 유사도이 55% 넘었을 때 사이즈가 감소된 것을 알 수 있다. 또한 데이터베이스에서 검색하려는 서열과 관련된 서열들을 검색할 때 데이터베이스 있는 대표서열들을 먼저 비교해 본 후 가장 거리가 가까운 대표서열을 선택하여 그 안의 클러스터 구성서열들과 검색하기 때문에 검색 시간을 단축시킬 수 있다.

  • PDF

A Robust DNA Watermarking in Lifting Based 1D DWT Domain (Lifting 기반 1D DWT 영역 상의 강인한 DNA 워터마킹)

  • Lee, Suk-Hwan;Kwon, Ki-Ryong;Kwon, Seong-Geun
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.49 no.10
    • /
    • pp.91-101
    • /
    • 2012
  • DNA watermarking have been interested for both the security of private genetic information or huge DNA storage information and the copyright protection of GMO. Multimedia watermarking has been mainly designed on the basis of frequency domain, such as DCT, DWT, FMT, and so on, for the robustness and invisibility. But a frequency domain watermarking for coding DNA sequence has a considerable constraint for embedding the watermark because transform and inverse transform must be performed without completely changing the amino acid sequence. This paper presents a coding sequence watermarking on lifting based DWT domain and brings up the availability of frequency domain watermarking for DNA sequence. From experimental results, we verified that the proposed scheme has the robustness to until a combination of 10% point mutations, 5% insertion and deletion mutations and also the amino preservation and the security.