• Title/Summary/Keyword: 서열 정렬

Search Result 105, Processing Time 0.022 seconds

A Multiple Sequence Alignment Algorithm using Clustering Divergence (콜러스터링 분기를 이용한 다중 서열 정렬 알고리즘)

  • Lee Byung-ll;Lee Jong-Yun;Jung Soon-Key
    • Journal of the Korea Society of Computer and Information
    • /
    • v.10 no.5 s.37
    • /
    • pp.1-10
    • /
    • 2005
  • Multiple sequence alignment(MSA) is a fundamental technique of DNA and Protein sequence analysis. Biological sequences are aligned vertically in order to show the similarities and differences among them. In this Paper, we Propose an effcient group alignment method, which is based on clustering divergency, to Perform the alignment between two groups of sequences. The Proposed algorithm is a clustering divergence(CDMS)-based multiple sequence alignment and a top-down approach. The algorithm builds the tree topology for merging. It is so based on the concept that two sequences having the longest distance should be spilt into two clusters. We expect that our sequence alignment algorithm improves its qualify and speeds up better than traditional algorithm Clustal-W.

  • PDF

DNA Sequence Alignment Using a Graph-based Distributed System (그래프 기반 분산 시스템을 이용한 염기 서열 정렬)

  • Lee, Jun-Su;Ahn, Jae-Gyoon;Yeu, Yun-Ku;Roh, Hong-Chan;Park, Sang-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.894-897
    • /
    • 2013
  • 서열 정렬(sequence alignment)은 유전학(genomic)에서 널리 사용되는 도구 중 하나이다. 최근에는 차세대 시퀀싱 기술(NGS)이 발달함에 따라 데이터의 생산량이 크게 증가했고, 이에 따라 높은 처리량(throughput)을 가진 서열 정렬 알고리즘의 필요성이 증가하였다. 본 논문에서 제안하는 염기 서열 정렬 알고리즘은 시퀀스(sequence)데이터를 그래프 형태로 변형시킨 다음, 마이크로소프트사의 그래프 기반인 메모리(in-memory) 분산시스템(distributed system) 트리니티(Trinity)를 이용해 서열 정렬을 수행한다. 본 논문의 알고리즘은 트리니티 시스템에서 시뮬레이션 염기 데이터를 성공적으로 정렬하였으며, 슬레이브의 개수가 늘어날수록 빠른 속도를 나타내어 확장성(scalability)을 입증했다.

An Algorithm for multiple local alignment (다중 지역 정렬을 위한 알고리즘)

  • Jang, Suk-Bong;Lee, Gye-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.2337-2340
    • /
    • 2002
  • 본 연구는 생물정보학(Bioinformatics)의 가장 기초적인 분야중 하나인, 새롭게 밝혀진 유전자 서열과 이미 밝혀진 유전자 서열 사이의 유사성(similarity)이나 상동성(homology)을 찾기 위한 방법에 대한 연구 중 지역 서열정렬로 사용하는 알고리즘인 Smith-Waterman 알고리즘이 갖고 있는 문제를 파악한다. 긴 서열에 대한 선호를 막고 대신 부분적인 지역 정렬을 다수 개 찾아 정렬시키는 알고리즘을 제안하기로 한다.

  • PDF

Differences between Species Based on Multiple Sequence Alignment Analysis (다중서열정렬에 기반한 종의 차이)

  • Hyeok-Zu Kwon;Sang-Jin Kim;Geun-Mu Kim
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.19 no.2
    • /
    • pp.467-472
    • /
    • 2024
  • Multiple sequence alignment (MSA) is a method of collecting and aligning multiple protein sequences or nucleic acid sequences that perform the same function in various organisms at once. clustalW, a representative multiple sequence alignment algorithm using BioPython, compares the degree of alignment by column position. In addition, a web logo and phylogenetic tree are created to visualize conserved sequences in order to improve understanding. An example was given to confirm the differences between humans and other species, and applications of BioPython are presented.

A study of system development for multiple sequence alignment (복수 서열 정렬을 위한 시스템 개발에 관한 연구)

  • Kim, Dong-Hoi;Kim, Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05b
    • /
    • pp.1027-1030
    • /
    • 2003
  • 유전체 서열결정이 폭발적으로 증가해 가고 있다. 인간 유전체사업(Human genome project)의 궁극적인 목적은 인간 염색체에 있는 30억개의 뉴클레오티드와 10만개의 유전자를 밝혀내는 것이고 생의학에서 새로운 발견이나 옹용을 위한 정보로 이용하는 것이다. 이 사업은 1980년대 후반에 시작되었고 현재 서열의 결정이 완료된 상태이다. 본 논문에서는 인간 유전체 사업에서 파생된 가장 중요한 문제 중의 하나인 복수 염기서열 정렬 문제와 복수 염기서열 정렬 시스템의 구현에 대하여 논한다.

  • PDF

A Web-Based High Performance Multiple Sequence Alignment System Design and Implementation (웹 기반 고성능 다중서열정렬시스템 설계 및 구현)

  • Kim, Tae-Kyung;Kim, Hun-Gi;Choi, Chi-Hwan;Jung, Seung-Hyun;Hou, Bo-Kyeng;Cho, Wan-Sup
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2010.07a
    • /
    • pp.79-82
    • /
    • 2010
  • 다중서열정렬 알고리즘은 생명정보학 분야에서 서열기반의 계통분류 분석에 가장 많이 사용되며, 가장 대표적인 공개 프로그램은 ClustalW로 사용자가 로컬시스템에 설치하여 이용할 수 있다. 그러나 실제로 사용자들이 ClustalW을 설치한 후, 서열데이터의 준비, 가공, 처리 및 타 시스템과 연동 등과 같은 작업을 하는데 여러 가지 어려움이 있다. 따라서 본 논문에서는 다중서열정렬 작업을 편리하고 빠르게 수행할 수 있는 웹기반의 고성능 다중서열정렬시스템을 제안한다. 제안된 시스템의 특징은, (1) Inter-Query 라우팅 알고리즘을 통해 다수의 PC 자원을 효율적으로 활용하여 계산 성능을 극대화하였으며, (2) 사용자 편의성을 고려한 웹인터페이스의 제공을 통해 개인화된 데이터관리, 실시간 모니터링, 데이터 편집 등을 지원하여 사용자가 손쉽게 서열데이터의 수집, 관리 및 처리할 수 있도록 지원한다.

  • PDF

An efficient optimization method for multiple sequence alignment (효율적인 복수서열정렬 최적화기법)

  • Kim, Jin;Jung, Woo-Cheol;Uhmn, Saang-Yong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.368-370
    • /
    • 2003
  • 단백질들의 복수서열정렬은 단백질 서열간의 관계를 유추할 수 있는 유용한 도구이다. 최적화된 복수서열정렬을 얻기 위해 사용되는 가장 유용한 방법은 dynamic programming이다. 그러나 dynamic programming은 특정한 비용함수를 사용할 수 없기 때운에 특별한 경우 최적의 복수서열정렬을 제공하지 못하는 문제점이 있다. 우리는 이러한 문제점을 해결하기 위하여 부분정렬개선기법을 사용한 알고리즘을 제안하였으며, 이 알고리즘이 dynamic programming의 문제점을 효과적으로 해결함을 보였다.

  • PDF

Improvement of Performance of Malware Similarity Analysis by the Sequence Alignment Technique (서열 정렬 기법을 이용한 악성코드 유사도 분석의 성능 개선)

  • Cho, In Kyeom;Im, Eul Gyu
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.3
    • /
    • pp.263-268
    • /
    • 2015
  • Malware variations could be defined as malicious executable files that have similar functions but different structures. In order to classify the variations, this paper analyzed sequence alignment, the method used in Bioinformatics. This method found common parts of the Malwares' API call information. This method's performance is dependent on the API call information's length; if the length is too long, the performance should be very poor. Therefore we removed the repeated patterns in API call information in order to improve the performance of sequence alignment analysis, before the method was applied. Finally the similarity between malware was analyzed using sequence alignment. The experimental results with the real malware samples were presented.

On heuristics for multiple sequence alignment (복수 염기서열 정렬을 위한 휴리스틱에 관하여)

  • Kim, Jin;Chang, Yeon-Ah;Choi, Hong-Sik
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.661-663
    • /
    • 1999
  • 복수 염기서열 정렬(multiple sequence alignment)은 염기서열들 사이의 진화관계, 단백질의 구조와 기능에 관한 연구에 필수적인 도구이다. 다이나믹 프로그래밍(dynamic programming) 방법은 대부분의 경우에 있어 최적의 염기서열 정렬 결과를 제공할 수 있다. 그러나 그것이 사용하는 갭 비용함수 때문에 특별한 경우에 최적의 염기서열 정렬을 만들어 내지 못한다. 본 논문에서는 다이나믹 프로그래밍에 의해 획득된 염기서열을 개선하기 위한 휴리스틱 방법을 제안한 후, 실제 단백질 데이터를 가지고 성능 분석을 한다.

  • PDF

Extracting Information on Structural Classification through Protein Sequence Alignment (단백질 서열 정렬을 통한 구조 분류정보 추출)

  • 변상희;김진홍;안건태;이명준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.884-886
    • /
    • 2003
  • 인간 지놈 프로젝트가 완료된 이후로 여러 지놈 프로젝트가 수행되었으며 이로 인해 데이터베이스에 수록되는 서열수가 기하급수적으로 증가하고 있다. 최근에는 단순한 서열 분석뿐만 아니라 이미 밟혀진 단백질 정보를 이용하여 새로운 단백질의 기능을 예측하는 연구가 보다 활발히 진행되고 있다. 단백질 기능은 단백질의 삼차구조에 의해 결정된다. 따라서 단백질의 서열을 분석하여 삼차구조를 알아내고 어떤 분류에 속하는지 알아낸다면 단백질의 기능을 예측할 수 있다. 본 논문에서는 단백질 서열 정렬을 통하여 보다 빠르고 효과적으로 단백질 구조 정보를 추출하는 기법에 대하여 기술한다. 개발된 단백질 구조 추출 기법은 Pfam 데이터베이스에서 제공하는 단백질 서열의 샘플링 결과를 기반으로 서열 정렬을 수행퇴고, 선정뭔 서열을 대상으로 SCOP 데이터베이스에서 단백질 구조 분류정보(family 및 fold)를 추출함으로써 구조 분류정보 추출 과정의 성능을 향상시키고자 한다.

  • PDF