• Title/Summary/Keyword: 서열 변환

Search Result 56, Processing Time 0.028 seconds

Characteristic Signature Extraction using the Base Distribution Substitution Comparison (염기분포와 대치 비교를 이용한 염기서열 집단의 고유 시그너쳐 추출)

  • Hwang, Gyeong-Sun;Lee, Hye-Ri;Lee, Geon-Myeong;Kim, Seong-Su;Lee, Chan-Hui;Lee, Seong-Deok;Yun, Hyeong-U
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.419-422
    • /
    • 2007
  • 유전자 변이가 쉽게 일어나는 바이러스 등은 변이 계통에 따라 집단을 형성하게 된다. 이러한 집단들에 대한 분석은 해당 바이러스 집단에 대한 추적, 백신 및 치료약 개발에서 필수적이다. 어떤 집단의 염기 서열의 특성을 효과적으로 표현하는 패턴을 시그너쳐라 하며, 이러한 시그너쳐는 특정 염기서열 집단의 고유한 특성을 나타내면서 다른 집단과 구별되는 정보를 포함하는 것이 바람직하다. 이 논문에서는 가능한 후보 시그너쳐들을 염기분포를 이용하여 생성해가면서, 시그너쳐 해당부위의 염기를 상대 서열집단의 공통 서열의 염기로 변환하여 집단간의 상대거리를 측정함으로써, 후보 시그너쳐에 의한 집단의 고유성질 표현능력과 집단간 차별화 능력을 고려하여 시그너쳐를 추출하는 방법을 제안한다.

  • PDF

Scaled Sub-image Retrieval Approach using Alignment of Sub-Sequence (부분 서열 정렬을 이용한 확대축소 부분 영상 검색 기법)

  • Kim, JunHo;Jang, WonAng;Yang, IkSuk;Lee, DoHoon
    • Annual Conference of KIPS
    • /
    • 2012.11a
    • /
    • pp.512-515
    • /
    • 2012
  • 부분 영상 검색은 질의 영상을 입력으로 사용해서 질의 영상을 부분 영상으로 포함하는 대상 영상을 찾아낸다. 본 논문에서는 부분 영상 검색에 생물정보학에서 사용하는 정렬(Alignment)을 이용한다. 생물정보학에서는 두 DNA 서열 간에 유사도를 비교하고 시각화하는 방법으로 점 행렬을 널리 사용한다. 두 영상을 정렬하기 위해서 먼저 질의 영상과 대상 영상을 일차원 명암도 영상 서열로 변환하고 정렬하여 부분 영상 후보 영역을 찾는다. 이전 연구[1]에서 정렬하는 방법은 두 서열의 길이의 곱만큼의 메모리 공간이 필요하므로 두 서열의 길이가 길어지면 필요한 메모리 공간이 선형적으로 증가했다. 본 논문에서는 영상 데이터의 특성을 이용해서 부분 서열 정렬로 필요한 메모리 공간을 줄였고 부가적인 효과로 처리시간이 감소하고 정확도가 상향되었다.

SeqWeB: Sequence Annotation System based on SOA (SeqWeB: SOA 기반의 서열 주해 시스템)

  • Nam, Seong-Hyeuk;Jung, Tae-Sung;Kim, Tae-Kyung;Yoo, Jae-Soo;Cho, Wan-Sup
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10b
    • /
    • pp.1-6
    • /
    • 2007
  • 서열을 분석하고, 기능을 예측하는 서열 주해는 생명 현상 규명을 위한 필수 과정이다. 서열 주해는 다수 응용 프로그램간 상호 연계를 통한 복잡한 처리 과정을 거쳐 이루어진다. 현재 사용자는 다양한 응용 프로그램들 중 적합한 응용 프로그램을 선택한 후, 운영환경에 맞도록 설치하고, 사용법을 익혀야 한다. 또한 각 프로그램들의 연계를 위해 입출력 데이터 형식을 변환해야 하는 불편함이 있다. 이를 위해 자동화된 솔루션들이 개발되고 있지만, 각 단계별 프로그램들이 강결합(tightly coupled)되어 있어 유연성(flexibility)이 떨어지고, 기능의 확장 및 변경에 어려움이 있다. 본 논문에서는 기존 시스템들의 한계를 극복하기 위하여 SOA (Service Oriented Architecture) 기반의 서열 주해 시스템인 SeqWeB을 제안한다. SeqWeB은 서열 주해에 필요한 7개의 응용 프로그램(Phred, cross_match, RepeatMasker, ICAtools, Phrap, CAP3, Blast)들을 웹 서비스 기술을 통해 단위 서비스로 개발하고, BPM 기법을 이용하여 통합하였다. SeqWeB은 각 응용 프로그램간 상호 운용성을 높이기 위하여 XML 형식의 입/출력 데이터를 사용하며, SOA 기반의 시스템 통합으로 각 응용 프로그램들을 약결합(loosely coupled)하여 시스템의 확장 및 변경이 용이하다. 또한 웹을 기반으로 하는 다양한 조합의 서열 주해 솔루션 제공이 가능한 특징이 있다.

  • PDF

GWB: An integrated software system for Managing and Analyzing Genomic Sequences (GWB: 유전자 서열 데이터의 관리와 분석을 위한 통합 소프트웨어 시스템)

  • Kim In-Cheol;Jin Hoon
    • Journal of Internet Computing and Services
    • /
    • v.5 no.5
    • /
    • pp.1-15
    • /
    • 2004
  • In this paper, we explain the design and implementation of GWB(Gene WorkBench), which is a web-based, integrated system for efficiently managing and analyzing genomic sequences, Most existing software systems handling genomic sequences rarely provide both managing facilities and analyzing facilities. The analysis programs also tend to be unit programs that include just single or some part of the required functions. Moreover, these programs are widely distributed over Internet and require different execution environments. As lots of manual and conversion works are required for using these programs together, many life science researchers suffer great inconveniences. in order to overcome the problems of existing systems and provide a more convenient one for helping genomic researches in effective ways, this paper integrates both managing facilities and analyzing facilities into a single system called GWB. Most important issues regarding the design of GWB are how to integrate many different analysis programs into a single software system, and how to provide data or databases of different formats required to run these programs. In order to address these issues, GWB integrates different analysis programs byusing common input/output interfaces called wrappers, suggests a common format of genomic sequence data, organizes local databases consisting of a relational database and an indexed sequential file, and provides facilities for converting data among several well-known different formats and exporting local databases into XML files.

  • PDF

Method of Image Similarity Analysis Using Sequence Alignment of Colors (색상 서열 비교를 통한 영상의 유사도 분석 기법)

  • Jung, In-Joon;Woo, Gyun
    • Annual Conference of KIPS
    • /
    • 2011.04a
    • /
    • pp.426-429
    • /
    • 2011
  • 영상처리를 이용한 영상간의 유사도 비교 기법은 영상의 검색 및 영상의 자동 인식 등을 위한 연구로 최근 각광받고 있다. 최근 영상 처리 기법은 화소의 질적 향상 및 처리시간 최적화, 효율적인 특정 요소의 추출 등 다양한 방법으로 시도되고 있다. 특히, 영상의 유사도 비교는 유사 영상 검색과 같은 경우에 많이 쓰인다. 영상의 유사도를 비교하기 위한 기법으로는 영상 데이터의 특징에 따라 대상 영역을 여러 영역으로 나누는 영역분할 기법과 군집화, 퍼지, 유전자 알고리즘 등이 있다. 본 논문에서는 영상을 HSV 색공간으로 변환한 후 색상 값에 대하여 전역 정렬 기법을 사용하는 유사도 측정 방법을 제시한다. 전역 정렬 기법은 유전자 서열 비교 기법 중 하나로서 두 유전체의 유사도를 측정하는데 사용된다. 유사도 측정 효율을 높이기 위해 색상 값을 8단계로 양자화하여 영상의 서열을 생성하였다. 실험결과 제시한 방법을 영상 회전이나 대칭, 글자 삽입 등의 간단한 연산에 크게 영향을 받지 않는 것으로 드러났다.

Biological sequence file format transfer based on xml technique (XML기반의 생물학적 서열 파일 포맷 변환 메카니즘)

  • 이영화;박성희;김진수;류근호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.157-159
    • /
    • 2002
  • 현재 생명 정보는 웹 상에서 다양한 포맷으로 배포되고 있다. 이러한 생명 정보 분석을 위한 데이터베이스나 시스템마다 이질적인 포맷을 지원하고 있기 때문에 각 시스템에서 이용되는 포맷들간의 변환이 필요하다. 이러한 생명 정보의 포맷 변환은 1대1의 파서를 구현하여 진행하고 있으며 1:1 파서의 구현에는 많은 시간과 비용이 소모된다. 따라서, 이 논문에서는 생명 정보를 XML로 표현하고 이질적인 포맷간의 매핑 정보를 데이터베이스에 저장한다. 이러한 매핑 정보를 XML의 스타일 시트로 나타내어 최종적으로 원하는 포맷으로 변환한다. 이렇게 포맷 변환에 XML기술을 이용함으로써 파서를 구현할 필요가 없이 매핑 정보를 스타일 시트로 기술하면 되기 때문에 구현이 용이하며, 원시 소스가 변경되었을 때 소스 전체를 수정할 필요가 없이 수정한 필드의 매핑 정보만 수정하고 그에 따라서 XSL을 수정하면 되기 때문에 원시 소스 변경의 영향을 많이 받지 않는다.

  • PDF

A Performance Comparison of Protein Profiles for the Prediction of Protein Secondary Structures (단백질 이차 구조 예측을 위한 단백질 프로파일의 성능 비교)

  • Chi, Sang-Mun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.22 no.1
    • /
    • pp.26-32
    • /
    • 2018
  • The protein secondary structures are important information for studying the evolution, structure and function of proteins. Recently, deep learning methods have been actively applied to predict the secondary structure of proteins using only protein sequence information. In these methods, widely used input features are protein profiles transformed from protein sequences. In this paper, to obtain an effective protein profiles, protein profiles were constructed using protein sequence search methods such as PSI-BLAST and HHblits. We adjust the similarity threshold for determining the homologous protein sequence used in constructing the protein profile and the number of iterations of the profile construction using the homologous sequence information. We used the protein profiles as inputs to convolutional neural networks and recurrent neural networks to predict the secondary structures. The protein profile that was created by adding evolutionary information only once was effective.

The Design and Implementation of Web-Based Integrated Genome Analysis Tools (웹 기반 통합 유전체 분석 시스템의 설계 및 구현)

  • 최범순;이경희;권해룡;조완섭;이충세;김영창
    • Journal of Korea Multimedia Society
    • /
    • v.7 no.3
    • /
    • pp.408-417
    • /
    • 2004
  • Genome analysis process requires several steps of various software analysis tools. We propose WGAT(Web-based Genome Analysis Tool), which combines several tools for gene analysis and provides a graphic user interface for users. Software tools related to gene analysis are based on Linux or Unix oriented program, which is difficult to install and use for biologists. Furthermore, files generated from gene analysis frequently require manual transformation for next step input file. Web-based tools which are recently developed process orily one sequence at a time. So it needs many repetitive processes to analyze large size data file. WGAT is developed to support Web-based genome analysis for easy use as well as fast service for users. Whole genome data analysis can be done by running WGAT on Linux server and giving sequence data files with various options. Therefore many steps of the analysis can be done automatically by the system. Simulation shows that WGAT method gives 20 times faster analysis when sequence segment is one thousand.

  • PDF

Cloning and Sequencing of Gene Fragment of Acid Proteinase from Penicillium oxalicum HCLF-34 (Penicillium oxalicum HCLF-34로부터 Acid Proteinase의 부분유전자 Cloning 및 Sequencing)

  • 현성희;천재순;강상순;김진규
    • Korean Journal of Microbiology
    • /
    • v.40 no.1
    • /
    • pp.12-16
    • /
    • 2004
  • Acid proteinase has been discovered in Aspergillus niger (acid protease A) and Cryphonectria parasitica (acid proteinase EapC) and it plays major roles in cheese formation from milk. In this study, a partial gene encoding acid proteinase in Penicillium oxalicum HCLF-34 was cloned by using PCR with degenerate primers corresponding to highly conserved regions of the acid proteinase. The partial acid proteinase gene in P. oxalicum HCLF-34 contains an open reading frame of 438 base pairs and encodes an acid proteinase protein of 146 amino aicds. The predicted amino acid sequences showed 71 % homology with acid protease A and 67% homology with EapC.

Consecutive Difference Expansion Based Reversible DNA Watermarking (연속적 차분 확장 기반 가역 DNA 워터마킹)

  • Lee, Suk-Hwan;Kwon, Ki-Ryong
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.52 no.7
    • /
    • pp.51-62
    • /
    • 2015
  • Of recent interests on high capacity DNA storage, DNA watermarking for DNA copyright protection, and DNA steganography for DNA secret communication are augmented, the reversible DNA watermarking is much needed both to embed the watermark without changing the functionality of organism and to perfectly recover the host DNA sequence. In this paper, we address two ways of DE based reversible DNA watermarking using noncoding DNA sequence. The reversible DNA watermarking should consider the string structure of a DNA sequence, the organism functionality, the perfect recovery, and the high embedding capacity. We convert the string sequence of four characters in noncoding region to the decimal coded values and embed the watermark bit into coded values by two ways; DE based multiple bits embedding (DE-MBE) using pairs of neighbor coded values and consecutive DE-MBE (C-DE-MBE). Two ways process the comparison searching to prevent the false start codon that produces false coding region. Experimental results verified that our ways have more high embedding capacity than conventional methods and produce no false start codon and recover perfectly the host sequence without the reference sequence. Especially C-DE-MBE can embed more high two times than DE-MBE.