• Title/Summary/Keyword: 서열환경

Search Result 446, Processing Time 0.023 seconds

Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences (생물학적 데이터 서열들에서 빈번한 최대길이 연속 서열 마이닝)

  • Kang, Tae-Ho;Yoo, Jae-Soo
    • The KIPS Transactions:PartD
    • /
    • v.15D no.2
    • /
    • pp.155-162
    • /
    • 2008
  • Biological sequences such as DNA sequences and amino acid sequences typically contain a large number of items. They have contiguous sequences that ordinarily consist of hundreds of frequent items. In biological sequences analysis(BSA), a frequent contiguous sequence search is one of the most important operations. Many studies have been done for mining sequential patterns efficiently. Most of the existing methods for mining sequential patterns are based on the Apriori algorithm. In particular, the prefixSpan algorithm is one of the most efficient sequential pattern mining schemes based on the Apriori algorithm. However, since the algorithm expands the sequential patterns from frequent patterns with length-1, it is not suitable for biological dataset with long frequent contiguous sequences. In recent years, the MacosVSpan algorithm was proposed based on the idea of the prefixSpan algorithm to significantly reduce its recursive process. However, the algorithm is still inefficient for mining frequent contiguous sequences from long biological data sequences. In this paper, we propose an efficient method to mine maximal frequent contiguous sequences in large biological data sequences by constructing the spanning tree with the fixed length. To verify the superiority of the proposed method, we perform experiments in various environments. As the result, the experiments show that the proposed method is much more efficient than MacosVSpan in terms of retrieval performance.

Development of Primer and Probe Design System for Microbial Identification (미생물 동정을 위한 프로브와 프라이머 고안 시스템의 개발)

  • Park, Jun-Hyung;Kang, Byeong-Chul;Park, Hee-Kyung;Jang, Hyun-Jung;Song, Eun-Sil;Lee, Seung-Won;Kim, Hyun-Jin;Kim, Cheol-Min
    • Proceedings of the Korean Society for Bioinformatics Conference
    • /
    • 2004.11a
    • /
    • pp.21-28
    • /
    • 2004
  • 모든 생명체의 genetic information에는 보존적 염기서열과 다형적 염기서열이 존재한다. 다형적 염기서열과 보존적 염기서열은 하나의 종(species)을 감별하거나, 여러 종류의 종을 동시에 감별할 수 있는 genotyping의 표지자로 각각 이용될 수 있다. 본 논문은 병원성 감염질환 세균, 식중독 유발 세균, 생물의약품 오염 유발 세균 및 환경오염 세균 등 세균의 존재 유무와 속과 종 감별을 위해 대부분 세균 종의 보존적 염기서열과 다형적인 염기서열을 포함하고 있는 23S rDNA 유전자의 표적 염기 서열로부터 고안된 세균 특이적(bacterial-specific), 속 특이적(genus-specific), 종 특이적(species-specific) 올리고 뉴클레오티드프로브와 프라이머를 디자인하는 시스템을 소개한다. 시스템을 통해서 얻어진 프로브와 프라이머들은 PCR을 통한 검증단계를 거쳐서 디자인 결과의 정확성을 확인하였다. 본 시스템의 이용으로 프로브와 프라이머를 디자인하는데 몇 주가 소요되는 시간을 몇 일 내로 줄일 수 있었으며, 체계적인 데이터의 관리로 결과의 정확성을 높일 수 있었다.

  • PDF

SeqWeB: Sequence Annotation System based on SOA (SeqWeB: SOA 기반의 서열 주해 시스템)

  • Nam, Seong-Hyeuk;Jung, Tae-Sung;Kim, Tae-Kyung;Yoo, Jae-Soo;Cho, Wan-Sup
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10b
    • /
    • pp.1-6
    • /
    • 2007
  • 서열을 분석하고, 기능을 예측하는 서열 주해는 생명 현상 규명을 위한 필수 과정이다. 서열 주해는 다수 응용 프로그램간 상호 연계를 통한 복잡한 처리 과정을 거쳐 이루어진다. 현재 사용자는 다양한 응용 프로그램들 중 적합한 응용 프로그램을 선택한 후, 운영환경에 맞도록 설치하고, 사용법을 익혀야 한다. 또한 각 프로그램들의 연계를 위해 입출력 데이터 형식을 변환해야 하는 불편함이 있다. 이를 위해 자동화된 솔루션들이 개발되고 있지만, 각 단계별 프로그램들이 강결합(tightly coupled)되어 있어 유연성(flexibility)이 떨어지고, 기능의 확장 및 변경에 어려움이 있다. 본 논문에서는 기존 시스템들의 한계를 극복하기 위하여 SOA (Service Oriented Architecture) 기반의 서열 주해 시스템인 SeqWeB을 제안한다. SeqWeB은 서열 주해에 필요한 7개의 응용 프로그램(Phred, cross_match, RepeatMasker, ICAtools, Phrap, CAP3, Blast)들을 웹 서비스 기술을 통해 단위 서비스로 개발하고, BPM 기법을 이용하여 통합하였다. SeqWeB은 각 응용 프로그램간 상호 운용성을 높이기 위하여 XML 형식의 입/출력 데이터를 사용하며, SOA 기반의 시스템 통합으로 각 응용 프로그램들을 약결합(loosely coupled)하여 시스템의 확장 및 변경이 용이하다. 또한 웹을 기반으로 하는 다양한 조합의 서열 주해 솔루션 제공이 가능한 특징이 있다.

  • PDF

Species Diversity of Forest Vegetation in Mt.Jangan, Chollabuk-do (전라북도 장안산 삼림식생의 종다양성)

  • Kim, Chang-Hwan;Myung, Hyun;Shin, Byung-Chuel
    • Korean Journal of Environment and Ecology
    • /
    • v.13 no.3
    • /
    • pp.271-279
    • /
    • 1999
  • 전라북도 장안산의 72군락 지점에서 식물사회학적 조사에 의하여 구분된 10개 군락. 즉 신갈나무 군락, 신갈나무-철쭉꽃 군락, 신갈나무-노린재나무 군락, 신갈나무-졸참나무 군락, 졸참나무 군락, 굴참나무 군락, 서어나무 군락, 물푸레나무 군락, 층층나무 군락, 들메나무 군락에서 풍부도지수, 이질성지수, 균등도지수, 우점도지수를 산출하여 고도, 토양 특성 및 우점종군에 따른 종다양성의 변활르 분석하였으며 종서열-중요치 곡선을 이용하여 각 식물의 우점서열을 결정하고 각 종이 식물군락 내의 자원을 어떻게 분배하고 있는가를 결정하였다 고도, 토양요인(pH, base) 및 우점종의 차이는 삼림의 종 다양성에 영향을 미치는 중요한 변수로서 작용하였으며 우점종군에 따른 다양성의 변화는 지형과 교란에 의하여 영향을 받았다 종서열-중요치 곡선에서 조사된 10개 군락은 대수정규분포에 접근하고 있어서 군락간 약간의 차이는 있지만 대체적으로 어떤 특정 종이 군집 내 자원 공간을 독점하지 않고 적절히 분배하여 사용하고 있었다.

  • PDF

Unification System for Analysis of DNA Sequence (DNA 서열 분석을 위한 통합 시스템)

  • Song, Young-Ohk;Chang, Duk-Jin
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.3
    • /
    • pp.65-72
    • /
    • 2011
  • We stand at real world that some practical use method of gene information appears in succession by entrance on the stage of advanced techonlogy. As a lot of studies and development are achieved based on analysis of bio data, necessity of a tool that can help correct interpretation of data is required more and more in a lot of targets of bioinformatics to search new relation and information are established. In this paper, we are offered in existing I wish to offer user a more convenient study tool developing system that can supplement shortcomings of various tools for data analysis. So we've designed to offer in united environment that is not environment that is parted ORF driving out, bio information retrieval and work of similarity comparison lamp to work for bio data analysis and offers lacking consecutiveness in existing analysis system.

A Study on Implementation of DNA Sequence Analysis Tool in Web2.0 (웹2.0 기반 DNA서열 분석도구 구현에 대한 연구)

  • Kim, Myung-Gwan;Jo, Chung-Hyo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10b
    • /
    • pp.11-16
    • /
    • 2007
  • 최근 컴퓨터를 이용한 유전자 해석 기술이 급속히 발전함에 따라 DNA서열분석도구의 필요성도 늘어나고 있다. 그러나 DNA서열분석에 필요한 데이터베이스는 다양한 형태의 포맷이 제공되어 지고 있고, 유전자 서열 데이터의 처리를 위한 애플리케이션에서도 서로 다른 양식의 포맷이 사용되고 있다. 이로 인해 다른 형태의 포맷이 필요한 경우 별도의 파서를 구현 하는 문제가 발생한다. 이러한 단점을 보안하는 하나의 방법으로 GenBank에서 제공되는 XML파일을 이용한 웹2.0 환경인 RIA(Rich Internet Application)개발방식을 제안한다. RIA개발방식은 XML파서와 XML을 처리할 수 있는 E4X(ECMAScript for XML)와 같은 API를 제공 하여 XML로 리턴 되는 데이터를 쉽게 처리하여 화면으로 보여준다.

  • PDF

Study on MPI-based parallel sequence similarity search in the LINUX cluster (클러스터 환경에서의 MPI 기반 병렬 서열 유사성 검색에 관한 연구)

  • Hong, Chang-Bum;Cha, Jeoung-Ho;Lee, Sung-Hoon;Shin, Seung-Woo;Park, Keun-Joon;Park, Keun-Young
    • Journal of the Korea Society of Computer and Information
    • /
    • v.11 no.6 s.44
    • /
    • pp.69-78
    • /
    • 2006
  • In the field of the bioinformatics, it plays an important role in predicting functional information or structure information to search similar sequence in biological DB. Biolrgical sequences have been increased dramatically since Human Genome Project. At this point, because the searching speed for the similar sequence is highly regarded as the important factor for predicting function or structure, the SMP(Sysmmetric Multi-Processors) computer or cluster is being used in order to improve the performance of searching time. As the method to improve the searching time of BLAST(Basic Local Alighment Search Tool) being used for the similarity sequence search, We suggest the nBLAST algorithm performing on the cluster environment in this paper. As the nBLAST uses the MPI(Message Passing Interface), the parallel library without modifying the existing BLAST source code, to distribute the query to each node and make it performed in parallel, it is possible to easily make BLAST parallel without complicated procedures such as the configuration. In addition, with the experiment performing the nBLAST in the 28 nodes of LINUX cluster, the enhanced performance according to the increase in the number of the nodes has been confirmed.

  • PDF

The Complete Chloroplast DNA Sequences of Viola selkirkii (뫼제비꽃(Viola selkirkii)의 엽록체 DNA 염기서열 분석)

  • Ah-Reum Go;Yun-Sun Lee;Kyung-Ah Kim;Kyeong-Sik Cheon;Ki-Oug Yoo
    • Proceedings of the Plant Resources Society of Korea Conference
    • /
    • 2020.12a
    • /
    • pp.55-55
    • /
    • 2020
  • 뫼제비꽃(Viola selkirkii)의 엽록체 DNA 염기서열을 차세대염기서열분석법(NGS)을 이용하여 분석하였다. 재료는 강원도 화천군 일산과 제주도 한라산의 2개체를 사용하였다. 분석결과, 염기서열의 길이는 일산의 뫼제비꽃이 156,774 bp (GC content: 36.30%), 한라산의 뫼제비꽃이 157,451 bp(GC content: 36.30%)로 한라산 개체가 길게 분석되었다. 구간별로 LSC(Large single copy)지역은 한라산 개체(85,950 bp)가 일산 개체(85,930 bp)보다 20 bp 길었으며, SSC(Small single copy)지역은 한라산 개체(17,261 bp)보다 일산 개체가 17,982 bp로 길게 분석되었다. IR(Inverted repeat)지역은 한라산 개체가 27,120 bp로 일산 개체(26,431 bp)보다 길게 분석되었다. 이러한 염기서열 길이의 차이는 종내 개체 간 빈번하게 발생하는 현상으로 IGS와 intron 구간에서 확인 된 단순반복서열의 일부 누락과 IR지역 내의 수축과 확장에 의한 것으로 판단된다. 뫼제비꽃 2개체의 엽록체 게놈을 구성하는 유전자 수는 총 111개로 동일하였으며, protein coding gene 77개, tRNA(transfer RNA) gene 30개, 그리고 rRNA (ribosomal RNA) gene 4개로 구성되어 있었다. 이는 기 발표된 엽록체 DNA 전체 염기서열이 밝혀진 제비꽃속 (Viola) 종류들과 동일한 결과이다.

  • PDF

Performance Improvement of BLAST using Grid Computing and Implementation of Genome Sequence Analysis System (그리드 컴퓨팅을 이용한 BLAST 성능개선 및 유전체 서열분석 시스템 구현)

  • Kim, Dong-Wook;Choi, Han-Suk
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.7
    • /
    • pp.81-87
    • /
    • 2010
  • This paper proposes a G-BLAST(BLAST using Grid Computing) system, an integrated software package for BLAST searches operated in heterogeneous distributed environment. G-BLAST employed 'database splicing' method to improve the performance of BLAST searches using exists computing resources. G-BLAST is a basic local alignment search tool of DNA Sequence using grid computing in heterogeneous distributed environment. The G-BLAST improved the existing BLAST search performance in gene sequence analysis. Also G-BLAST implemented the pipeline and data management method for users to easily manage and analyze the BLAST search results. The proposed G-BLAST system has been confirmed the speed and efficiency of BLAST search performance in heterogeneous distributed computing.