• 제목/요약/키워드: sequence database

검색결과 566건 처리시간 0.022초

효율적인 닫힌 빈발 시퀀스 마이닝 (An Efficient Mining for Closed Frequent Sequences)

  • 김형근;황환규
    • 산업기술연구
    • /
    • 제25권A호
    • /
    • pp.163-173
    • /
    • 2005
  • Recent sequential pattern mining algorithms mine all of the frequent sequences satisfying a minimum support threshold in a large database. However, when a frequent sequence becomes very long, such mining will generate an explosive number of frequent sequence, which is prohibitively expensive in time. In this paper, we proposed a novel sequential pattern algorithm using only closed frequent sequences which are small subset of very large frequent sequences. Our algorithm extends the sequence by depth-first search strategy with effective pruning. Using bitmap representation of underlying databases, we can obtain a closed frequent sequence considerably faster than the currently reported methods.

  • PDF

AN IMPROVED ALGORITHM FOR RNA SECONDARY STRUCTURE PREDICTION

  • Namsrai Oyun-Erdene;Jung Kwang Su;Kim Sunshin;Ryu Keun Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2005년도 Proceedings of ISRS 2005
    • /
    • pp.280-282
    • /
    • 2005
  • A ribonucleic acid (RNA) is one of the two types of nucleic acids found in living organisms. An RNA molecule represents a long chain of monomers called nucleotides. The sequence of nucleotides of an RNA molecule constitutes its primary structure, and the pattern of pairing between nucleotides determines the secondary structure of an RNA. Non-coding RNA genes produce transcripts that exert their function without ever producing proteins. Predicting the secondary structure of non-coding RNAs is very important for understanding their functions. We focus on Nussinov's algorithm as useful techniques for predicting RNA secondary structures. We introduce a new traceback matrix and scoring table to improve above algorithm. And the improved algorithm provides better levels of performance than the originals.

  • PDF

XML을 이용한 웹기반 정보 관리 통합설계 방법론 (A Web-based Unified Design Methodology using XML Applications)

  • 김경수;신현철;장희선
    • 한국컴퓨터정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.157-162
    • /
    • 2002
  • 본 연구는 UML을 이용해 유스케이스에 의한 순차 다이어그램을 도출하여 클래스 다이어그램을 만든후 그 클래스 다이어그램에 의해서 XML 모델링과 데이터 모델링을 구현하고자 한다. XML 모델링을 위해 UML 클래스를 XML 문서로 변환시키는 가이드라인을 제시하고, 제시한 방법에 파라 UML 클래스를 XML DTD로 도출하는 예를 보일 것이며, 한편 데이터 모델링은 UML클래스를 관계형 데이터베이스 스키마와 객체-관계 데이터베이스 스키마 그리고 객체지향 데이터베이스 스키마로 변환시키기 위한 통합 설계 변환 방법을 제시하며, 제시한 변환 방법에 따라 각각의 데이터베이스 스키마를 구현했다.

  • PDF

Improved spectral line measurements of the SDSS galaxy spectra

  • Oh, Kyu-Seok;Sarzi, Marc;Yi, Suk-Young
    • 한국우주과학회:학술대회논문집(한국우주과학회보)
    • /
    • 한국우주과학회 2009년도 한국우주과학회보 제18권2호
    • /
    • pp.35.1-35.1
    • /
    • 2009
  • We have established a database of galaxy spectral line strengths for the SDSS database using an improved line measuring method. Our work includes the entire SDSS DR7 galaxies within redshift of 0.2. The absorption line strengths measured by the SDSS pipeline are seriously contaminated by emission filling. Our code, GANDALF (gas and absorption line fitting code) performs more accurate measurements by effectively separating emission lines from absorption lines. A significant improvement has also been made on the velocity dispersion measurement, more notably in late-type galaxies. We have also identified a number of broad line region galaxies which were misclassified as normal galaxies by the SDSS pipeline. We developed an effective method measuring their line strengths. The database will be provided with new parameters that are indicative of the line strength measurement quality. In addition, we made galaxy templates for the Hubble sequence. The database will be useful for many fields of galaxy studies including star formation and AGN activities.

  • PDF

전산 클로닝을 위한 Clustered EST 데이터베이스 구축 (Buliding Clustered EST database for In Silico Cloning)

  • 이진관;최은선;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.105-108
    • /
    • 2001
  • cDNA(complementary DNA)를 복제(cloneing)하여 염기 서열화 한 EST(Expressed Sequence Tag) 데이터는 여러 생물체들의 염기서열 정보들과 비교를 통해 유사점을 찾거나 기능적 부위 검색을 통해 유전자 기능을 추정한 수 있어 기능 유전체 연구에 많이 사용되고 있다. EST 데이터를 식물은 특정종(Species)별로, 동물의 경우 종의 조직별로 클러스터링 함으로써 아직 알려지지 않은 종의 유전자를 밝혀낼 수 있음은 물론 유전자의 발현에 따른 단백질의 기능도 알아낼 수 있다. 따라서 이 논문에서는 NCBI에서 flatfile 형태로 제공하는 EST 데이터를 분석하여 관계형 데이터베이스로 모델링하고 구축하였다. 또한 EST 데이터의 효율적인 사용을 위하여 데이터를 특정 종의 조직별로 클러스터링하여 제공하는 시스템을 설계하고 구현하였다.

  • PDF

Identification of Novel Cupredoxin Homologs Using Overlapped Conserved Residues Based Approach

  • Goyal, Amit;Madan, Bharat;Hwang, Kyu-Suk;Lee, Sun-Gu
    • Journal of Microbiology and Biotechnology
    • /
    • 제25권1호
    • /
    • pp.127-136
    • /
    • 2015
  • Cupredoxin-like proteins are mainly copper-binding proteins that conserve a typical rigid Greek-key arrangement consisting of an eight-stranded β-sandwich, even though they share as little as 10-15% sequence similarity. The electron transport function of the Cupredoxins is critical for respiration and photosynthesis, and the proteins have therapeutic potential. Despite their crucial biological functions, the identification of the distant Cupredoxin homologs has been a difficult task due to their low sequence identity. In this study, the overlapped conserved residue (OCR) fingerprint for the Cupredoxin superfamily, which consists of conserved residues in three aspects (i.e., the sequence, structure, and intramolecular interaction), was used to detect the novel Cupredoxin homologs in the NCBI non-redundant protein sequence database. The OCR fingerprint could identify 54 potential Cupredoxin sequences, which were validated by scanning them against the conserved Cupredoxin motif near the Cu-binding site. This study also attempted to model the 3D structures and to predict the functions of the identified potential Cupredoxins. This study suggests that the OCR-based approach can be used efficiently to detect novel homologous proteins with low sequence identity, such as Cupredoxins.

시점 시퀀스를 이용한 시간지원 집계의 처리 (Processing Temporal Aggregate Functions using a Time Point Sequence)

  • 권준호;송병호;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.372-380
    • /
    • 2003
  • 시간에 따라 변화하는 사건들을 저장하는 시간지원 데이타베이스에서 기존의 집계 처리 기법에 시간을 고려하여 처리하도록 확장해야 한다. 기존의 시간지원 집계 처리 기법들은 매번 질의의 대상이 되는 사건들이 다를 때마다 시간 구간을 반복해서 구하고 그 구간마다의 결과를 계산해야 한다는 문제점이 있다. 본 논문에서는 시간지원 데이타베이스에 저장된 사건의 시작 시간과 종료 시간만을 미리 읽어 들여서 구성한 시점 시퀀스를 이용하여 시간지원 집계를 처리하는 방법을 제안하였다. 또한 데이타베이스에서 저장된 사건의 삭제나 새로운 사건의 삽입에 따른 시점 시퀀스 갱신의 용이성에 대해서도 언급하였다. 시점 시퀀스는 시간 구간에 대한 정보를 미리 저장하고 있기 때문에, 질의의 대상이 되는 사건들이 다른 시간지원 집계 질의가 계속해서 들어올 때 기존의 방법에 비해 효율적으로 처리할 수 있다.

잣나무(Pinus koraiensis)의 cDNA library 제작 및 EST 분석 (Construction of a full-length cDNA library from Pinus koraiensis and analysis of EST dataset)

  • 김준기;임수빈;최선희;이종석;노승문;임용표
    • 농업과학연구
    • /
    • 제38권1호
    • /
    • pp.11-16
    • /
    • 2011
  • In this study, we report the generation and analysis of a total of 1,211 expressed sequence tags (ESTs) from Pinus koraiensis. A cDNA library was generated from the young leaf tissue and a total of 1,211 cDNA were partially sequenced. EST and unigene sequence quality were determined by computational filtering, manual review, and BLAST analyses. In all, 857 ESTs were acquired after the removal of the vector sequence and filtering over a minimum length 50 nucleotides. A total of 411 unigene, consisting of 89 contigs and 322 singletons, was identified after assembling. Also, we identified 77 new microsatellite-containing sequences from the unigenes and classified the structure according to their repeat unit. According to homology search with BLASTX against the NCBI database, 63.1% of ESTs were homologous with known function and 22.2% of ESTs were matched with putative or unknown function. The remaining 14.6% of ESTs showed no significant similarity to any protein sequences found in the public database. Gene ontology (GO) classification showed that the most abundant GO terms were transport, nucleotide binding, plastid, in terms biological process, molecular function and cellular component, respectively. The sequence data will be used to characterize potential roles of new genes in Pinus and provided for the useful tools as a genetic resource.

단백질 서열의 상동 관계를 가중 조합한 단백질 이차 구조 예측 (Prediction of Protein Secondary Structure Using the Weighted Combination of Homology Information of Protein Sequences)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제20권9호
    • /
    • pp.1816-1821
    • /
    • 2016
  • 단백질은 대부분의 생물학적 과정에서 중대한 역할을 수행하고 있으므로, 단백질 진화, 구조와 기능을 알아내기 위하여 많은 연구가 수행되고 있는데, 단백질의 이차 구조는 이러한 연구의 중요한 기본적 정보이다. 본 연구는 대규모 단백질 구조 자료로부터 단백질 이차 구조 정보를 효과적으로 추출하여 미지의 단백질 서열이 가지는 이차 구조를 예측하려 한다. 질의 서열과 상동관계에 있는 단백질 구조자료내의 서열들을 광범위하게 찾아내기 위하여, 탐색에 사용하는 프로파일의 구성에 질의 서열과 유사한 서열들을 사용하고 갭을 허용하여 반복적인 탐색이 가능한 PSI-BLAST를 사용하였다. 상동 단백질들의 이차구조는 질의 서열과의 상동 관계의 강도에 따라 가중되어 이차 구조 예측에 기여되었다. 이차 구조를 각각 세 개와 여덟 개로 분류하는 예측 실험에서 상동 서열들과 신경망을 동시에 사용하여 93.28%와 88.79%의 정확도를 얻어서 기존 방법보다 성능이 향상되었다.

말 데이터베이스 구축 (HorseDB; an Integrated Horse Resource and Web Service)

  • 김대수;조운종;허재원;최은상;조병욱;김희수
    • 생명과학회지
    • /
    • 제16권3호
    • /
    • pp.472-476
    • /
    • 2006
  • 공개된 데이터베이스들에서 말에 대한 생물학적인 데이터와 지놈 데이터를 분석하여 말 데이터베이스를 구축하였다. 말 데이터베이스는 말의 생물학적인 데이터와 지놈 데이터를 생물정보학적인 분석방법으로 분석하고 이들 데이터를 통합하여 제공하는데 목적을 두고 있다. 본 데이터베이스는 말의 생물학적 데이터와 지놈 분석 데이터 그리고 생물정보학적인 분석프로그램을 제공하는 인터페이스로 구성하였다. 또한 사용자의 편의를 돕기 위해서 쉽게 이용할 수 있도록 웹 메뉴를 구성 하였으며 말에 대한 다양한 정보를 제공할 수 있게 하였다. 말 데이터베이스를 이용할 수 있는 웹 주소는 http://www.primate.or.kr/horse이다.