• 제목/요약/키워드: 서열검색

검색결과 173건 처리시간 0.028초

기능 유전체학을 지원하는 유전자 서열 분석 및 관리시스템 (Gene sequence analysis and management system for supporting functional genomics)

  • 허진석;김현식;진훈;김인철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.480-488
    • /
    • 2002
  • 본 논문에서는 하나의 시스템 안에서 효율적인 유전자 데이터의 관리와 다양한 서열 분석작업이 가능한 기능 유전체학을 지원하는 서열 분석 및 관리 시스템인 GWB(Gene WorkBench)를 설계하고 구현하였다. GWB는 로컬 데이터베이스 관리뿐만 아니라 GenBank, EMBL, SWISSPROT와 같은 외부 공공 데이터베이스에 대한 접근 기능도 제공하며, 권한을 가진 내부 이용자와 그렇지 못한 외부 이용자들을 구분하여 일부 유용한 기능들은 외부 사용자들도 이용할 수 있도록 설계되었다. 또 GWB는 유전자에 관한 문헌정보 검색과 관련 유전자 탐색 기능 등 일부 유전자 기능 연구를 지원하는 기능을 제공하고 있다.

  • PDF

다중서열수집 및 변환을 위한 효과적인 바이오인포메틱스 도구 (An Effective Bioinformatics Tool for Multiple Sequence Acquisition and Translation)

  • 이혜리;이승희;이건명;김성수;이찬희;이성덕
    • 한국지능시스템학회논문지
    • /
    • 제18권1호
    • /
    • pp.27-31
    • /
    • 2008
  • 많은 바이오인포매틱스 관련 데이터베이스와 도구가 네트워크를 통해서 제공되고 있고, 이들을 효과적으로 활용하면 생물학적 분석을 적은 비용으로 우수한 결과를 얻을 수 있다. 이 논문에서는 주어진 질의에 대해서 잠재적으로 관련된 DNA 서열 정보를 획득하고, 분석자가 관심 있는 항목을 선택하면, 선택된 항목에 대한 모든 DNA 서열 정보를 확보하고, 이들에 대해서 아미노산 서열로 자동변환하여 ORF라는 정보를 활용하여 가장 가능성이 큰 것을 추천하는 도구를 소개한다. 해당 도구에는 웹 로봇 기법과 ORF 검색등을 위한 생물학적 지식을 활용한다.

계층적 메트릭 공간(metric space) 구조의 한글 근사 단어 검색 시스템 (Korean Approximate String Searching System by Hierarchical Metric Space Structure)

  • 윤태진;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.397-400
    • /
    • 2010
  • 우리는 지난 연구에서 변형 비속어 필터링 시스템을 위하여 근사 문자열 검색 시스템을 적용하여 서열 정렬 횟수를 비약적으로 줄일 수 있었다. 다차원 데이터 구조를 이용한 한글 근사 검색 시스템은 기준축인 Base-Pivot의 숫자에 따라 검색 결과의 정확도를 높일 수 있으나 BP이 증가한 만큼 질의 단어의 좌표를 계산하기 위한 시간이 오래 걸린다. 소규모 데이터 검색에는 문제가 되지 않으나 60,000단어 이상의 데이터가 수록되는 국어사전과 같은 대규모 데이터를 검색하게 될 경우 요구되는 BP의 숫자도 증가하여 많은 연산시간을 필요로 한다. 본 논문에서는 기존의 근사 단어 검색 시스템을 계층구조화 하여 요구되는 BP 숫자를 감소 시켜 성능을 향상 시키는 방법을 제안하고자 한다. 그리고 실험을 통하여 본 아이디어의 실효성을 증명하였다. 본 아이디어는 기존의 6000개의 비속어에 대하여 약 20%정도의 성능향상을 보였다.

파지-펩타이드 문고로부터 트랜스페린 수용체에 결합하는 펩타이드 탐색 (Identification of a Transferrin Receptor-binding Peptide from a Phage-displayed Peptide Library)

  • 김성일;최석정
    • 생명과학회지
    • /
    • 제18권3호
    • /
    • pp.298-303
    • /
    • 2008
  • 펩타이드 문고 기술을 이용하여 흑색종 세포주인 B16FI0에 결합하는 펩타이드 리간드를 검색하였다. 먼저 세포 내부로 들어간 파지들을 선택하는 방법으로 두 번 검색한 후 표면에 결합한 파지들 가운데 트랜스페린 단백질을 이용하여 트랜스페린 수용체에 결합한 파지들만을 선별적으로 용출시키는 방법으로 세 번 검색하였다. 다음으로 이 두 가지 방법을 통해 선별된 파지들에 표현된 펩타이드들을 Pseudomonas exotoxin의 전이 영역과 촉매 영역에 융합시킨 재조합 독소들을 만들었다. B16FI0 세포에 대한 각 재조합 독소의 활성을 측정하여 일곱 개의 클론을 선택한 후 염기서열을 분석하였다. 그 결과 그 가운데 한 클론에서 표현하는 펩타이드의 아미노산 서열이 사람의 트랜스페린과 유사한 서열을 갖는 것으로 확인되었다. 그 펩타이드를 화학적으로 합성한 후 항암제를 포함하는 리포솜에 붙여 실험한 결과 트랜스페린 수용체를 통해 치료물질을 전달할 수 있는 가능성을 지닌 것으로 평가되었다.

대용량 유전체를 위한 효율적인 유사성 검색 알고리즘 (An Efficient Algorithm for Similarity Search in Large Biosequence Database)

  • 정인선;박경욱;임형석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.1073-1076
    • /
    • 2005
  • 유전자 데이터베이스의 크기는 매년 기하급수적으로 증가하기 때문에 기존의 Smith-Waterman 알고리즘으로 정확한 서열의 유사성을 검색하는 것은 비효율적이다. 따라서 빠른 유사성 검색을 위해 데이터베이스에 저장된 문자열에 대해 특정 길이의 모든 부분문자열에 나타나는 문자의 출현 빈도를 이용한 휴리스틱 방법들이 제안되었다. 그러나 이 방법은 문자의 출현 빈도만을 사용하므로 서로 다른 서열을 같은 서열로 취급하는 단점이 있어 정화도가 Smith-Waterman 알고리즘에 비해 현저히 떨어진다. 본 논문에서는 문자가 부분문자열에 나타나는 위치 정보를 포함하여 문자의 출현빈도를 색인함으로써 질의 처리를 효율적으로 수행하는 알고리즘을 제안한다. 실험결과 제안된 알고리즘은문자 빈도만을 사용하는 휴리스틱 알고리즘들에 비해 5${\sim}$20%정도 정확성이 향상되었다.

  • PDF

녹섹(NOGSEC): A NOnparametric method for Genome SEquence Clustering (NOGSEC: A NOnparametric method for Genome SEquence Clustering)

  • 이영복;김판규;조환규
    • 미생물학회지
    • /
    • 제39권2호
    • /
    • pp.67-75
    • /
    • 2003
  • 비교유전체학의 주요 주제 중 유전자서열을 분류하고 단백질기능을 예측하는 연구가 있으며, 이를 위해 단백질 구조, 공통서열 및 바인딩 위치 예측등의 방법과 함께, 전유전체 서열에서 구해지는 유사도 그래프를 분석해 상동유전자를 검색하는 계산학적인 접근방법이 있다. 유사도그래프를 사용한 방법은 서열에 대한 기존 지식에 의존하지 않는 장점이 있지만 유사도 하한값과 같은 주관적인 임계값이 필요한 단점이 있다. 본 논문에서는 반복적으로 그래프를 분해하는 이전의 방법을 일반화시켜, 유사도 그래프에 기반한 유전자 서열군집분석 방법론과 객관적이고 안정적인 파라미터 임계값 계산 방법을 제안한다. 제시된 방법으로 알려진 미생물 유전체 서 열을 분석하여 이전의 방법인 BAG 알고리즘 결과와 비교했다.

희소 방선균 Sebekia benihana 유래 신규 사이토크롬 P450 하이드록실레이즈 유전자군 분리 및 염기서열 특성규명 (Isolation and Nucleotide Sequence Characterization of Novel Cytochrome P450 Hydroxylase Genes from Rare Actinomycetes, Sebekia benihana)

  • 박남실;박현주;한규범;김상년;김응수
    • KSBB Journal
    • /
    • 제19권4호
    • /
    • pp.308-314
    • /
    • 2004
  • 모넨신, 니저리신, 사이클로스포린 등을 하이드록실레이션 시키는 균주인 S. benihana에 존재하는 여러 가지 CYP를 클로닝하기 위해, 방선균 CYP의 보존된 부분을 통해서 degenerate primer를 제작하였고, colony hybridization을 통해서 스크리닝 한 결과 총 5 종류의 CYP가 검색되었다. 아미노산 서열의 분석 결과 방선균의 CYP 들과 매우 높은 유사성을 가졌으며, 이들 CYP의 앞 뒤 서열의 검색 결과 이 중 4개의 CYP의 downstream에는 FD 유전자가 존재함을 알 수 있었다. CYP503의 경우 다른 나머지 4개의 CYP의 서열과 차이가 많았으며, 2차 대사산물의 변형과 관련되어 있을 것으로 예상되며, ChoP와 유사성을 보이는 나머지 4개의 CYP는 스테로이드 계열 물질의 하이드록실레이션과 밀접한 연관이 있을 것으로 추정된다.

정렬된 리드의 통계적 분석을 기반으로 하는 CNV 검색 알고리즘 (A CNV detection algorithm based on statistical analysis of the aligned reads)

  • 홍상균;홍동완;윤지희;김백섭;박상현
    • 정보처리학회논문지D
    • /
    • 제16D권5호
    • /
    • pp.661-672
    • /
    • 2009
  • 인간의 유전체 서열에는 유전체 단위반복변위(copy number variation, CNV)를 포함하는 다양한 유전적 구조 변이(genetic structural variation)가 존재하며, 이는 기능적으로 질병에 대한 감수성, 치료에 대한 반응, 유전적 특성 등과 밀접한 관련이 있다. 본 논문에서는 기가 시퀀싱(giga sequencing)의 결과 산출되는 대량의 짧은 길이의 DNA 서열 데이터를 이용한 새로운 CNV 검색 방식을 제안한다. 제안하는 알고리즘에서는 레퍼런스 시퀀스에 DNA 서열 데이터를 서열 정렬시켜 각 레퍼런스 시퀀스의 위치에 대한 서열 데이터의 출현 빈도 정보를 얻은 후, 출현 빈도 정보의 패턴을 분석하여 통계적 유의성을 갖는 1kbp 이상의 연속 영역을 CNV 후보 영역으로 추출한다. 또한 제안된 알고리즘을 효율적으로 지원하기 위한 서열 정렬 방식에 대한 비교 및 분석을 수행한다. 제안된 기법의 유용성을 규명하기 위하여 다양한 실험을 수행하였다. 실험 결과에 의하면, 제안된 기법은 비교적 낮은 커버리지의 기가 시퀀싱 데이터를 이용하여 반복되거나 결실되는 다양한 형태의 CNV 영역을 효율적으로 검출하며, 또한 작은 사이즈의 CNV 영역에서부터 큰 사이즈의 CNV 영역까지 다양한 크기의 CNV 영역을 효율적으로 검출 할 수 있는 것으로 나타났다.

생물학 도메인에서의 정보검색 : TREC의 Genomics Track을 중심으로

  • 송영인;한경수;김상범;임해창
    • 정보과학회지
    • /
    • 제22권4호
    • /
    • pp.52-61
    • /
    • 2004
  • 생물학 분야에서 많은 과학적인 발견을 이루어내면서 그에 관한 온라인 데이터와 정보의 량도 증가하고 있다. 게놈 서열 분석 기술이 발전하고 유전자나 단백질의 구조 인식 지원 도구 등이 개발되면서, 생물학은 방대한 량의 정보를 다루어야 하는 데이터 집약적인 연구가 되었다. 이런 상황에서 지속적으로 증가하는 정보들에 어떻게 접근하고 또 그것을 어떻게 관리할 것인가가 생물학 연구자들에게는 큰 문제가 되었다. 이 문제를 극복하기 위해 생물학 도메인에서의 정보검색이 주목을 받고 있다.

생명정보 연계검색 인터페이스 설계에 관한 연구 (A Study on Design of Linked Retreival Interface for Biological Information)

  • 안부영;한정민;한건;이상호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.407-409
    • /
    • 2008
  • 생명체는 여러 가지 물질로 구성되어 있으며, 그 생명체의 분포지역에 따라 생물 종 특성도 다르게 나타난다. 그래서 연구자들이 생명체에 관한 정보를 확인하려면 그 생명체의 종 정보, 지역과 생태정보를 관련 생물다양성 데이터베이스에서 검색하며, 생명체를 구성하는 유전자 서열정보와 단백질 구조정보는 Genbank, PDB 등의 유전자/단백질 데이터베이스에서 검색하고 있다. 또한 그 생명체에 관한 학술적 내용이 수록된 학술 논문까지 별도로 검색해야만 그 생물체에 관한 정확한 정보를 획득할 수 있다. 이런 불편함을 해결하려면 하나의 생명체를 검색할 때, 생명체의 종 정보, 위치 정보, 생명체를 구성하고 있는 유전자 정보, 그리고 논문정보를 연계하여 검색할 수 있는 시스템이 필요하다. 이에, 본 논문에서는 하나의 생명체를 검색할 때 종 정보뿐만 아니라 GIS를 이용한 위치정보와 생명체를 구성하는 유전자 정보를 연계하고 그 생명체에 관한 논문 정보까지 검색 가능한 생명정보 연계검색 인터페이스를 설계하였다.