• 제목/요약/키워드: 데이터 구조 유사도

검색결과 545건 처리시간 0.027초

SCOPML과 SCOPBrowser (SCOPML and SCOPBrowser)

  • 윤형석;황의윤;안건태;김진홍;이명준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.286-288
    • /
    • 2002
  • 포스트지놈 시대에 있어서 가장 주된 연구는 단백질의 구조적 유사성이나 분류학적인 연관성을 밝히는 것이다. SCOP 단백질 구조 분류는 이러한 목적을 위하여 3차원 구조가 알려진 단백질에 대한 구조적, 분류학적 관계에 대해 상세한 정보를 제공한다. 그러나 SCOP의 데이터는 단순 텍스트 기반의 자료만 제공되고 있어서, 이를 이용한 다른 분석 도구를 개발하거나 유용한 정보 추출을 할 경우 그 작업이 매우 힘들며 오류 발생의 확률이 높다. 본 논문에서는 단백질 구조 관련 연구자들이 SCOP 데이터를 보다 효과적으로 이용할 수 있도록 구조화된 문서의 표준인 XML을 이용하여 개발된 SCOPML에 대하여 기술한다. 그리고 SCOPML을 이용하여 SCOP 데이터에 대한 효율적인 검색을 지원하는 SCOPBrowser의 개발에 대해 기술한다.

  • PDF

워드 임베딩 기반 근사 Top-k 레이블 서브그래프 매칭 기법 (Approximate Top-k Labeled Subgraph Matching Scheme Based on Word Embedding)

  • 최도진;오영호;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제22권8호
    • /
    • pp.33-43
    • /
    • 2022
  • 지식 그래프 및 단백질 상호 작용과 같은 실제 데이터에서 개체들과 개체들의 관계 및 구조를 나타내기 위해 레이블 그래프를 사용한다. IT의 급속한 발전과 데이터의 폭발적인 증가로 사용자에게 관심 있는 정보를 제공하기 위한 서브 그래프 매칭 기술이 필요하다. 본 논문은 레이블의 의미적 유사성과 그래프 구조 차이를 고려한 근사 Top-k 서브 그래프 매칭 기법을 제안한다. 제안하는 기법은 레이블 의미적 유사도를 고려하기 위하여 FastText을 활용한 학습 모델을 이용한다. 레이블 간 의미적 유사도를 미리 계산한 LSG(Label Similarity Graph)를 통해 처리 속도의 효율을 높인다. LSG를 통해 레이블이 정확하게 일치해야 확장이 가능한 기존 연구의 한계를 해결한다. 2-hop까지 탐색을 수행함으로써 질의 그래프에 대한 구조적 유사성을 지원한다. 매칭된 서브 그래프는 유사도 값 기반으로 Top-k 결과를 제공한다. 제안하는 기법의 우수성을 보이기 위하여 다양한 성능평가를 수행한다.

집합 유사 시퀀스 매칭의 성능 향상을 위한 인덱스 기반 검색 방법 (An Index-Based Search Method for Performance Improvement of Set-Based Similar Sequence Matching)

  • 이주원;임효상
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.507-520
    • /
    • 2017
  • 집합 유사 시퀀스 매칭 방법은 유사한 정도를 나타내는 척도로 교집합을 기반으로 한 유사도를 사용한다. 그러나 교집합 크기를 계산하는 과정에 시간이 오래 걸릴 뿐만 아니라, 유사한 시퀀스를 찾기 위해서 수많은 집합 간 교집합 크기를 구해야 하므로 수행 시간이 오래 걸리는 성능상의 문제가 있다. 본 논문에서는 이러한 성능상의 문제를 해결하기 위해 인덱스 기반의 검색 방법을 사용하여 집합 기반 유사 시퀀스 매칭을 빠르게 수행하는 방법을 제안한다. 제안하는 방법은 크게 두가지로 구분된다. 첫 번째로 집합 시퀀스 유사도 문제를 교집합의 크기 비교 문제로 정형적으로 변환하고, 교집합의 크기를 빠르게 찾을 수 있는 인덱스 구조를 제안한다. 두 번째로 제안한 인덱스 구조를 사용하여 집합 기반 유사 시퀀스 매칭을 효율적으로 수행할 수 있는 방법을 제안한다. 성능 평가 결과, 제안하는 방법이 기존 방법에 비해 최대 30배에서 50배의 수행 시간 단축이 있음을 보인다. 또한 데이터 시퀀스의 개수가 증가할수록 수행시간의 차이가 점점 커지므로, 대용량 데이터 처리에 적절함을 보인다.

PDB 데이터에서 PSAML로의 변환도구 개발 (Development of a Translator from PDB Data to PSAML)

  • 조민수;이수현;이명준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.2403-2406
    • /
    • 2002
  • 현재의 단백질 구조비교 시스템들 사이의 호환성이나 상호작용성의 문제를 해결하고 단백질 구조를 비교하는 시스템을 신속히 개발하기 위해서 단백질 3차구조를 표현하기 위한 데이터를 추출하여 XML과 같은 표준 형식으로 기술된 데이터를 제공하는 것이 바람직하다. 이에 따라 단백질의 2차구조 구성요소와 그들 사이의 관계를 이용하여 단백질 구조를 기술하는 PSA가 제안되었으며, PSA를 기반으로 하여 단백질 데이터의 XML 표현기법인 PSAML이 제안되었다. 본 논문에서는 PSAML 데이터의 생성을 위하여 PDB에서 제공되는 데이터를 PSAML 형식으로 변환시키는 도구를 설계하고 구현하였다. 변환도구는 XML DOM과 Java를 이용하여 구현되었으며, 생성된 데이터는 단백질 구조 및 유사성을 비교하기 위한 단백질 구조비교 시스템에서 사용될 수 있다.

  • PDF

실시간 탐지정보 제공을 위한 무인기 플랫폼 기반 실시간 LiDAR 데이터 처리구조 (Unmanned Aircraft Platform Based Real-time LiDAR Data Processing Architecture for Real-time Detection Information)

  • 엄준호;이야수;오상윤
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권12호
    • /
    • pp.745-750
    • /
    • 2015
  • LiDAR 기술은 실제와 유사한 수준의 3차원 영상 정보를 제공하는 센싱 기술로, 다양한 분야에서 활용되고 있다. 이 기술을 실제 활용하기 위해서는 복잡하고, 방대한 데이터 처리가 요구되며, 이에 급변하는 상황에서 빠른 대응이 필요한 군사 작전에서의 활용은 제한적이다. 본 논문에서는 무인기 플랫폼 기반의 실시간 LiDAR 데이터 처리구조를 제안하여 LiDAR 데이터 처리를 위해 무인기-고성능 데이터 처리영역 간 병렬처리와 오프로딩을 통해 실시간 수준의 탐지 정보를 제공하도록 제안한다. 또한, 제안 구조의 적용 가능성 검증을 위해 기존 처리 방식과 무인기 플랫폼의 처리환경과 유사한 ARM 클러스터에서의 병렬 처리 방식에서 실제 LiDAR 데이터의 보간 처리를 통해 처리시간, 용량을 확인하는 실험을 수행하였고, 기존 방식과 유사하거나 양호한 결과를 확인하였다. 향후 제안 구조를 기반으로 실시간성 보장이 요구되는 무인 침투자 감시 등 군사 작전에 활용될 수 있을 것이다.

동적 비트 할당을 통한 다차원 벡터 근사 트리 (Multi-Dimensional Vector Approximation Tree with Dynamic Bit Allocation)

  • 복경수;허정필;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제4권3호
    • /
    • pp.81-90
    • /
    • 2004
  • 최근 컴퓨팅 환경의 급속한 발전으로 다양한 응용에서 다차원 데이터에 대한 활용이 증가되고 있다. 본 논문에서는 내용 기반 다차원 데이터 검색을 위한 벡터 관사 트리를 제안한다 제안하는 색인 구조는 공간 분할 방식과 벡터 근사화 기법을 이용하여 영역 정보를 표현하기 때문에 하나의 노드 안에 많은 영역 정보를 저장하여 트리의 높이를 감소시킨다 또한 다차원의 데이터 공간에 동적인 비트로 할당하여 다차원색인 구조의 문제점인 '차원의 저주 현상'을 해결한다. 또한 군집화된 데이터에 대해서 효과적인 표현 기법을 제공한다. 자식 노드의 영역 정보는 부모 노드를 기준으로 상대적으로 표현함으로서 좀더 정확한 영역을 표현할 수 있다. 제안하는 색인 구조의 우수성을 보이기 위해 실험을 통해 기존에 제안된 색인구조와의 비교 분석을 수행한다.

  • PDF

XML 데이터의 유사내용 검색을 위한 Bootstrap Mining (Bootstrap Mining for Searching Similar Content of XML Data)

  • 이한수;박종현;강지훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.517-519
    • /
    • 2005
  • 인터넷 상의 정보교환을 위한 국제표준인 XML은 여러 분야의 응용에 사용되며 응용의 특성에 따라 다양한 형태의 구조로 정의되어 사용된다. 이러한 XML은 응용에 따라 의미적으로 유사한 정보라 하더라도 서로 다른 구조정보를 가질 수 있으며 때로는 스키마(DTD)가 없는 XML문서 형태로 존재하기도 한다. 그 결과 특정 영역(동일 스키마 따르는)의 응용들 사이의 통합은 용이해 졌으나 서로 다른 영역 또는 영역에서 소외된 응용과의 통합은 여전히 문제로 남아있다. 본 연구에서는 대부분의 XML문서는 구조정보에 의미를 내포하고 있다는 특성을 고려하여 문서의 구조정보만을 이용하여 서로 다른 영역의 정보들 사이의 유사성을 판단하고 이를 이용하여 의미적으로 유사한 정보를 찾는다. 또한 XML 문서의 특성을 고려하여 보다 정확한 유사정보를 찾기 위하여 처리의 단위를 정의하고 이를 기반으로 프로토타입 시스템을 구현하였다.

  • PDF

확장된 PSAML을 통한 효과적인 단백질 구조 비교 (Effective Comparison of Protein Structures Based on Extended PSAML)

  • Kim, Jin-Hong;Ahn, Geon-Tae;Lee, Su-Hyun;Lee, Myung-Joon
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.114-119
    • /
    • 2003
  • 단백질 구조를 비교하는 방법은 단백질 구조를 표현하는 기술에 따라 다양하게 존재한다. 일반적인 단백질 구조 정렬방법은 단백질 구조를 원자 또는 Residue를 기준으로 표현하고, 표현된 두 구조사이의 일치된 부분을 찾는 방법과 단백질 구조를 단백질 이차구조요소로 표현하고 표현된 두 단백질 구조를 정렬하는 방법으로 크게 구분된다. 이러한 단백질 구조 비교 방법은 단백질 구조의 유사성을 측정하는 과정에서 많은 시간을 요구할 뿐만 아니라 PDB에 저장된 데이터가 증가함에 따라 보다 많은 단백질과 비교가 요구된다. 따라서 대용량의 단백질 구조 데이터베이스를 대상으로 효율적으로 단백질의 유사 부분구조를 찾을 수 있는 방법이 필요하다. 본 논문에서는 단백질 구조 비교를 보다 빠르고 효과적으로 수행하기 위하여, 기존의 단백질 이차구조 기반의 구조 표현 방법인 PSAML을 확장하여 단백질 이차구조가 가지는 공간상의 정보를 내포한 Topology String을 생성하고 이를 이용하여 대용량의 단백질구조 데이터베이스에서 유사성이 높은 단백질 구조를 필터링하는 방법에 대하여 기술한다. Topology String은 단백질 이차구조를 하나의 문자로 기술하여 아미노산 순서와 위상학적인(공간적인) 정보를 바탕으로 단백질 구조를 표현하여, 단백질 이차구조를 이용하여 구조 비교를 수행하기 이전에 유사성이 높은 단백질 구조를 신속하게 찾아내는데 효과적으로 적용될 수 있다.

  • PDF

XML 문서의 효율적인 경로 통합 기법 (An Efficient Path Combining Strategy of XML Document)

  • 이범석;황병연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.19-22
    • /
    • 2005
  • XML은 비즈니스 메시징, 웹사이트 정보 통합, 그리고 카탈로그 통합 등의 분야에서 다양한 데이터를 표현하기 위한 포맷으로 급격하게 성장했다. 그러나 XML 데이터의 형태가 고정되어 있지 않기 때문에 전통적인 질의 방법이 항상 정확한 결과를 보여주지는 않는다. 또한 객체 지향 DBMS가 이 영역에 적합한지의 여부는 아직 명확하지 않다. 따라서 XML 데이터를 효율적으로 검색하기 위해 기존의 관계형 DBMS와 연계하여 구조 유사성을 기반으로 하는 검색 기법이 연구되고 있다. 그 중 문서, 경로, 단어로 구성된 3차원 비트맵 인덱스를 이용한 검색 시스템은 다른 XML 문서 검색 시스템보다 훨씬 빠른 수행 속도를 보여주지만, 3차원의 메모리 구조를 사용하여 많은 저장공간을 필요로 하는 단점이 있다. 본 논문에서는 XML 문서를 저장할 때 경로들 사이의 유사성을 이용하여 XML 데이터의 경로를 통합하는 기법에 대해 소개한다. 이렇게 통합된 경로를 이용하여 생성하는 3차원 비트맵 인덱스는 그 크기가 상당히 줄어들게 되고, 기존의 연구에서 보여주었던 문제점들을 해결하게 되었다.

  • PDF

유사 패턴을 갖는 HTML 문서의 XML 자동 변환 (Automatically Converting HTML Documents with Similar Pattern into XML Documents)

  • 오금용;황인준
    • 정보처리학회논문지D
    • /
    • 제9D권3호
    • /
    • pp.355-364
    • /
    • 2002
  • 최근 들어, WWW(World Wide Web)의 급속한 보급으로 많은 양의 정보가 생성되고 있다. 이로 인하여 웹은 이제 정보 교환의 도구로서 뿐 아니라 정보의 저장소로 인식되게 되었다. 현재 웹상의 많은 문서들은 HTML(Hypertext Markup Language)을 사용하여 제작되었다. HTML은 간단하고 배우기가 쉬운 반면, 데이터에 대한 기술을 명확하게 하지 못하는 단점으로 인해 정보 검색에 있어서 효율성을 제공하지 못한다. 이를 보완하기 위한 방법 중에 하나가 구조적인 언어로 부상하고 있는 XML(eXtensible Markup Language) 문서로 변환하는 것이다. XML은 웹 상에서 데이터 교환을 위해 제안된 표준 메타 언어이다. 효과적인 데이터의 교환을 위해, XML은 DTD(Document Type Definition)를 통하여 문서의 구조를 기술할 수 있고 사용자가 원하는 대로 정의할 수 있다. 이러한 구조적 유동성은 웹에서 운용되는 모든 데이터를 통합, 저장, 처리할 수 있는 기반을 제공한다. 본 논문에서는 특히 유사한 패턴을 갖는 HTML 문서의 구조를 분석하고 그에 관련된 경로 정보를 인식하는 방식을 이용하여 XML 문서로의 변환을 자동적으로 수행할 수 있는 XML 변환기를 구현하였다.