• 제목/요약/키워드: Data Partition Algorithm

검색결과 128건 처리시간 0.022초

부호화와 정보 엔트로피에 기반한 심방세동 (Atrial Fibrillation: AF) 패턴 분석 (Atrial Fibrillation Pattern Analysis based on Symbolization and Information Entropy)

  • 조익성;권혁숭
    • 한국정보통신학회논문지
    • /
    • 제16권5호
    • /
    • pp.1047-1054
    • /
    • 2012
  • 심방세동(Atrial Fibrillation:AF)은 각종 심장질환에서 비교적 빈번히 발생하는 부정맥으로 알려져 있으며, 그 발병률은 연령의 증가와 더불어 점차 증가한다. 전통적으로 심방세동을 검출하는 방법은 시간 영역 분석법과 주파수 영역분석법이 대부분이었다. 하지만 심전도 신호는 잡음의 영향을 많이 받는 환경에서 검출의 정확도가 떨어지며, 시간 주파수 영역 분석법은 RR 간격에 따라 변화하는 불규칙적 리듬에 관한 정보를 정확하게 얻지 못하는 단점이 있다. 본 연구에서는 부호화와 정보 엔트로피에 기반한 AF 패턴 분석 방법을 제안한다. 이를 위해 먼저 RR 간격 데이터를 차분 분할 방식을 통해 부호 서열화 한 후 그 리듬에 대한 패턴을 분석하고 이를 샤논의 정보 엔트로피를 통해 복잡도를 정량화하여 심방세동을 검출하였다. 성능 평가를 위해 10부터 100까지의 문턱값에 따른 엔트로피를 통해 복잡도를 분석하였으며 MIT-BIH 심방세동 데이터베이스를 이용하여 실험하였다.

공간 효율적인 DNA 시퀀스 인덱싱 방안 (A Space Efficient Indexing Technique for DNA Sequences)

  • 송혜주;박영호;노웅기
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권6호
    • /
    • pp.455-465
    • /
    • 2009
  • 서픽스 트리는 공통의 프리픽스의 빈도수가 높을 때 효과적인 알고리즘으로, 한정된 문자로만 구성된 DNA 유사성 검색을 위한 연구에서 널리 활용되고 있다. 그러나, 서픽스 트리는 인덱스 특성상 메모리 공간을 많이 차지하며, 트리의 분할 시 DNA 시퀀스의 비율로 인한 쏠림현상이 발생한다는 문제점을 가진다. 따라서, 본 논문에서는 공통의 프리픽스를 가지는 가변길이의 파티셔닝 방법으로 합병하지 않는 인덱싱 방안인 SENoM을 제안한다. SENoM은 전체 시퀀스에서 공통의 프리픽스를 가지는 서픽스들의 발생 빈도수가 임계치 이하인 경우 디스크에 저장하고, 임계치 이상인 경우 임계치 이하가 될 때까지 프리픽스를 확장한다. 모든 파티션은 서브트리로 구축한 후 디스크에 저장하며, 질의처리를 위해, 구축된 파티션의 프리픽스를 서픽스로 가지는 트리를 구축한다. 제안하는 기법은 복잡한 합병과정을 제거하고, 많은 파티션 발생으로 인한 디스크 I/O 발생을 줄인다. 실험을 통해, SENoM이 Trellis 알고리즘에 비해 메모리 사용량을 약 35%, 인덱스 크기를 약 20% 감소시켰음을 보인다. 또한, 질의길이가 긴 경우에도 프리픽스 트리를 이용하여 효과적인 질의처리가 가능함을 보인다.

구형 피라미드 기법 : 고차원 데이터의 유사성 검색을 위한 효율적인 색인 기법 (Spherical Pyramid-Technique : An Efficient Indexing Technique for Similarity Search in High-Dimensional Data)

  • 이동호;정진완;김형주
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권11호
    • /
    • pp.1270-1281
    • /
    • 1999
  • 피라미드 기법 1 은 d-차원의 공간을 2d개의 피라미드들로 분할하는 특별한 공간 분할 방식을 이용하여 고차원 데이타를 효율적으로 색인할 수 있는 새로운 색인 방법으로 제안되었다. 피라미드 기법은 고차원 사각형 형태의 영역 질의에는 효율적이나, 유사성 검색에 많이 사용되는 고차원 구형태의 영역 질의에는 비효율적인 면이 존재한다. 본 논문에서는 고차원 데이타를 많이 사용하는 유사성 검색에 효율적인 새로운 색인 기법으로 구형 피라미드 기법을 제안한다. 구형 피라미드 기법은 먼저 d-차원의 공간을 2d개의 구형 피라미드로 분할하고, 각 단일 구형 피라미드를 다시 구형태의 조각으로 분할하는 특별한 공간 분할 방법에 기반하고 있다. 이러한 공간 분할 방식은 피라미드 기법과 마찬가지로 d-차원 공간을 1-차원 공간으로 변환할 수 있다. 따라서, 변환된 1-차원 데이타를 다루기 위하여 B+-트리를 사용할 수 있다. 본 논문에서는 이렇게 분할된 공간에서 고차원 구형태의 영역 질의를 효율적으로 처리할 수 있는 알고리즘을 제안한다. 마지막으로, 인위적 데이타와 실제 데이타를 사용한 다양한 실험을 통하여 구형 피라미드 기법이 구형태의 영역 질의를 처리하는데 있어서 기존의 피라미드 기법보다 효율적임을 보인다.Abstract The Pyramid-Technique 1 was proposed as a new indexing method for high- dimensional data spaces using a special partitioning strategy that divides d-dimensional space into 2d pyramids. It is efficient for hypercube range query, but is not efficient for hypersphere range query which is frequently used in similarity search. In this paper, we propose the Spherical Pyramid-Technique, an efficient indexing method for similarity search in high-dimensional space. The Spherical Pyramid-Technique is based on a special partitioning strategy, which is to divide the d-dimensional data space first into 2d spherical pyramids, and then cut the single spherical pyramid into several spherical slices. This partition provides a transformation of d-dimensional space into 1-dimensional space as the Pyramid-Technique does. Thus, we are able to use a B+-tree to manage the transformed 1-dimensional data. We also propose the algorithm of processing hypersphere range query on the space partitioned by this partitioning strategy. Finally, we show that the Spherical Pyramid-Technique clearly outperforms the Pyramid-Technique in processing hypersphere range queries through various experiments using synthetic and real data.

배아 데이터의 효율적 검색을 위한 계층적 구조화 방법 (Hierarchical Organization of Embryo Data for Supporting Efficient Search)

  • 원정임;오현교;장민희;김상욱
    • 전자공학회논문지CI
    • /
    • 제48권2호
    • /
    • pp.16-27
    • /
    • 2011
  • 배아란 동물이나 식물과 같은 다세포 생물의 초기 단계를 의미한다. 배아의 단계에서 다세포 생물의 기초적인 체제가 결정되기 때문에 배아는 개체발생의 기구를 연구하는 중요한 연구대상이 된다. 생물학자들은 배아 연구를 위해 대용량의 배아 이미지 데이터를 소유하고 있으며, 이러한 대용량 데이터 중 원하는 이미지를 효율적으로 검색하기 위해서는 데이터 구조화가 필요하다. 데이터베이스 구조화를 위해 주로 사용되는 방법으로 계층적 클러스터링이 있다. 그러나 기존의 계층적 클러스터링 방법은 데이터베이스를 트리 형태로 구조화 하는 과정에서 클러스터의 크기와 클러스터 내의 객체 수를 동시에 고려하지 못하기 때문에 결과 클러스터링 트리가 경사 트리일 가능성이 매우 높다. 경사 트리인 경우 사용자가 원하는 이미지를 검색하기 위해 트리를 순회할 때 많은 시간이 걸린다. 따라서 본 논문에서는 대용량의 배아 이미지 데이터를 경사 되지 않으며 균형 상태에 가까운 트리 형태로 구조화하기 위한 방안을 제시한다. 제안하는 방안은 데이터베이스 내에 저장된 배아 이미지를 그래프로 변환하고 반복적으로 그래프 분할 알고리즘을 적용하여 클러스터를 생성한다. 이 때 클러스터의 크기와 클러스터 내의 객체 수를 동시에 고려하여 특정 클러스터의 크기가 지나치게 커지거나 객체 수가 많아지는 것을 방지한다. 실험을 통해서 제안하는 방안의 우수성을 규명하고 시각화 툴을 제공하여 사용자가 원하는 배아 이미지를 쉽게 찾을 수 있도록 돕는다.

CUDA 연산을 이용한 개선된 영상 매칭 방법에 관한 연구 (A Study on Improved Image Matching Method using the CUDA Computing)

  • 조경래;박병준;윤태복
    • 한국산학기술학회논문지
    • /
    • 제16권4호
    • /
    • pp.2749-2756
    • /
    • 2015
  • 최근 데이터의 질이 높아짐에 따라 영상을 처리하는데 많은 시간이 소모되는 문제가 제기되어 영상 처리 알고리즘의 가속화가 필요하게 됨으로써, 기존의 CPU와 CUDA(Compute Unified Device Architecture) 기반의 인식 시스템에서 연산속도와 성능이득 비교를 위해 OpenMP를 가지고 측정할 수 있는 문자 인식시스템으로 학습된 문자데이터가 입력되면 매칭이 가장 잘 되는 영상의 영역을 인식하는 환경으로 구현하여 각 영문 알파벳의 글씨체가 일정하고 크기가 규격화 되어 있으므로 문자를 학습하고 문자 정합도를 계산하기 위한 영상 매칭 방법을 구현하게 되었다. GPGPU(General Purpose GPU)프로그래밍 플랫폼 기술인 CUDA연산 기법을 이용하여 알고리즘을 빠르고 효율적으로 처리하는 OpenMP에서 인텔 i5 2500의 네 개의 코어를 사용하여 인식 할 때, 기존 CPU의 성능보다 4배의 속도가 나오지 않고 데이터의 분할과 병합 연산의 지연으로 인해 약 3.2배의 속도로 향상되는 가속화 방법을 제안하고 그래픽카드에서 처리하는 병렬처리 결과, 순차적 연산을 수행하였던 CPU 기반의 처리에 비해 성능이득이 약 21X(배)로 향상됨을 확인하였다.

무선 센서 네트워크에서 클러스터의 분할을 이용한 에너지 효율적 클러스터링 (An Energy-Efficient Clustering Using Division of Cluster in Wireless Sensor Network)

  • 김종기;김용원
    • 인터넷정보학회논문지
    • /
    • 제9권4호
    • /
    • pp.43-50
    • /
    • 2008
  • 에너지 교체가 어려운 무선 센서네트워크(Wireless Sensor Network)에서 에너지 소모량을 줄이기 위하여 효율적 라우팅에 관한 연구가 다양하게 진행되고 있다. 그 중 라우팅 분야는 현재 클러스터링 방식이 가장 효율적인 방식으로 연구되고 있다. 클러스터링 방식은 클러스터를 구성하는 부분과 데이터를 전송하는 부분으로 구성된다. 클러스터를 구성하는 부분은 클러스터 내에 센서 노드들 간에 에너지 소모를 동등하게 하기 위하여 주기적으로 반복된다. 클러스터 구성 부분은 클러스터 헤드 노드를 선정하고 클러스터 헤드 노드에 최적화된 클러스터 멤버 노드를 구성하는 부분으로 알고리즘이 복잡하고 에너지 소모가 크다. 또한 데이터를 전송하는 부분은 크로스오버 영역을 중심으로 에너지 소모량이 $d^2$$d^4$ 으로 비례된다. 본 논문은 클러스터 방식에서 주기적으로 일어나는 클러스터 구성 부분을 효율화하여 에너지 소모량을 줄이는 방법을 제안하였다. 이 방식은 클러스터의 구성에 있어서 밀도를 고려한 노드가 배치될 영역을 균등 분할하여 클러스터 내의 센서 노드수를 거의 일정하게 하고, 클러스터의 중앙 근처에 헤드 노드의 선정함으로 에너지 소모를 줄이는 방식이다. 이 제안의 타당성을 모의실험을 통하여 보면, LEACH 방식에서의 에너지 소모량보다 적은 것이 확인하였다.

  • PDF

Normalized Cuts을 이용한 그래프 기반의 하이레벨 모션 분할 (Graph-based High-level Motion Segmentation using Normalized Cuts)

  • 윤성주;박안진;정기철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권11호
    • /
    • pp.671-680
    • /
    • 2008
  • 모션 캡쳐 장비는 사람의 자연스러운 행동이나 동작 정보를 정밀하게 얻기 위해 널리 이용되며, 영화나 게임과 같은 콘텐츠 제작 시에 자주 활용된다. 하지만 모션 캡쳐 장비가 고가이고 이용하기 불편하기 때문에 대부분의 경우 한번 입력받은 데이타를 모션별로 분할하고 상황에 맞게 재결합하여 이용하며, 입력 데이타를 모션별로 분할하는 작업은 대부분 수동으로 이루어진다. 이 때문에 캡쳐된 모션 데이타를 자동으로 분할하기 위한 연구들이 최근 다양하게 시도되고 있다. 기존의 연구들은 크게 각 프레임의 전역적 특징을 고려하는 오프라인 방법과 이웃하는 프레임 사이의 유사도를 고려하는 온라인 방법으로 나누어진다. 본 논문에서는 온라인과 오프라인 방법을 통합한 그래프 기반의 하이레벨 모션 분할 방법을 제안한다. 하이레벨 모션은 모션 내에서 반복되는 프레임을 포함하는 특징을 가지고 있다. 우리는 이 특징을 기반으로 이웃하는 프레임뿐만 아니라 일정시간내의 모든 프레임 사이의 유사도를 고려하는 그래프를 생성하며, 그래프의 정점(vertex)에는 프레임 정보를 간선(edge)의 가중치는 두 프레임 사이의 유사도를 반영한다. 그래프를 분할하기 위해 분할된 간선의 가중치를 전역적으로 최소화할 수 있는 normalized cuts을 이용하며, 분할된 정점의 집합은 하이레벨 모션을 의미한다. 결과적으로 제안된 방법은 이웃하는 프레임뿐만 아니라 일정시간내의 모든 프레임 사이의 유사도를 반영하는 그래프를 전역적으로 최소화함으로써 온라인과 오프라인 방법을 동시에 고려할 수 있으며, 실험에서 제안된 방법은 기존의 오프라인 방법 중 하나인 GMM과 온라인 방법 중 하나인 PEA를 이용한 방법보다 좋은 결과를 보였다

표본조사에 의한 기업 연구개발활동 통계 작성방안 (Development of Sample Survey Design for the Industrial Research and Development Statistics)

  • 조성표;박선영;한기인;노민선
    • 기술혁신연구
    • /
    • 제17권2호
    • /
    • pp.1-23
    • /
    • 2009
  • 본 연구에서는 국가의 연구개발활동조사에서 기업연구개발활동 통계에 대한 효과적인 산출방법을 제시하고자 하였다. 이를 위하여 국내 외 연구개발 통계 방법을 조사한 후 이를 토대로 우리나라에서 기업연구개발활동에 대한 자료의 수집 및 분석에 대한 개선 방안을 제시 하였다. 대부분의 국가에서 대기업은 전수조사, 소규모 기업은 표본조사를 수행하고 있으나, 우리나라에서는 연구소 등록법인에 대하여 전수조사를 행하고 있다. 전수조사는 비용이 많이 들고 비표본오차로 인하여 모집단에 대한 체계적인 추정이 불가능하다는 문제점이 있다. 현재 산업기술진흥협회에 등록된 연구기관의 수가 20,000개를 넘어서고 있어 전수조사는 한계에 다다른 것으로 생각되어 표본조사 도입에 대한 타당성과 방법론을 중점적으로 검토하였다. 먼저, 표본조사의 타당성을 평가하기 위하여 현재 전수조사를 통해 수집된 자료를 이용하여 표본조사를 수행한 결과를 비교 분석하였다. 산업별(24개), 그룹별(8개)로 구분하여 216개 셀별로 모집단수/표본수를 곱하여 산정(셀별추정법)한 결과, 전수 통계치와 거의 동일하게 나타났다. 따라서, 산업별, 그룹별로 세분하여 모집단수/표본수를 곱하여 추정하는 셀별추정법이 타당한 것으로 평가할 수 있다. 이상의 분석결과를 토대로 조사설계 방안을 제시하면 다음과 같다. 직전연도 조사기업은 직전연도 연구개발비 수준과 기업종류(대기업, 벤처기업, 중소기업), 그리고 산업에 따라 셀을 분할한다. 대기업, 연구개발비 수준이 높은 기업 등 주요한 셀에 대하며는 전수조사를 실시한다. 나머지 셀에 대하여는 각 셀별 연구개발지출의 분포가 동질적이기 때문에 표본 추출 방법은 단순임의추출법(SRS)을 사용한다. 다만 전년도 미계상된(또는 미포함된) 기업에 대하여는 신규 대형 연구소 진입 등을 고려하여 규모비례확률추출법(PPS)을 고려하는 것이 바람직할 것으로 판단된다. 일부 기업들이 특정 항목에 대한 자료를 제공하지 않는 항목무응답의 경우, 누락된 자료에 대하여는 대체기법(Imputation Algorithm)에 따라 이를 추정한다. 이러한 표본조사방법은 전수조사에서 발생하는 비표본오차를 해소하고, 자료 수집비용 및 소규모기업의 행정적 부담을 경감할 수 있다는 장점이 있다. 향후 연구에서는 좀 더 구체적인 조사방법론을 강구할 필요가 있으며, 이와 함께, 연구개발에 대한 다양한 측면의 정보를 수집하기 위해 새로운 설문지를 개발할 필요성이 있다.

  • PDF