• 제목/요약/키워드: 병렬 방법

검색결과 1,838건 처리시간 0.03초

CUDA를 활용한 스케일링 필터 및 트랜스코더의 성능향상 (Performance Enhancement of Scaling Filter and Transcoder using CUDA)

  • 한재근;고영섭;서성한;하순회
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권4호
    • /
    • pp.507-511
    • /
    • 2010
  • 본 논문은 GPGPU가속을 이용한 스케일링 필터(scaling filter) 및 트랜스코딩(Transcoding)의 성능 향상 방법을 제안한다. 트랜스코딩 기술은 다양한 요구조건을 지닌 멀티미디어 기기에 적합하게 동영상을 가공하는 기술로, 오늘날 여러 분야에서 활용되는 중요한 기술이다. 그러나 트랜스코딩에는 대량의 연산이 필요하기 때문에 기존 트랜스코더(Transcoder) 사용자들은 오랜 처리시간을 감내 해야만 했는데, 이는 CPU만을 이용한 트랜스코딩이 충분히 효율적이지 못하기 때문이다. 본 연구에서는 고성능의 연산이 가능한 GPGPU기술을 활용하여, 트랜스코더의 스케일링 필터를 GPU 상에서 높은 병렬성을 가지고 동작하도록 개선함으로써 트랜스코더의 전체적인 성능을 향상시켰다. 개선된 트랜스코더는 다양한 크기의 동영상과 여러 종류의 스케일링 필터 옵션들에 대해 잘 동작함이 검증되었으며, 기본 옵션에서 36%, 최대 101%의 성능향상을 보였다.

독립적인 벡터 근사에 의한 분산 벡터 근사 트리의 성능 강화 (Performance Enhancement of a DVA-tree by the Independent Vector Approximation)

  • 최현화;이규철
    • 정보처리학회논문지D
    • /
    • 제19D권2호
    • /
    • pp.151-160
    • /
    • 2012
  • 지금까지 제안된 분산 고차원 색인의 대부분은 균일한 분포를 가지는 데이터 집합에서 좋은 검색 성능을 나타내나, 편향되거나 클러스터를 이루는 데이터의 집합에서는 그 성능이 크게 감소된다. 본 논문은 강하게 클러스터를 이루거나 편향된 분포를 가지는 데이터 집합에 대한 분산 벡터 근사 트리의 k-최근접 검색 성능을 향상시키는 방법을 제안한다. 기본 아이디어는 전체 데이터를 클러스터링하는 상위 트리의 말단 노드가 담당하는 데이터 공간의 크기를 계산하고, 그 공간 상의 특징 벡터를 근사하는 데 사용되는 비트의 수를 달리하여 벡터 근사의 식별 능력을 보장하는 것이다. 즉, 고밀도 클러스터에는 더 많은 수의 비트를 할당하는 것이다. 우리는 합성 데이터와 실세계 데이터를 가지고 분산 hybrid spill-tree와 기존 분산 벡터 근사 트리와의 성능 비교 실험을 수행하였다. 실험 결과는 확장된 분산 벡터 근사 트리의 검색 성능이 균일하지 않은 분포의 데이터 집합에서 크게 향상되었음을 보인다.

FPGA를 이용한 효율적 정규표현매칭 (Efficient Regular Expression Matching Using FPGA)

  • 이장행;이성원;박능수
    • 정보처리학회논문지C
    • /
    • 제16C권5호
    • /
    • pp.583-588
    • /
    • 2009
  • Network Intrusion Detection System(NIDS)는 네트워크를 통해 들어오는 패킷들을 모니터링 하고 분석하여 내부 시스템에 유해한 내용을 담고 있는 패킷을 탐지 하는 시스템이다. 이 시스템은 네트워크의 패킷을 놓치지 않고 분석할 수 있어야 하며, 예측 불허의 공격 방법들에 대해서는 새로운 법칙을 적용하여 방어할 수 있어야 한다. 이에 대응하여, 소프트웨어적 처리에 비해 높은 비교 성능과 재구성이 가능한 유연성을 제공하는 FPGA는 좋은 해결책이다. 그럼에도 불구하고, 고속 네트워크의 등장과 축적되는 공격 패턴들의 증가는 제한된 속도와 공간을 가지고 있는 FPGA에게 부담이 된다. 본 연구는 추가적인 자원 사용을 최소화하고 성능의 극대화를 가져오는 방식으로 접두어 공유 병렬 패턴매치 기법을 제시하고 설계하였다. 실험을 통하여 입력 문자열을 8bit에서 16bit로 증가할 때 성능이 두 배 향상이 되면서 구현을 위해 사용되는 자원은 평균 1.07배 증가하는 것을 확인할 수 있다.

비규칙 토폴로지 스위치 기반 클러스터 시스템을 위한 메쉬 프로세스의 인접 기반 매핑 (Adjacency-Based Mapping of Mesh Processes for Switch-Based Cluster Systems of Irregular Topology)

  • 모상만
    • 전자공학회논문지CI
    • /
    • 제47권2호
    • /
    • pp.1-10
    • /
    • 2010
  • 가상의 프로세스 토폴로지를 물리적인 프로세서 토폴로지로 매핑하는 문제는 병렬 프로그래밍에서 가장 중요한 이슈 중의 하나이다. 그러나 이 매핑은 토폴로지 비규칙성 및 라우팅 복잡성으로 인해 어려운 문제로 여겨지고 있다. 본 논문에서는 프로세스간 통신 패턴으로 2차원 메쉬 프로세스 토폴로지를 가정하여, 비규칙 클러스터 시스템을 위한 새로운 프로세스 매핑 기법인 인접 기반 매핑(AM)을 제안한다. 클러스터 시스템은 전통적인 규칙성 네트워크에서는 달성하기 어려운 상호연결 유연성과 시스템 확장성을 제공하기 때문에 여러 해 동안 활발히 연구 개발되어 오고 있다. 제안한 AM은 가상 프로세스 토폴로지에서 이웃하는 프로세스를 물리적인 프로세서 토폴로지의 인접한 프로세서에게 매핑시킨다. 시뮬레이션 결과에 따르면, 제안한 AM은 기존 방법에 비하여 매핑 품질이 우수하고 프로세스간 지연시간이 감소하는 결과를 나타낸다.

마스터와 슬레이브에 따른 싱글버스와 다중버스 토폴로지의 성능분석 (Performance Analysis of Single and Multiple Bus Topology Due to Master and Slave)

  • 이국표;윤영섭
    • 대한전자공학회논문지SD
    • /
    • 제45권9호
    • /
    • pp.96-102
    • /
    • 2008
  • SoC의 버스 구조에는 싱글버스와 다중버스로 구분된다. 싱글버스는 전송을 원하는 여러 개의 마스터 중 선택된 하나의 마스터만이 데이터 트랜잭션을 수행할 수 있다. 반면에 다중버스는 개별적으로 동작이 가능한 버스를 브리지를 통해 연결하여 각각의 버스에서 여러 데이터를 병렬 처리할 수 있다. 그러나 현재의 버스에서 다른 버스로 데이터 통신을 수행할 경우, 레이턴시가 급격하게 증가할 수 있다. 게다가, 다중버스의 성능은 마스터의 개수, 슬레이브의 종류 등에 따라 쉽게 바뀔 수가 있다. 이에 본 논문에서는 TLM(Transaction Level Model) 시뮬레이션 방법을 이용하여 마스터의 개수, SDRAM, SRAM, 레지스터 등의 슬레이브 종류에 따른 싱글버스와 다중버스 아키텍처의 성능을 정량적으로 비교 분석하였다.

기계학습 및 분류를 위한 SVM 엔진의 FPGA 구현 (FPGA Implementation of SVM Engine for Training and Classification)

  • 나원섭;정용진
    • 전기전자학회논문지
    • /
    • 제20권4호
    • /
    • pp.398-411
    • /
    • 2016
  • 기계학습 방법의 하나인 SVM은 뛰어난 일반화 성능으로 영상처리 분야에서 많이 사용하고 있다. 하지만 SVM을 이용한 시스템에서 미리 학습된 데이터가 아닌 다른 데이터를 이용하려하면 새로 학습을 시켜야 하는 경우가 생긴다. 특히, 임베디드 환경에서는 이러한 상황에서 학습 시간이 오래 걸려 SVM을 적절히 이용하지 못하는 경우가 있다. 본 논문에서는 이러한 문제점을 해결하기 위하여 SVM의 학습 및 분류를 모두 수행할 수 있도록 하나의 FPGA로 구현하였다. SVM 연산의 복잡성으로 인해 생기는 반복연산을 병렬처리를 통하여 해결하고 커널 사용으로 생기는 지수 연산을 변형하여 고정 소수점 연산이 가능하도록 하였다. 제안하는 하드웨어는 Xilinx사의 ZC 706보드에 구현하였고, 구현한 FPGA의 검증을 위하여 TSR 알고리즘을 이용하였다. 구현한 하드웨어는 100 MHz의 주파수로 동작하며, 2천개의 데이터를 이용한 학습 시 약 5sec가 소요되고 $1360{\times}800$ 해상도에서 분류 시 약 16.54msec가 소요됨을 확인했다.

차량 검출용 CNN 분류기의 실시간 처리를 위한 하드웨어 설계 (A Real-Time Hardware Design of CNN for Vehicle Detection)

  • 방지원;정용진
    • 전기전자학회논문지
    • /
    • 제20권4호
    • /
    • pp.351-360
    • /
    • 2016
  • 최근 딥 러닝을 중심으로 빠르게 발전하고 있는 기계학습 분류 알고리즘은 기존의 방법들보다 뛰어난 성능으로 인하여 주목받고 있다. 딥 러닝 중에서도 Convolutional Neural Network(CNN)는 영상처리에 뛰어나 첨단 운전자 보조 시스템(Advanced Driver Assistance System : ADAS)에서 많이 사용되고 있는 추세이다. 하지만 차량용 임베디드 환경에서 CNN을 소프트웨어로 동작시켰을 때는 각 Layer마다 연산이 반복되는 알고리즘의 특성으로 인해 수행시간이 길어져 실시간 처리가 어렵다. 본 논문에서는 임베디드 환경에서 CNN의 실시간 처리를 위하여 Convolution 연산 및 기타 연산들을 병렬로 처리하여 CNN의 속도를 향상시키는 하드웨어 구조를 제안한다. 제안하는 하드웨어의 성능을 검증하기 위하여 Xilinx ZC706 FPGA 보드를 이용하였다. 입력 영상은 $36{\times}36$ 크기이며, 동작주파수 100MHz에서 하드웨어 수행시간은 약 2.812ms로 실시간 처리가 가능함을 확인했다.

Hardware-Accelerated Multipipe Parallel Rendering of Large Data Streams

  • Park, Sanghun;Park, Sangmin;Bajaj, Chandrajit;Ihm, Insung
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제7권2호
    • /
    • pp.21-28
    • /
    • 2001
  • 최근 과학적 데이터의 증가 결과로, 매우 방대한 크기의 볼륨 데이터들이 점차로 일반화되고 있다. 다양한 텍스춰 기반 볼륨 렌더링 알고리듬들이 제안되었으나, 대부분의 방법들이 하드웨어가 갖고 있는 텍스춰 메모리보다 작은 크기의 볼륨 데이터를 가시화하는데 촛점을 맞추고 있다. 본 논문은 멀티파이프 시스템 구조상에서 매우 큰 정적 데이터와 시간 가변 데이터를 위한 새로운 병렬 볼륨 렌더링 스킴에 대해 설명한다. 이 스킴은 큰 볼륨을 동적으로 작은 크기의 블릭으로 분할하고, 이를 그래픽스 파이프에 적절히 할당함으로써 텍스춰 교체 비용을 최소화 한다. 이 기법은, 수행중에 법선 벡터를 계산하고 OpenGL 컬러 행렬을 이용하여 퐁 쉐이딩 영상을 쉽게 생성할 수 있다. 우리는 SGI Onyx2 시스템을 이용하여 큰 크기의 다양한 데이터에 대해 실험한 결과를 보인다.

  • PDF

퀀텀 에스프레소와 제온 파이 프로세서의 융합을 이용한 분산컴퓨팅 성능에 대한 연구 (A Study of Distribute Computing Performance Using a Convergence of Xeon-Phi Processor and Quantum ESPRESSO)

  • 박영수;박구락;김동현
    • 한국융합학회논문지
    • /
    • 제7권5호
    • /
    • pp.15-21
    • /
    • 2016
  • 최근 프로세서의 집적도는 급속도로 발전하고 있으나 클락 스피드는 증가하지 않는 대신에 프로세서 내의 코어 수가 늘어나고 있는 실정으로 프로그래밍 속도 향상을 위한 방법에 대한 연구가 필수적이라 할 수 있다. 이에 본 논문에서는 현재 연산 가속화를 위해 사용되는 매니 코어 프로세서의 대표적인 인텔 제온 파이의 성능 분석을 위하여 퀀텀 에스프레소를 활용하였다. 또한 제온 파이에서 MPI 실행시 랭크의 수를 변화시키면서 성능 벤치마킹을 수행하여 하드웨어적인 성능 특성을 연구하였다. 그 결과 물리 코어가 57개인 제온파이 프로세서의 하나의 코어당 4개의 작업을 처리할 때 가장 좋은 성능을 나타내고 있으며, 물리 코어 하나에 MPI 랭크수를 4개 이상 확장하면 성능향상이 거의 일어나지 않는다. 이러한 융합 기술을 통하여 퀀텀 에스프레소의 성능 향상과 제온 파이의 하드웨어적인 특성을 확인할 수 있다.

위치별 산란특성을 반영한 측정기반 얼굴 렌더링 (Measurement-based Face Rendering reflecting Positional Scattering Properties)

  • 박선용;오경수
    • 한국게임학회 논문지
    • /
    • 제9권5호
    • /
    • pp.137-144
    • /
    • 2009
  • 이 논문은 피하산란의 정도가 다를 것으로 예상되는 얼굴의 6개의 부위를 촬영하여 각각의 산란특성을 추출하고 렌더링에 반영하여 얼굴의 사실감 있는 표현이 가능한 방법을 제안한다. 각 부위별 산란이미지는 프로젝터로부터 피부에 입사된 단위광선이 내부 산란을 거쳐 밖으로 드러나는 모양을 여러 노출로 촬영하여 HDR 이미지로 합성하고, 비선형 최소제곱합의 해법 중 Sequential Quadratic Programming을 이용하여 광선의 입사지점을 지나는 단면이 이루는 곡선에 '가우스 함수의 선형결합'을 적합한다. 가우스 함수는 산란곡선을 잘 근사하면서 필터로서 적용이 쉬운 장점을 가진다. 우리는 최소제곱합의 해가 지역 해에 빠지는 않도록 유전알고리듬을 이용해 초기 값을 설정한다. 근사된 식의 각 가우스 항은 얼굴에 입사되는 복사조도를 렌더링한 텍스처에 가우스 필터로 적용되어 피하산란효과를 표현. 이 논문에서는 최대 12회의 가우스 필터링을 효율적으로 처리하기 위해 쿠다의 병렬처리능력를 활용하였다.

  • PDF