• 제목/요약/키워드: SIMD Computer

검색결과 64건 처리시간 0.022초

SIMD 최적화를 이용한 CPU 기반 그래프 엔진의 성능 개선 (SIMD Optimization for Improving the Performance of a CPU-Based Graph Engine)

  • 조익현 ;장명환;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.383-385
    • /
    • 2023
  • Single-machine-based 그래프 엔진의 state-of-the-art 모델인 RealGraph 는 쓰레드를 이용한 병렬화로 성능을 향상하였으나 쓰레드 내부에서의 병렬성은 고려되지 않았다. 본 논문은 SIMD 명령어를 이용해 RealGraph 의 병렬성을 향상시켰다. 쓰레드 내부의 효율성을 높이기 위해 RealGraph 의 구조와 그래프 알고리즘의 분석을 통한 SIMD 명령어의 적용 가능한 영역을 탐색하였다. 실험으로 SIMD 명령어의 적용을 통해 쓰레드 내부에서 벡터 연산을 수행하여 평균 7.6%, 11.7%, 9.2%의 수행 시간 단축을 이끌어냈으며 SIMD 명령어의 적용이 그래프 엔진의 분석 성능에 얼마나 도움이 될 수 있는지 확인하였다.

SIMD 명령어 기반 HEVC RExt 복호화기 고속화 (SIMD Instruction-based Fast HEVC RExt Decoder)

  • 목정수;안용조;류호찬;심동규
    • 방송공학회논문지
    • /
    • 제20권2호
    • /
    • pp.224-237
    • /
    • 2015
  • 본 논문은 HEVC RExt (High Efficiency Video Coding Range Extension)을 위한 SIMD (Single Instruction Multiple Data) 명령어 기반의 고속 복호화 방법을 소개한다. RExt의 화면 내 예측, 보간필터, 역-양자화, 역-변환, 클리핑 모듈들은 반복적인 산술 연산 혹은 논리 연산을 수행하는 구조로써 SIMD 명령어 집합을 적용하기 적합한 모듈로 분류할 수 있다. 본 논문은 RExt의 증가한 비트 심도를 고려하여 화면 내 예측, 보간필터, 역-양자화, 역-변환, 클리핑 모듈을 SSE (Streaming SIMD Extension) 명령어 집합을 이용하여 연산하는 방법을 소개한다. 또한, 256비트 레지스터를 사용할 수 있는 AVX2 (Advanced Vector eXtension 2) 명령어 집합을 이용하여 보간필터, 역-양자화, 클리핑 모듈의 연산을 효율적으로 연산하는 방법을 제안한다. 본 논문에서 제안하는 SIMD 명령어 기반의 고속 복호화 방법은 HEVC 참조 소프트웨어 HM 16.0을 기반으로 자체 개발한 HEVC RExt 복호화기에서 기존의 순차적 연산 방식 대비 평균 12%의 속도향상을 얻을 수 있었다.

효율적인 영상데이터 처리를 위한 SIMD기반 매니코어 프로세서 구현 (Implementation of SIMD-based Many-Core Processor for Efficient Image Data Processing)

  • 최병국;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권1호
    • /
    • pp.1-9
    • /
    • 2011
  • 최근 모바일 멀티미디어 기기들의 사용이 증가하면서 고성능, 저전력 멀티미디어 프로세서에 대한 필요성이 높아지고 있는 추세이다. 주문형반도체 (ASIC)는 모바일 멀티미디어에서 요구되는 고성능을 만족시키지만 다양한 형태의 멀티미디어 애플리케이션에서 요구되는 범용성을 만족시키지 못한다. 반면 DSP기반의 시스템은 범용성에 기인하여 다양한 형태의 애플리케이션에서 사용될 수 있으나, 주문형반도체 보다 높은 가격, 전력소모 및 낮은 성능을 가진다. 이러한 문제점을 해결하기 위해 본 논문에서는 범용성을 유지하면서 고성능, 저전력으로 영상데이터 처리가 가능한 단일 명령어 다중 데이터(Single Instruction Multiple Data, SIMD)처리 방식의 매니코어 프로세서를 제안한다. 제안한 SIMD기반 매니코어 프로세서는 16개의 프로세싱 엘리먼트(processing element, PE)로 구성되어 영상데이터 처리에 내재한 무수한 데이터 레벨 병렬성을 높인다. 모의 실험한 결과, 제안한 SIMD기반 매니코어 프로세서는 현재 상용 고성능 프로세서보다 평균 22배의 성능, 7배의 에너지 효율 및 3배의 시스템 면적 효율을 보였다.

SIMD기법에 의한 H.263 코덱의 PC기반 실시간 구현 (PC-Based Realtime Implementation of H.263 CODEC Using SIMD Method)

  • 하교동;남수영;김남철
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.947-950
    • /
    • 2001
  • This paper implements H.263 codec using SIMD(single instruction multiple data) method in real time based on PC. This system uses INS algorithm previously proposed by the authors as motion estimation module. SIMD method is used in DCT, IDCT, quantization, motion estimation, and display module. The developed algorithms are implemented using TMN5. Using the above algorithm, H.263 Codec can communicate more than 15 frames/sec in CIF resolution on a Pentium-IV 1.7GHz computer.

  • PDF

모바일 3차원 그래픽스 시스템에 적용 가능한 SIMD 구조를 갖는 래스터라이저의 하드웨어 구현 (Hardware Implementation of Rasterizer with SIMD Architecture Applicable to Mobile 3D Graphics System)

  • 하창수;성광주;최병윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.313-315
    • /
    • 2010
  • 본 논문에서는 모바일 3차원 그래픽스 시스템에 적용 가능한 SIMD 구조를 갖는 래스터라이저를 하드웨어로 구현하고 FPGA로 검증한 내용을 기술한다. 타일 기반의 스캔 컨버전 회로는 4개의 타일이 동시에 동작하는 SIMD 구조를 따르며 각 타일은 3단계의 계층적 탐색을 통해 타일 내의 방문횟수를 최소화 한다. 실험을 통해 $8{\times}8$ 크기의 타일이 가장 효율적인 것으로 판단되었으며, 계층적 탐색의 마지막 단계에는 $2{\times}2$ 크기의 서브타일을 탐색하게 된다. 플랫 쉐이딩과 고라우드 쉐이딩을 지원하며, 텍스쳐 매핑 회로는 어파인 매핑과 원근보정이 적용된 매핑을 지원한다. 또한 텍스쳐 매핑 회로의 필터링 모드는 포인트 샘플링 방식과 2차 선형 보간 방식을 지원하며, 두 가지의 wrap 모드와 다양한 블렌딩 모드를 지원하도록 설계되어 있다. Xilinx Vertex4 LX100 디바이스를 기준으로 약120Mhz의 동작 속도를 가지며 텍스쳐 메모리와 프레임 버퍼는 검증을 용이하게 하기위해 블록 램으로 설계되었다.

  • PDF

SIMD상에서의 이차선별법을 사용한 병렬 소인수분해 알고리즘 (Parallel Factorization using Quadratic Sieve Algorithm on SIMD machines)

  • 김양희
    • 정보처리학회논문지A
    • /
    • 제8A권1호
    • /
    • pp.36-41
    • /
    • 2001
  • 본 논문에서는 첫째로 큰 정수의 소인수 분해를 위한 병렬 이차선별법(parallel quadratic sieve) 알고리즘을 제시한다. 이 알고리즘을 반복적으로 사용하여, 분산 메모리 모델(DMM)을 갖는 SIMD구조의 병렬 컴퓨터 상에서 분할정복기법을 사용하는 병력 소인수 분해(parallel factoring) 알고리즘을 제시한다. 또한 이러한 알고리즘이 시간과 프로세서의 곱의 관점에서 최적화 알고리즘임을 보인다.

  • PDF

Advanced SIMD 아키텍처에서의 HOG 보행자 검출기 고속화 방법 (A Speed-up Method of HOG Pedestrian Detector in Advanced SIMD Architecture)

  • 권기표;이재흥
    • 전기전자학회논문지
    • /
    • 제18권1호
    • /
    • pp.106-113
    • /
    • 2014
  • 보행자 검출기는 보안이 필요한 곳에서 모니터링을 하거나 특정 장소를 드나드는 사람의 수를 셀 때, 운전 중 차도에 뛰어드는 사람을 감지할 때 등 상황에 따라 여러 목적으로 응용될 수 있다. 이와 관련한 연구는 많이 진행되어 왔지만, 임베디드 시스템에서는 제한된 컴퓨팅 능력으로 인해 검출 속도가 느리다는 문제가 있다. 본 논문에서는 입력 영상에서 배경 부분을 빠르게 제거하여 검출 속도를 향상하는 방법과 ARM SIMD 아키텍처에서 NEON 병렬화 기법을 이용하여 검출 속도를 향상하는 방법을 제시한다. 제시한 방법으로 구현한 검출기는 INRIA Person Dataset을 이용하여 테스트한 결과 기존에 비해 3.01배의 향상된 속도를 나타냈다.

Advanced SIMD를 이용한 화면 간 예측 고속화방법 (Acceleration Method of Inter Prediction using Advanced SIMD)

  • 김완수;이재흥
    • 전기전자학회논문지
    • /
    • 제16권4호
    • /
    • pp.382-388
    • /
    • 2012
  • 본 논문에서는 ARM Cortex-A9 듀얼코어 플랫폼에서 지원하는 병렬처리 기법 중 하나인 Advanced SIMD기반의 NEON을 적용한 H.264/AVC 고속화 움직임추정 방법론을 연구하였다. 다양한 움직임추정 방법 중 하나인 전역탐색기법에 NEON을 적용하여 각 매크로블록의 SAD 연산횟수를 1/4 감소시켰다. 해당 매크로블록의 픽셀 값들을 8개의 16bit NEON 레지스터에 할당하였고, NEON에서 지원하는 Intrinsic 함수를 사용하여 동시에 128bit 연산을 수행하였다. 이러한 방법으로 계산된 SAD 값들 중 최소 SAD 값을 가지고 정확한 모션벡터를 선정했다. 그 결과 영상의 크기 및 매크로블록의 크기에 따라 성능이 평균 30% 이상 향상되는 효과를 검증하였다.

재구성 Cell을 이용한 Photon mapping SIMD프로세서 설계 (Photon Mapping SIMD Processor Design using Reconfigurable Cell)

  • 류현우;김영진;이현수
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.719-722
    • /
    • 2005
  • The synthesis of the 3D images is the most important part of the virtual reality. The photon mapping is the best method for reality in the 3D graphics. This paper presents an architecture for photon mapping applications on SOC devices. The proposed architecture reduces the computation time to photonmap search and radiance estimation. Also this architecture is implemented by a SIMD processor which trades parallelism for frequency of operation.

  • PDF

고화질 영상에서 고속 안개 제거를 위한 SIMD 구조에 적합한 병렬메모리 (A Parallel Memory Suitable for SIMD Architecture Processing High-Definition Image Haze Removal in High-Speed)

  • 이형
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권7호
    • /
    • pp.9-16
    • /
    • 2014
  • Dark channel prior를 이용한 안개제거 알고리즘으로 만족할만한 연구결과가 발표된 이후로 이 알고리즘의 처리 속도를 높이기 위한 많은 연구들이 진행되었다. 이들 중에서 median dark channel prior를 이용한 알고리즘이 주목을 받고 있지만 여전히 낮은 처리속도의 한계를 갖고 있다. 그래서 본 논문에서는 고화질 영상에서 고속 안개 제거를 위한 SIMD 구조에 적합한 병렬메모리 모델을 제안한다. 제안하는 병렬메모리 모델은 n개의 화소들에 동시에 접근할 수 있으며, 3, 5, 7 또는 11의 크기를 갖는 4가지 종류의 median filter를 위한 간격들을 허용한다. 그래서 충분한 데이터 대역폭을 지원하기에 median dark channel prior를 이용한 알고리즘을 고속으로 처리할 수 있다.