• 제목/요약/키워드: SIMD 구조

검색결과 70건 처리시간 0.024초

SIMD 구조의 다중 프로세서를 이용한 NTGST의 병렬고속화 (Parallel Speedup of NTGST on SIMD type Multiprocessor)

  • 김복만;서경석;김종화;최흥문
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(4)
    • /
    • pp.127-130
    • /
    • 2001
  • 본 논문에서는 SIMD (Single Instruction stream and Multiple Data stream)형 병렬 구조의 다중 프로세서를 이용하여 NTGST (noise-tolerant generalized symmetry transform)를 병렬 고속화하였다. 먼저 NTGST의 화소 및 영상 영역간의 계산 독립성을 이용하여 영상을 분할하여 P개의 프로세서에 할당하고, 이들 각각을 N개의 데이터를 한번에 처리하는 SIMD 구조로 병렬화하여 NP에 비례하는 속도 향상을 얻었다. 실험에서 MMX 기술의 펜티엄 Ⅲ 프로세서를 2개 사용하여 제안한 알고리즘이 기존의 NTGST 보다 8배 가까이 고속으로 처리됨을 확인하였다.

  • PDF

저비용 내장형 멀티미디어 프로세서를 위한 분할 레지스터 접근 구조 (A Partial Access Mechanism on a Register for Low-cost Embedded Multimedia ASIP)

  • 조민영;정하영;이용석
    • 대한전자공학회논문지SD
    • /
    • 제45권9호
    • /
    • pp.50-56
    • /
    • 2008
  • 본 논문은 저비용 내장형 멀티미디어 프로세서를 위한 레지스터 분할 접근 구조를 제안한다. 저비용 내장형 시스템에서 SIMD 명령어 지원은 SIMD 지원 레지스터 파일과 실행유닛들의 추가에 따른 비용의 증가 때문에 적용이 어렵다. 제안한 구조는 하드웨어의 부담을 최소화하면서 SIMD 연산 수행을 지원하여 전체적인 성능을 향상 시킬 수 있는 구조다. ASIP을 설계하여 제안한 구조를 적용시켰으며 DSP 벤치마크에서 명령어 적용에 따른 실행 사이클의 변화를 비교하였다. 설계한 ASIP을 TSMC 0.25$\mu$m 공정으로 합성하여 제안한 구조 적용에 따른 면적 증가 및 전체적인 성능 향상을 분석하였다. 실험 결과 제안한 구조는 성능은 약 38% 향상되었고, 면적은 13.4% 증가하였다.

SIMD 기반의 효율적인 4$\times$4 정수변환 방법 (An Efficient 4$\times$4 Integer Transform Algorithm on SIMD)

  • 유상준;오승준;안창범
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.55-57
    • /
    • 2004
  • DCT(Discrete Cosine Transform)는 현존하는 블록기반 영상 압축 코딩기법의 핵심이 되는 부분이다. 많은 고속 방법이 제안되었으며, 최근 들어 SIMD 병렬구조를 이용한 고속방법들이 제안되고 있다. 본 논문에서는 SIMD명령어를 가지는 프로세서에서 4$\times$4 정수변환의 속도를 최적화하기 위한 알고리즘을 제안한다. 본 논문에서 제안하는 알고리즘은 128비트 SIMD영령어로 확장이 가능하며 비슷한 구조를 가지는 Hadamard 변환에서 적용할 수 있다. 제안하는 방법을 펜티엄4 2.4G에서 구현할 경우 H.264 참조 부호화기의 4$\times$4 정수변환 방법보다 64비트 SIMD 명령어를 사용할 경우 4.34배 128-bit SIMD 명령어를 사용할 경우 6.77배의 성능을 얻을 수 있다.

  • PDF

SIMD 구조를 갖는 프로세서에서 FFT 연산 가속화 (Acceleration of FFT on a SIMD Processor)

  • 이주영;홍용근;이현석
    • 전자공학회논문지
    • /
    • 제52권2호
    • /
    • pp.97-105
    • /
    • 2015
  • 이 논문은 SIMD 구조를 갖는 프로세서에서 FFT 연산을 효과적으로 처리하는 방법에 대한 것이다. FFT는 디지털 신호처리 분야에서 널리 사용되는 범용 알고리즘으로 이의 효과적인 처리는 성능 향상에 있어서 매우 중요하다. Bruun 알고리즘은 반복적인 인수분해를 통해 구현되는 FFT 알고리즘으로, 널리 사용되는 Cooley-Tukey 알고리즘에 비해 복소수 곱셈이 아닌 실수 곱셈으로 대부분의 동작을 수행하는 장점을 가지고 있으나, SIMD 프로세서에서 구현하는 데는 벡터 데이터의 정렬 형태가 복잡하고 연산에 필요한 계수들을 저장할 메모리를 더 필요로 하는 단점이 있다. 실험 결과에 따르면 길이 1024인 FFT 연산을 SIMD 프로세서에서 수행하는데 있어서 Bruun 알고리즘은 Cooley-Tukey 알고리즘에 비해서 약 1.2배의 더 높은 처리성능을 보이지만, 약 4 배 더 큰 데이터 메모리를 필요로 한다. 따라서 데이터 메모리에 대한 제약이 큰 경우가 아니라면 SIMD 프로세서에서 Bruun 알고리즘이 FFT 연산에 적합하다.

모바일 3차원 그래픽스 시스템에 적용 가능한 SIMD 구조를 갖는 래스터라이저의 하드웨어 구현 (Hardware Implementation of Rasterizer with SIMD Architecture Applicable to Mobile 3D Graphics System)

  • 하창수;성광주;최병윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.313-315
    • /
    • 2010
  • 본 논문에서는 모바일 3차원 그래픽스 시스템에 적용 가능한 SIMD 구조를 갖는 래스터라이저를 하드웨어로 구현하고 FPGA로 검증한 내용을 기술한다. 타일 기반의 스캔 컨버전 회로는 4개의 타일이 동시에 동작하는 SIMD 구조를 따르며 각 타일은 3단계의 계층적 탐색을 통해 타일 내의 방문횟수를 최소화 한다. 실험을 통해 $8{\times}8$ 크기의 타일이 가장 효율적인 것으로 판단되었으며, 계층적 탐색의 마지막 단계에는 $2{\times}2$ 크기의 서브타일을 탐색하게 된다. 플랫 쉐이딩과 고라우드 쉐이딩을 지원하며, 텍스쳐 매핑 회로는 어파인 매핑과 원근보정이 적용된 매핑을 지원한다. 또한 텍스쳐 매핑 회로의 필터링 모드는 포인트 샘플링 방식과 2차 선형 보간 방식을 지원하며, 두 가지의 wrap 모드와 다양한 블렌딩 모드를 지원하도록 설계되어 있다. Xilinx Vertex4 LX100 디바이스를 기준으로 약120Mhz의 동작 속도를 가지며 텍스쳐 메모리와 프레임 버퍼는 검증을 용이하게 하기위해 블록 램으로 설계되었다.

  • PDF

SIMD 벡터 명령어를 이용한 다차원 레코드 스캔 (Multi-Dimensional Record Scan with SIMD Vector Instructions)

  • 조성룡;한환수;이상원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권6호
    • /
    • pp.732-736
    • /
    • 2010
  • 대량의 데이터 처리 영역에 대한 중요성이 증가하는 가운데 다차원의 속성을 갖는 레코드에 대한 스캔을 필요로 하는 질의처리에 있어 SIMD 명령어 셋을 이용하여 보다 효율적인 스캔성능을 얻을 수 있다. 이러한 배경하에서 이 논문에서 제시하는 기법인 'SIMD 레코드 스캔'은 행-기반의 스캔으로 열-기반의 저장구조를 갖는 기존의 메모리 기반 데이터베이스 시스템에서 조건식 처리나 집계연산등에서의 연산성능을 높이기 위해 열에 종속적으로 SIMD 명령어를 이용하던 것과는 달리 다차원 속성들의 비교가 요구되는 레코드 스캔에서의 효율을 높일 수 있다. 이는 레지스터 및 시스템 메모리의 크기가 증가함에 따라 더 큰 성능향상을 가져올 수 있으며, 멀티코어 기반의 병렬화 기법과 독립적이므로 SIMD를 지원하는 단일 프로세서뿐 아니라 이들로 구성된 멀티코어 프로세서에도 기존 시스템이나 아키텍처를 변경하지 않고도 적용이 가능하다.

근사 덧셈을 사용하는 SIMD 포화 덧셈기 (SIMD Saturation Adder using Approximate Addition)

  • 윤준기;오형철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.691-693
    • /
    • 2004
  • 0.18$\mu\textrm{m}$ 표준 셀 라이브러리로 구현할 때 2.69㎱의 임계 경로 지연을 가지는 SIMD구조의 포화 덧셈기를 설계하였다. 기존의 설계에서 임계 경로를 구성하는 CLA를, 8비트까지만 자리올림(Carry)이 전파될 때 정확한 계산을 보장하는 근사 덧셈기의 형태로 설계한 결과, 임계 경로 시간 지연을 약 22% 감소시킬 수 있었다. 파이프라인 구조 프로세서에서 사용될 포화 덧셈기의 근사계산이 실패하는 경우에는, 추가적인 2개의 클록주기 동안 재 계산을 수행하게 된다.

  • PDF

SIMD를 이용한 HEVC 하다마드 트랜스폼의 고속 구현 (Fast implementation of Hadamard transformation of HEVC with SIMD)

  • 유종훈;조현호;심동규
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 추계학술대회
    • /
    • pp.307-309
    • /
    • 2011
  • 본 논문에서는 SIMD(Single Instruction Multiple Data) 프로세서를 사용한 HEVC 부호화기의 하다마트 트랜스폼 고속화를 제안한다. 본 논문에서는 MMX와 SSE 레지스터를 사용하여 하다마드 트랜스폼을 SIMD 연산으로 대체함으로써 메모리 접근 횟수와 명령어의 수를 줄여 부호화기를 고속화하였다. 또한, HEVC의 10비트 입력에 따른 SIMD 구조의 비효율적인 구현을 해결하기 위하여 하다마드 트랜스폼의 입력 픽셀 비트수를 감소시키는 IBDD(Internal Bit Depth Decreasing)를 제안했다. HEVC 부호화기에 하다마드 트랜스폼을 SIMD 연산으로 대체한 결과 부호화 효율의 저하 없이, 부호화기의 수행 시간은 10% 감소되었다.

  • PDF

SIMD상에서의 이차선별법을 사용한 병렬 소인수분해 알고리즘 (Parallel Factorization using Quadratic Sieve Algorithm on SIMD machines)

  • 김양희
    • 정보처리학회논문지A
    • /
    • 제8A권1호
    • /
    • pp.36-41
    • /
    • 2001
  • 본 논문에서는 첫째로 큰 정수의 소인수 분해를 위한 병렬 이차선별법(parallel quadratic sieve) 알고리즘을 제시한다. 이 알고리즘을 반복적으로 사용하여, 분산 메모리 모델(DMM)을 갖는 SIMD구조의 병렬 컴퓨터 상에서 분할정복기법을 사용하는 병력 소인수 분해(parallel factoring) 알고리즘을 제시한다. 또한 이러한 알고리즘이 시간과 프로세서의 곱의 관점에서 최적화 알고리즘임을 보인다.

  • PDF

SIMD 최적화를 이용한 CPU 기반 그래프 엔진의 성능 개선 (SIMD Optimization for Improving the Performance of a CPU-Based Graph Engine)

  • 조익현 ;장명환;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.383-385
    • /
    • 2023
  • Single-machine-based 그래프 엔진의 state-of-the-art 모델인 RealGraph 는 쓰레드를 이용한 병렬화로 성능을 향상하였으나 쓰레드 내부에서의 병렬성은 고려되지 않았다. 본 논문은 SIMD 명령어를 이용해 RealGraph 의 병렬성을 향상시켰다. 쓰레드 내부의 효율성을 높이기 위해 RealGraph 의 구조와 그래프 알고리즘의 분석을 통한 SIMD 명령어의 적용 가능한 영역을 탐색하였다. 실험으로 SIMD 명령어의 적용을 통해 쓰레드 내부에서 벡터 연산을 수행하여 평균 7.6%, 11.7%, 9.2%의 수행 시간 단축을 이끌어냈으며 SIMD 명령어의 적용이 그래프 엔진의 분석 성능에 얼마나 도움이 될 수 있는지 확인하였다.