• 제목/요약/키워드: Vector instruction

검색결과 34건 처리시간 0.02초

병렬 컴퓨팅 시스템에서 LLVM 응용 연구 (Study on LLVM application in Parallel Computing System)

  • 조중석;조두산;김용연
    • 문화기술의 융합
    • /
    • 제5권1호
    • /
    • pp.395-399
    • /
    • 2019
  • 다양한 병렬 컴퓨팅 시스템을 지원하기 위해서는 LLVM IR을 벡터/행렬을 보다 효과적으로 지원할 수 있도록 확장하는 것과 LLVM IR을 machine code로 바꾸어 주는 부분을 새로운 알고리즘으로 설계하여 구현하면 된다. IR 예제에서 보았듯이 기본적으로 RISC 명령어로 구성되어 있기 때문에 RISC 명령어 생성은 자연스럽게 생성되며, 벡터 또한 현재 지원가능한데 행렬 명령어는 지원되지 못하고 있다. 벡터/행렬을 보다 강력하게 지원하기 위한 새로운 IR 구조, 명령어 생성 알고리즘 및 관련 부분의 확장이 필요하다. 이를 위해 LLVM IR의 각 명령어를 (벡터/행렬을 위한) target architecture의 적당한 명령어로 mapping을 해주는 부분 (instruction selection 알고리즘)이 중요하다. LLVM IR 명령어의 의미를 파악하고, target architecture의 각 명령어 의미와 syntax를 비교하여, 패턴이 일치하는 명령어를 선택하여 mapping을 효율적으로 해줘야 한다.

Design of Vector Register Architecture in DSP Processor for Efficient Multimedia Processing

  • Wu, Chou-Pin;Wu, Jen-Ming
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제7권4호
    • /
    • pp.229-234
    • /
    • 2007
  • In this paper, we present an efficient instruction set architecture using vector register file hardware to accelerate operation of general matrix-vector operations in DSP microprocessor. The technique enables in-situ row-access as well as column access to the register files. It can reduce the number of memory access significantly. The technique is especially useful for block-based video signal processing kernels such as FFT/IFFT, DCT/IDCT, and two-dimensional filtering. We have applied the new instruction set architecture to in-loop deblocking filter processing in H.264 decoder. Performance comparisons show that the required load/store operations for the in-loop deblocking filter can be reduced about 42%. The architecture would improve the processing speed, and code density in DSP microprocessor especially for video signal processing substantially.

구조성 데이터의 입체식 계수기법에 의한 벡터 처리개념의 설계 (An Architecture of Vector Processor Concept using Dimensional Counting Mechanism of Structured Data)

  • 조영일;박장춘
    • 한국정보처리학회논문지
    • /
    • 제3권1호
    • /
    • pp.167-180
    • /
    • 1996
  • 스칼라 처리지향의 기계에서 벡터 처리를 위해서는 스칼라 처리가 벡터 요소 수 만큼 수행되어야 한다. 소위 von Neumann원리에 의한 벡터 처리기법이다. 메모리를 악세스 하는 장치로는 명령어의 순차적 계수를 위한 프로그램 계수기 뿐이기 때문에 벡터 데이터의 악세스는 명령어의 지시나 또는 ALU 의 주소 계산에 의해 수행되어 야 한다. 여기서는 재래식 개념의 하드웨어적 결합을 보충하기 위해 벡터 요소들을 입체적으로 악세스하기 위한 악세스 장치의 설계를 제안한다. 벡터의 구조 처리를 위한 필요성은 명령어군에 포함되었고 그들 명령어들은 데이터 처리와 동시에 데이터 악세스 안에 처리되도록 한다.

  • PDF

A Vector Instruction-based RISC Architecture for a Photovoltaic System Monitoring Camera

  • Choi, Youngho;Ahn, Hyungkeun
    • Transactions on Electrical and Electronic Materials
    • /
    • 제13권6호
    • /
    • pp.278-282
    • /
    • 2012
  • Photovoltaic systems have emerged to be one of the cleanest energy systems. Therefore, many large scale solar parks and PV farms have been built to prepare for the post fossil fuel ages. However, due to their large scale, to efficiently manage and operate PV systems, they need to be visually monitored within the range of infrared ray through the Internet. To satisfy this need, the efficient implementation of a high performance video compression standard is required. This paper therefore presents an implementation of H.264 motion estimation, which is one of the most data-intensive and complicated functions in H.264. To achieve this, this work implements vector instructions in hardware and incorporates them in a generic RISC processor architecture, thus increasing the processing speed while minimizing hardware and software design efforts. Extensive simulation results show that this proposed implementation can process motion estimations up to 13 times faster.

마이크로프로세서 전력소모 절감을 위한 명령어 큐 구조 (Instruction Queue Architecture for Low Power Microprocessors)

  • 최민;맹승렬
    • 대한전자공학회논문지SD
    • /
    • 제45권11호
    • /
    • pp.56-62
    • /
    • 2008
  • 현대 마이크로프로세서는 적정수준의 전력소모에 고성능의 애플리케이션성능을 요구한다. 전력소모와 성능향상의 상호보정 측면에서 볼때, 명령어 윈도우(Instruction window)는 특별히 중요한 구성요소이다. 이는 명령어 윈도우의 크기를 확장하면 성능향상을 가능하도록 하지만, 기존의 명령어 구조를 그대로 이용하여 크기만 늘리는 것은 전력소모와 복잡도 측면에서 불리하기 때문이다. 본 연구에서는 전력소모를 감소하기 위해서 직접 검색 테이블(Direct table lookup :DTL)을 사용하여 명령어 윈도우에서 발생하는 연관 검색을 최소화한다. 이를 위해 비트 벡터(bit-vector) 기반의 태그 변환 기법을 제안하여 데이터 종속성 및 자원 충돌 현상을 효과적으로 해결한다. 본 논문에서는 SPEC2000 벤치마크를 활용하여 성능평가를 수행하여 제안된 기법이 기존 방법 대비 24.45%의 전력소모 개선 효과를 나타냄을 확인하였다.

HDL을 이용한 파이프라인 프로세서의 테스트 벡터 구현에 의한 시뮬레이션 (Simulation on a test vector Implementation of a pipeline processor using a HDL)

  • 박두열
    • 한국컴퓨터정보학회논문지
    • /
    • 제5권3호
    • /
    • pp.16-28
    • /
    • 2000
  • 본 연구에서는 HDL을 이용하여 16-비트의 파이프라인 프로세서를 함수적 레벨에서 기술하여 구현하고, 그 프로세서의 동작을 확인하였다. 구현된 파이프라인 프로세서를 시뮬레이션할 때 그 프로세서 내에서 실행되는 테스트 벡터를 기호로 표시된 명령어로 먼저 설정하여 규정하고, 구현된 명령어 세트를 프로그래밍하여 입력하였다. 따라서 본 연구에서 제시된 테스트 벡터를 이용한 시뮬에이션 방법은 프로세서의 동작을 쉽게 확인할 수 있었으며, 정확한 시뮬레이션을 할 수 있었고. HDL을 이용함으로써 구현시 프로세서의 동작을 문서화하는 것이 간편하였다.

  • PDF

목적 코드 레벨에서의 벡터화 기법 (A Vectorization Technique at Object Code Level)

  • 이동호;김기창
    • 한국정보처리학회논문지
    • /
    • 제5권5호
    • /
    • pp.1172-1184
    • /
    • 1998
  • 명령어 재배치는 ILP(Instruction Level Parallelism) 프로세서의 병렬성을 활용하는 주요한 코드 최적화 기법이다. 명령어 재배치 알고리즘을 루프(loop)에 적용하면서 서로 다른 반복(iteration) 사이의 동시 수행 가능한 명령어들이 인접한 위치로 모여지는 소프트웨어 파이프라인(software pipeline)된 루프가 얻어진다. 그러나 루프로부터 병렬성을 추출하는 소프트웨어 파이프라인 방법은 주로 명령어사이의 자료 종속성에 근거하여 스케줄링을 수행하므로 그 자체에 무한한 병렬성을 가지고 있는 벡터 루프의 경우 그 병렬성을 충분히 드러내지 못한다는 문제점을 안고 있다. 본 논문에서는 이러한 벡터루프에 대해 프로그램의 목적 코드 레벨에서 행해질 수 있는 새로운 벡터 스케줄링 방법을 제안한다. 벡터 스케줄링 방법은 프로그램의 목적 코드 레벨에서 루프의 구조나 반복 조건, 그리고 자료 종속성 등에 대한 전체적인 정보에 기반하여 스케줄링을 수행함으로써 소프트웨어 파이프라인 방법보다 프로그램의 수행속도를 향상시킬 수 있다. 본 논문에서는 벡터 스케줄링을 수행한 결과를 전통적인 소프트웨어 파이프라인 방법에 대해 생산된 병렬 루프의 결과와 수행속도 측면에서 비교한다.

  • PDF

모바일 컴퓨팅 플랫폼을 이용한 SDR 기반 MOBILE WIMAX 수신기 구현 (Implementation of Mobile WiMAX Receiver using Mobile Computing Platform for SDR System)

  • 김한택;안치영;김준;최승원
    • 디지털산업정보학회논문지
    • /
    • 제8권1호
    • /
    • pp.117-123
    • /
    • 2012
  • This paper implements mobile Worldwide Interoperability for Microwave Access (WiMAX) receiver using Software Defined Radio (SDR) technology. SDR system is difficult to implement on the mobile handset because of restrictions that are computing power and under space constraints. The implemented receiver processes mobile WiMAX software modem on Open Multimedia Application Platform (OMAP) System on Chip (SoC) and Field Programmable Gate Array (FPGA). OMAP SoC is composed of ARM processor and Digital Signal Processor (DSP). ARM processor supports Single Instruction Multiple Data (SIMD) instruction which could operate on a vector of data with a single instruction and DSP is powerful image and video accelerators. For this reason, we suggest the possibility of SDR technology in the mobile handset. In order to verify the performance of the mobile WiMAX receiver, we measure the software modem runtime respectively. The experimental results show that the proposed receiver is able to do real-time signal processing.

선형대수학의 학습에서 벡터이론은 행렬이론보다 선행되어야 하는가 (Is vector theory prior to matrix theory in teaching of linear algebra)

  • 박홍경;김태완
    • 한국수학사학회지
    • /
    • 제23권2호
    • /
    • pp.89-99
    • /
    • 2010
  • 오늘날 선형대수학은 이론의 기초적 성격과 응용의 풍부성으로 인해 대학수학에 있어서 필수적인 분야로서 자리하고 있다. 벡터이론과 행렬이론은 선형대수학의 주된 분야이다. 본 논문에서는 선형대수학의 학습에서 벡터이론과 행렬이론 중 어느 것을 먼저 도입하는 것이 바람직할 것인가에 대한 질문을 제시할 때 본 연구의 주된 결과, 역사적 순서와는 달리 벡터이론이 행렬이론보다 선행되어야 함을 주장한다.

SIMD 명령어 기반 HEVC RExt 복호화기 고속화 (SIMD Instruction-based Fast HEVC RExt Decoder)

  • 목정수;안용조;류호찬;심동규
    • 방송공학회논문지
    • /
    • 제20권2호
    • /
    • pp.224-237
    • /
    • 2015
  • 본 논문은 HEVC RExt (High Efficiency Video Coding Range Extension)을 위한 SIMD (Single Instruction Multiple Data) 명령어 기반의 고속 복호화 방법을 소개한다. RExt의 화면 내 예측, 보간필터, 역-양자화, 역-변환, 클리핑 모듈들은 반복적인 산술 연산 혹은 논리 연산을 수행하는 구조로써 SIMD 명령어 집합을 적용하기 적합한 모듈로 분류할 수 있다. 본 논문은 RExt의 증가한 비트 심도를 고려하여 화면 내 예측, 보간필터, 역-양자화, 역-변환, 클리핑 모듈을 SSE (Streaming SIMD Extension) 명령어 집합을 이용하여 연산하는 방법을 소개한다. 또한, 256비트 레지스터를 사용할 수 있는 AVX2 (Advanced Vector eXtension 2) 명령어 집합을 이용하여 보간필터, 역-양자화, 클리핑 모듈의 연산을 효율적으로 연산하는 방법을 제안한다. 본 논문에서 제안하는 SIMD 명령어 기반의 고속 복호화 방법은 HEVC 참조 소프트웨어 HM 16.0을 기반으로 자체 개발한 HEVC RExt 복호화기에서 기존의 순차적 연산 방식 대비 평균 12%의 속도향상을 얻을 수 있었다.