• 제목/요약/키워드: dataflow

검색결과 41건 처리시간 0.026초

인공지능 가속기 데이터 흐름 다양성에 대한 연구 (A Study on the Dataflow Diversity of Al accelerator)

  • 이동주;백윤흥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.482-484
    • /
    • 2023
  • 인공지능 가속기는 인공 지능 및 기계 학습 응용 프로그램의 연산을 더 빠르게 수행하도록 설계된 하드웨어 가속기이다. 인공지능 가속기 내에서 데이터가 효율적으로 처리되기 위해서는 그 흐름을 제어해야 한다. 데이터의 흐름을 제어하는 방법에 따라 가속기의 면적, 전력, 성능의 차이가 발생하는데, 그 다양한 데이터 흐름 제어방법에 대해 소개한다.

Static Type Assignment for SSA Form in CTOC

  • Kim, Ki-Tae;Yoo, Weon-Hee
    • Journal of Information Processing Systems
    • /
    • 제3권1호
    • /
    • pp.26-32
    • /
    • 2007
  • Although the Java bytecode has numerous advantages, it also has certain shortcomings such as its slow execution speed and difficulty of analysis. In order to overcome such disadvantages, a bytecode analysis and optimization must be performed. The control flow of the bytecode should be analyzed; next, information is required regarding where the variables are defined and used to conduct a dataflow analysis and optimization. There may be cases where variables with an identical name contain different values at different locations during execution, according to the value assigned to a given variable in each location. Therefore, in order to statically determine the value and type, the variables must be separated according to allocation. In order to achieve this, variables can be expressed using a static single assignment form. After transformation into a static single assignment form, the type information of each node expressed by each variable and expression must be configured to perform a static analysis and optimization. Based on the basic type information, this paper proposes a method for finding the related equivalent nodes, setting nodes with strong connection components, and efficiently assigning each node type.

계층화 모션 추정법과 병렬처리를 이용한 차량 움직임 측정 알고리즘 개발 및 구현 (Design and Implementation of Algorithms for the Motion Detection of Vehicles using Hierarchical Motion Estimation and Parallel Processing)

  • 강경훈;정성태;이상설;남궁문
    • 한국멀티미디어학회논문지
    • /
    • 제6권7호
    • /
    • pp.1189-1199
    • /
    • 2003
  • 본 논문에서는 계층화 모션 추정법과 병렬 처리를 이용한 차량의 움직임 측정 알고리즘을 제안한다. 본 시스템에서는 CMOS 센서를 통하여 도로 영상을 캡쳐한다. 그 다음에 영상을 작은 블록들로 나누고 블록매칭을 이용하여 각 블록의 움직임을 계산한다. 그리고 움직임이 비슷한 블록들을 클러스터링하여 차량의 움직임을 측정한다. 본 논문에서는 실시간 동작을 위하여 계층화 모션 추정법과 병렬 처리에 의거한 블록매칭 알고리즘을 제안한다. 병렬처리를 위해서는 파이프라인과 데이터 플로우 기법을 도입하였다. 본 논문에서 제안된 시스템은 기존의 내장형 시스템을 이용하여 구현되었다. 제안된 블록매칭 알고리즘은 PLD(Programmable Logic Device)를 이용하여 구현하였고 클러스터링 알고리즘은 ARM 프로세서를 이용하여 구현하였다. 실험 결과에 의하면 본 논문에서 구현된 시스템은 차량의 움직임을 실시간으로 추출할 수 있었다.

  • PDF

압축센싱 디지털 수신기 신호처리 로직 구현 (Signal Processing Logic Implementation for Compressive Sensing Digital Receiver)

  • 안우현;송장훈;강종진;정웅
    • 한국군사과학기술학회지
    • /
    • 제21권4호
    • /
    • pp.437-446
    • /
    • 2018
  • This paper describes the real-time logic implementation of orthogonal matching pursuit(OMP) algorithm for compressive sensing digital receiver. OMP contains various complex-valued linear algebra operations, such as matrix multiplication and matrix inversion, in an iterative manner. Xilinx Vivado high-level synthesis(HLS) is introduced to design the digital logic more efficiently. The real-time signal processing is realized by applying dataflow architecture allowing functions and loops to execute concurrently. Compared with the prior works, the proposed design requires 2.5 times more DSP resources, but 10 times less signal reconstruction time of $1.024{\mu}s$ with a vector of length 48 with 2 non-zero elements.

컴포넌트 기반 개발에서 처리 부품들의 합성을 검증하는 방안 (A Validation Technique for Process Component Composition in the Component-Based Development Process)

  • 주복규;김영철
    • 정보처리학회논문지D
    • /
    • 제8D권6호
    • /
    • pp.691-698
    • /
    • 2001
  • 컴포넌트 기반 소프트웨어 개발 방법은 점증하는 소프트웨어의 복잡성에 대처하고, 생산성을 높일 수 있는 가장 주요한 수단의 하나로 인식되고 있다. 이 논문은 자료흐름 시스템 구조에 따른 설계서로 부품을 합성하여 소프트웨어를 개발하는 경우에, 두 부품의 영역관계를 분석하였다. 그 결과로 조립 시에 개별 부품들의 시험 자료를 이용하여 통합을 위한 시험 자료를 생성하는 방안을 제시하였으며, 이는 통합을 효과적으로 검증할 수 있게 해 준다. 또한 실험을 통해서 제안된 기법의 실제 적용 가능성을 보였다. 이 연구에서 사용한 영역 분석은 영역 시험 기법을 응용한 것이다.

  • PDF

데이터 플로우 기반 응용들을 위한 GPU 스케줄링 프레임워크 (A GPU scheduling framework for applications based on dataflow specification)

  • 이용빈;김성찬
    • 한국멀티미디어학회논문지
    • /
    • 제17권10호
    • /
    • pp.1189-1197
    • /
    • 2014
  • Recently, general purpose graphic processing units(GPUs) are being widely used in mobile embedded systems such as smart phone and tablet PCs. Because of architectural limitations of mobile GPGPUs, only a single program is allowed to occupy a GPU at a time in a non-preemptive way. As a result, it is difficult to meet performance requirements of applications such as frame rate or response time if applications running on a GPU are not scheduled properly. To tackle this difficulty, we propose to specify applications using synchronous data flow model of computation such that applications are formed with edges and nodes. Then nodes of applications are scheduled onto a GPU unlike conventional scheduling an application as a whole. This approach allows applications to share a GPU at a finer granularity, node (or task)-level, providing several benefits such as eliminating need for manually partitioning applications and better GPU utilization. Furthermore, any scheduling policy can be applied in response to the characteristics of applications.

벡타 연산을 효율적으로 수행하기 위한 다중 스레드 구조 (A Multithreaded Architecture for the Efficient Execution of Vector Computations)

  • 윤성대;정기동
    • 한국정보처리학회논문지
    • /
    • 제2권6호
    • /
    • pp.974-984
    • /
    • 1995
  • 본 논문에서는 벡타연산을 효율적으로 수행하고 대단위 병렬시스템을 지원하는 다중 스레드구조, MULVEC(MULtithreaded architecture of the VEctor Computations) 을 제시한다. MULVEC은 데이타플로우 모델에 수퍼 스칼라 RISC 마이크로 프로세서를 갖는 기존의 폰 노이만 모델을 도입하였다. 그리고 동일한 스레드 세그멘트내에 벡타 연산이 반복되는 경우에 상태필드를 이용하여 동기화의 수를 감축시켰으며, 이에 의해 문맥전환 횟수, 통신량 등을 감소시켰다. 그리고 노드 수의 변화에 대한 MULVEC의 성능평가(프로그램들의 수행시간, 프로세서들의 이용율)와 *T의 성능평가(프로그램의 수행시간)를 SPARC station 20 (super scalar RISC microprocessor)에서 시뮬레이션을 하였으며, 노드의 수, 루프의 반복홋수 등에 따라 프로그램의 수행시간이 MULVEC이 *T보 다 약 1-2배 정도 빠르다는 것을 알 수 있었다.

  • PDF

자료흐름도에 기반한 관계형 데이터베이스의 설계방법 (A Design Methodology of Relational Database Based on Dataflow Diagram)

  • 엄윤섭;권중장;정희석;김창동
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 추계종합학술대회
    • /
    • pp.615-618
    • /
    • 2003
  • 관계형 데이터베이스의 설계 과정은 요구사항 분석, ER 모델을 이용한 개념적 설계, 논리적 설계, 그리고 물리적 설계 과정으로 구성된다. 논리적 설계과정은 ER 다이어그램으로 구성된 개념적 스키마를 관계형 스키마로 전환하여 정규화시키는 과정으로 이루어진다. 이런 기존의 설계 과정에서 요구사항의 분석후 개념적 스키마를 도출하는 개념적 설계 과정이 명확치 않음으로 인해서, 실제 데이터베이스 설계현장에서 적용하기 어려운 점이 있다. 본 논문에서는 작업과정이 모호한 개념적 설계를 제거함으로 보다 체계적으로 데이터베이스 스키마를 설계할 수 있는 방법을 제안한다. 구조적 설계 방법을 이용하여 자료흐름도를 작성하고, 자료흐름도의 자료저장소에 파악된 애트리뷰트를 이용하여 관계합성으로 관계형 스키마를 도출한다. 관계형 스키마를 정규화하고, 정규화된 테이블로부터 데이터의 의미를 파악하여 테이블 관계도를 작성함으로써 최종 논리적 스키마를 결정한다.

  • PDF

다중스레드 모델의 성능 향상을 위한 가용 레지스터 기반 캐슁 기법 (A Register-Based Caching Technique for the Advanced Performance of Multithreaded Models)

  • 고훈준;권영필;유원희
    • 정보처리학회논문지A
    • /
    • 제8A권2호
    • /
    • pp.107-116
    • /
    • 2001
  • A multithreaded model is a hybrid one which combines locality of execution of the von Neumann model with asynchronous data availability and implicit parallelism of the dataflow model. Much researches that have been made toward the advanced performance of multithreaded models are about the cache memory which have been proved to be efficient in the von Neumann model. To use an instruction cache or operand cache, the multithreaded models must have cache memories. If cache memories are added to the multithreaded model, they may have the disadvantage of high implementation cost in the mode. To solve these problems, we did not add cache memory but applied the method of executing the caching by using available registers of the multithreaded models. The available register-based caching method is one that use the registers which are not used on the execution of threads. It may accomplish the same effect as the cache memory. The multithreaded models can compute the number of available registers to be used during the process of the register optimization, and therefore this method can be easily applied on the models. By applying this method, we can also remove the access conflict and the bottleneck of frame memories. When we applied the proposed available register-based caching method, we found that there was an improved performance of the multithreaded model. Also, when the available-register-based caching method is compared with the cache based caching method, we found that there was the almost same execution overhead.

  • PDF

복수 메모리 타일을 가진 NoC 매니코어 플랫폼에서의 태스크-타일 바인딩 기술 (Task-to-Tile Binding Technique for NoC-based Manycore Platform with Multiple Memory Tiles)

  • 강진택;김태영;김성찬;하순회
    • 정보과학회 논문지
    • /
    • 제43권2호
    • /
    • pp.163-176
    • /
    • 2016
  • NoC 아키텍쳐에서는 데이터의 통신이 한 채널에 집중되는 경우 경합이 일어나서 통신이 지연될 수 있다. 이러한 지연을 최소화시키는 것을 목표로 본 논문에서는 NoC 기반 매니코어 플랫폼에서 태스크 매핑이 완료된 이후, 매핑된 태스크들을 NoC 타일로 바인딩하기 위한 기법을 제안한다. 큰 규모의 플랫폼은 복수의 메모리 타일을 가질 수 있으므로 응용별로 사용하는 메모리를 다르게 하여 메모리별 부하를 분산시키기 위한 메모리 클러스터링 기법을 사용한다. 수행된 응용은 데이터플로우 기반으로 작성되어 있으므로 응용들의 통신 요구량에 대한 정보를 미리 알 수 있다고 가정한다. 이 정보를 바탕으로 본 논문에서는 여러 태스크를 동시에 바인딩하는 두개의 휴리스틱을 제안하였으며 각 휴리스틱은 적절한 메모리 클러스터링 기법을 활용한다. NoC 시뮬레이터를 이용한 실험을 통해 제안된 휴리스틱이 기존의 바인딩 휴리스틱에 비해 최대 25% 이상의 성능을 보이는 것을 확인하였다.