• 제목/요약/키워드: Hardware Accelerator

검색결과 112건 처리시간 0.033초

메모리 사용률을 개선한 SURF 알고리즘 특징점 추출기의 하드웨어 가속기 설계 (An Implementation of a Feature Extraction Hardware Accelerator based on Memory Usage Improvement SURF Algorithm)

  • 정창민;곽재창;이광엽
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.77-80
    • /
    • 2013
  • SURF 알고리즘은 영상의 특징점 검출 및 서술자를 생성하는 알고리즘으로 크기와 회전, 조명 및 시점 등의 환경 변화에 강인한 특징을 가지고 있다. 이러한 특징 때문에 객체 인식, 파노라마 이미지, 3차원 영상 복원 등 영상처리 분야에서 많이 사용되고 있다. 하지만 SURF 알고리즘과 같은 대부분의 인식 알고리즘은 많은 양의 연산을 필요로 하기 때문에 실시간 구현이 어렵다. 본 논문은 SURF의 메모리 접근 횟수와 메모리 사용량을 분석하여 효율적인 메모리를 설계함으로써 메모리 접근 횟수와 메모리 사용량을 최소화하여 실시간 구현이 가능하도록 설계하였다.

  • PDF

Empty space BSP트리를 이용한 3D 게임 렌더링 엔진 설계 (3D Game Rendering Engine Degine using Empty space BSP tree)

  • 김학란;박화진
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권3호
    • /
    • pp.345-352
    • /
    • 2005
  • 본 논문에서는 실시간 3차원 온라인 게임을 위한 게임 렌더링 엔진을 설계하고자 한다. 기존에 렌더링 속도를 높이기 위하여 대표적으로 퀘이크 엔진에서는 공간분할을 위해 BSP트리를 사용하였다. 국내에서도 급격히 증가하고 있는 3D온라인 게임을 개발하기 위한 게임엔진이 필요하다. 현재는 고사양의 하드웨어 가속기 개발로 인해 렌더링 시간을 단축시키고 있지만 아직도 저 사양의 시스템을 사용하고 있는 게임 업체에서도 사용 가능한 소프트웨어적인 렌더링 시간 단축을 위한 엔진의 개발이 여전히 요구되고 있다. 따라서 Empty space BSP트리를 이용하여 PVS look-up테이블을 구축하여 렌더링 시간을 줄인 게임엔진을 설계하고 구현하였다.

  • PDF

GP-GPU 개발을 위한 3차원 그래픽 시뮬레이터 구현 (Implementation of a 3D Graphics Simulator for GP-GPU)

  • 여동영;김우영;정형기;이광엽
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 추계학술대회
    • /
    • pp.337-340
    • /
    • 2009
  • 3차원 그래픽 처리를 위한 가속기 하드웨어가 발표된 이후 GPU(Graphics Processing Unit)의 성능은 끊임없이 개선되어 왔다. 이는 복잡한 그래픽 어플리케이션의 연산을 효율적으로 처리하기 위한 추세이나 실제로 GPU의 리소스를 100% 활용하는 경우는 드물다. 최근 주목받고 있는 GP-GPU(General-Purpose GPU)는 GPU에서 담당하는 연산을 포함하고 CPU가 처리하는 일반적인 연산의 처리도 가능하여 프로세서 자원의 분배에 따라 효율적인 제어가 가능하다. 본 논문에서는 GP-GPU 기반 환경을 가상으로 구현하여 프로그램의 설계 및 디버깅이 가능한 시뮬레이터를 구현하였다. 이를 통해 동시 설계(Co-Design) 환경을 구성하여 동시적 개발 환경을 지원하고 3차원 그래픽 컨텐츠의 디스플레이가 가능한 인터페이스를 구축하여 빠르고 안정적인 검증이 가능하다.

  • PDF

실시간 얼굴 검출을 위한 Cascade CNN의 CPU-FPGA 구조 연구 (Cascade CNN with CPU-FPGA Architecture for Real-time Face Detection)

  • 남광민;정용진
    • 전기전자학회논문지
    • /
    • 제21권4호
    • /
    • pp.388-396
    • /
    • 2017
  • 얼굴 검출에는 다양한 포즈, 빛의 세기, 얼굴이 가려지는 현상 등의 많은 변수가 존재하므로, 높은 성능의 검출 시스템이 요구된다. 이에 영상 분류에 뛰어난 Convolutional Neural Network (CNN)이 적절하나, CNN의 많은 연산은 고성능 하드웨어 자원을 필요로한다. 그러나 얼굴 검출을 위한 소형, 모바일 시스템의 개발에는 저가의 저전력 환경이 필수적이고, 이를 위해 본 논문에서는 소형의 FPGA를 타겟으로, 얼굴 검출에 적절한 3-Stage Cascade CNN 구조를 기반으로하는 CPU-FPGA 통합 시스템을 설계 구현한다. 가속을 위해 알고리즘 단계에서 Adaptive Region of Interest (ROI)를 적용했으며, Adaptive ROI는 이전 프레임에 검출된 얼굴 영역 정보를 활용하여 CNN이 동작해야 할 횟수를 줄인다. CNN 연산 자체를 가속하기 위해서는 FPGA Accelerator를 이용한다. 가속기는 Bottleneck에 해당하는 Convolution 연산의 가속을 위해 FPGA 상에 다수의 FeatureMap을 한번에 읽어오고, Multiply-Accumulate (MAC) 연산을 병렬로 수행한다. 본 시스템은 Terasic사의 DE1-SoC 보드에서 ARM Cortex A-9와 Cyclone V FPGA를 이용하여 구현되었으며, HD ($1280{\times}720$)급 입력영상에 대해 30FPS로 실시간 동작하였다. CPU-FPGA 통합 시스템은 CPU만을 이용한 시스템 대비 8.5배의 전력 효율성을 보였다.

CW 레이다 기반 사람 행동 인식 시스템 설계 및 구현 (Design and Implementation of CW Radar-based Human Activity Recognition System)

  • 남정희;강채영;국정연;정윤호
    • 한국항행학회논문지
    • /
    • 제25권5호
    • /
    • pp.426-432
    • /
    • 2021
  • CW (continuous wave) 도플러 레이다는 카메라와 달리 사생활 침해 문제를 해결할 수 있고, 비접촉 방식으로 신호를 얻을 수 있다는 장점이 있다. 따라서, 본 논문에서는 CW 도플러 레이다를 이용한 사람 행동 인식 시스템을 제안하고, 가속을 위한 하드웨어 설계 및 구현 결과를 제시한다. CW 도플러 레이다는 사람의 연속된 동작에 대한 신호를 측정한다. 이에, 동작 분류를 위한 단일 스펙트로그램을 얻기 위해 운동 동작의 횟수를 세는 기법을 제안하였다. 또한, 연산의 복잡도와 메모리 사용량을 최소화하기 위해 동작 분류에 BNN (binarized neural network)을 사용하였고, 검증 결과 94%의 정확도를 보임을 확인하였다. BNN의 복잡한 연산을 가속하기 위해 FPGA를 이용하여 BNN 가속기가 설계 및 구현되었다. 제안된 사람 행동 인식 시스템은 logic 7,673개, register 12,105개, combinational ALUT (adaptive look up table) 10,211개, block memory 18.7 Kb를 사용하여 구현되었으며, 성능 평가 결과 소프트웨어 구현 대비 연산 속도가 99.97% 향상되었다.

관성 측정 센서를 활용한 이진 신경망 기반 걸음걸이 패턴 분석 시스템 설계 및 구현 (Design and Implementation of BNN-based Gait Pattern Analysis System Using IMU Sensor)

  • 나진호;지기산;정윤호
    • 한국항행학회논문지
    • /
    • 제26권5호
    • /
    • pp.365-372
    • /
    • 2022
  • 관성 측정 센서는 사람 행동 인식 시스템에 주로 사용되는 센서들에 비해 크기가 작고 가벼우며 낮은 비용으로 시스템의 경량화를 달성할 수 있다. 따라서, 본 논문에서는 관성 측정 센서를 이용한 이진 신경망 기반 걸음걸이 패턴 분석 시스템을 제안하고, 연산 가속을 위한 FPGA 기반 가속기 설계 및 구현 결과를 제시한다. 관성 측정 센서를 통해 걸음걸이에 대한 6가지 신호를 측정하고, 단시간 푸리에 변환을 이용하여 스펙트로그램을 추출한다. 높은 정확도를 가지는 경량화 시스템을 갖추기 위해 걸음걸이 패턴 분류에 BNN (binarized neural network) 기반 구조를 사용하였고, 검증 결과 97.5%의 높은 정확도와 메모리 사용량이 합성곱 신경망에 비해 96.7% 감소한 것을 확인하였다. 이진 신경망의 연산 가속을 위해 FPGA를 이용한 하드웨어 가속기 구조로 설계하였다. 제안된 걸음걸이 패턴 분석 시스템은 24,158개의 logic, 14,669개의 register, 13.687 KB의 block memory를 사용하여 구현되어 62.35 MHz의 최대 동작 주파수에서 1.5ms 내에 연산이 완료되어 실시간 동작이 가능함을 확인하였다.

창조적 보육센터 역량강화 방안에 관한 탐색적 연구: 대학 보육센터를 중심으로 (The Exploratory study of Capacity Building for Creative Incubation Center: Focus on the University Business Incubator)

  • 최종인;변영조
    • 벤처창업연구
    • /
    • 제11권2호
    • /
    • pp.135-144
    • /
    • 2016
  • 중소기업청은 대학 및 연구기관의 인적(교수, 연구원) 물적(설비, 공간) 자원을 활용하기 위하여 1998년부터 최근까지 약 4,000여억원의 예산을 투입하여 창업보육센터(Business Incubator, BI)의 건립 및 운영을 지원하여 왔다. 그 결과 2013년 말 기준으로 5,500여개의 기업이 보육공간에 입주하여 매출 1조 6천억원과 고용인력 1만 6천여명을 성과를 창출하였다. 하지만 이러한 양적인 성장에도 불구하고 하드웨어 중심의 지원, 기관 내 자원의 활용부족, 민간부문과의 협력부족, 스타기업 발굴 부진 등의 여러 문제점이 노출되었다. 본 연구는 이러한 질적 성장의 한계점에 봉착한 창업보육센터의 역량강화 및 혁신방안을 모색하기 위하여 창의성 개념을 도입하여 센터의 개선방향을 제시하고자 한다. 특히 죽음의 계곡을 극복하는 방법으로서 기술사업화의 관점에서 역량, 제품, 시장이라는 CPM(Capability, Product, Market) 조합이 원활히 될 수 있도록 보육센터의 역할을 제시하였다. 또한 대학 내 자원의 유기적 연계를 제안하였다.

  • PDF

3차원 그래픽프로세서용 특수 목적 연산장치의 하드웨어 설계 (Hardware Design of Special-Purpose Arithmetic Unit for 3-Dimensional Graphics Processor)

  • 최병윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 춘계학술대회
    • /
    • pp.140-142
    • /
    • 2011
  • 본 논문에서는 모바일 그래픽프로세용 특수목적 연산 회로를 설계하였다. 특수목적 연산회로(SFU)는 6개의 연산, 즉, $1/{\chi}$, $\frac{1}{{\sqrt{x}}$, $log_2x$, $2^x$, $sin(x)$, $cos(x)$를 지원한다. 특수목적 연산 회로는 높은 정밀도 조건을 만족하기 위해 IEEE 표준 부동 소수점 형식을 사용하는 2차 다항식 minimax 알고리즘을 사용하였으며, 높은 연산 성능을 위해 5-단 파이프라인 구조를 갖고 있다. 설계한 특수목적 연산회로 는 65nm 삼성 CMOS 표준셀 공정 조건에서 약 23,000개의 게이트로 구성되며, 약 400 Mhz의 동작 주파수를 가진다. 설계된 회로는 파이프라인 구조로 동작하므로 약 400 MOPS(Million Operations Per Second)의 연산 성능을 갖고 있어서, 고성능 3차원 그래픽 프로세서에 적용이 가능하다.

  • PDF

H.264/AVC를 위한 디블록킹 필터의 효율적인 VLSI 구조 (An Efficient VLSI Architecture of Deblocking Filter in H.264 Advanced Video Coding)

  • 이성만;박태근
    • 대한전자공학회논문지SD
    • /
    • 제45권7호
    • /
    • pp.52-60
    • /
    • 2008
  • 디블록킹 필터는 H.264/AVC의 디코딩 과정에서 생기는 블록 왜곡 현상을 없애주고 압축율을 높여준다. 하지만 디블록킹 필터는 디코더에서 1/3의 계산 량을 차지할 만큼 계산 량이 많아 이를 위한 효율적인 하드웨어 설계가 필요하다. 본 논문에서는 적절한 메모리 구조를 사용하여 데이터의 재사용을 높이고, 두 개의 필터를 사용하여 성능을 개선한 디블록킹 필터의 구조를 제안한다. 제안된 구조는 적은 초기화 클럭 이후 두 개의 필터가 동시에 동작하여 데이터가 준비되는 대로 필터링을 수행하여 처리량을 높이고, 외부메모리의 참조를 최소화한다. 제안된 구조는 하나의 매크로블록을 필터링하는 데에 96클럭이 소요되며, 동부아남 $0.18{\mu}m$ 표준 셀 라이브러리를 사용하여 합성한 결과 최대 동작 주파수는 200MHz이다.

고음질 오디오 알고리즘을 위한 효율적인 DSP 설계 (Efficient DSP Architecture For High- Quality Audio Algorithms)

  • 문종하;선우명훈
    • 대한전자공학회논문지SP
    • /
    • 제44권5호
    • /
    • pp.112-117
    • /
    • 2007
  • 이 논문은 MPEG-2/4 Advanced Audio Coding(AAC), 돌비 AC-3, MPEG-2 Backward Compatible(BC) 등 오디오 압축 알고리즘을 효율적으로 구현할 수 있는 전용의 하드웨어를 가진 DSP 구조를 제안하며 제안된 전용의 하드웨어를 구동하기 위한 DSP 전용 명령어들을 제공한다. 제안된 구조는 효율적인 MDCT/IMDCT(Inverse Modified Discrete Cosine Transform), 허프만 복호 연산을 지원한다. 제안된 하드웨어 구조는 TMS320C62x, ASDSP21060 등 상용 DSP프로세서와 비교하여 매우 우수한 MDCT/IMDCT 연산 성능을 보인다. 또한 제안된 전용 허프만 복호 가속기는 1 사이클에 복호화 및 오퍼랜드 준비를 병렬 수행하여 고속 연산에 적합하다. 제안된 DPU(Data Processing Unit)는 Samsung SEC $0.18{\mu}m$ 표준 셀 라이브러리를 사용하여 107,860 게이트를 나타내며 150 MIPS 를 나타낸다.