• 제목/요약/키워드: 하드웨어 가속기

검색결과 125건 처리시간 0.028초

LM(Levenberg-Marquardt) 알고리즘의 FPGA 구현 (FPGA Implementation of Levenverg-Marquardt Algorithm)

  • 이명진;정용진
    • 전자공학회논문지
    • /
    • 제51권11호
    • /
    • pp.73-82
    • /
    • 2014
  • LM 알고리즘은 비선형 시스템의 least square problem을 풀기위해 사용되는 것으로, 다양한 분야에서 활용되고 있는 중요한 알고리즘이다. 하지만 응용 분야의 목적 함수가 복잡하고 고차원인 경우, 목적 함수의 연산 횟수가 많아지고, 내부에서 연산되는 행렬 및 벡터 연산에 시간이 많이 소요되어, 임베디드 환경에서의 실시간 동작을 위해서는 하드웨어 가속기 설계가 불가피하다. 본 논문에서는 LM 알고리즘을 하드웨어로 설계하였으며, 반복되는 목적 함수 연산을 파이프라인 처리 하고, 행렬 및 벡터 연산은 데이터 입력 주기를 줄여 속도를 향상시켰다. 설계한 LM 알고리즘의 하드웨어 성능을 측정하기 위해, 응용분야로 3D reconstruction의 한 부분인 refining fundamental matrix(RFM)를 적용하였다. 실험 결과 소프트웨어와 비슷한 정확도를 가지면서, 최대 74.3배의 속도 향상을 볼 수 있었다.

CNN 가속기의 효율적인 데이터 전송을 위한 메모리 데이터 레이아웃 및 DMA 전송기법 연구 (Memory data layout and DMA transfer technique research For efficient data transfer of CNN accelerator)

  • 조석재;박성경;박성정
    • 전기전자학회논문지
    • /
    • 제24권2호
    • /
    • pp.559-569
    • /
    • 2020
  • 딥 러닝 알고리즘 중 하나인 CNN 인공지능 어플리케이션은 하드웨어 측면에서 컨벌루션 레이어의 많은 데이터들을 저장하기 위해 오프 칩 메모리를 사용 하고, DMA를 사용하여 매 데이터 전송 시 프로세서의 부하를 줄여 성능을 향상 시킬 수 있다. 또한 컨벌루션 레이어의 데이터를 가속기의 글로벌 버퍼에 전송되는 순서를 다르게 하여 어플리케이션의 성능의 저하를 줄일 수 있다. 불 연속된 메모리 주소를 가지고 있는 베이직 레이아웃의 경우 SG-DMA를 사용 할 때 ordinary DMA를 사용할 때보다 DMA를 사전 설정하는 부분에서 약 3.4배의 성능향상을 보였고 연속적인 메모리 주소를 가지고 있는 아이디얼 레이아웃의 경우 ordinary DMA 와 SG-DMA를 사용하는 두가지 경우 모두 1396 사이클 정도의 오버헤드를 가졌다. 가장 효율적인 메모리 데이터 레이아웃과 DMA의 조합은 프로세서의 DMA 사전 설정 부하를 약 86 퍼센트까지 감소할 수 있음을 실험을 통해 확인했다.

독립운용이 가능한 임베디드 인공지능 프로세서 설계 (Design of Stand-alone AI Processor for Embedded System)

  • 조권능;최도영;정영우;이승은
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.600-602
    • /
    • 2021
  • 모바일 산업의 발달과 인공지능 기술에 대한 관심이 높아지면서 임베디드 시스템에 적용 가능한 인공지능 프로세서에 대한 연구가 활발히 진행되고 있다. 임베디드 시스템에서 인공지능을 구현하는 경우 제한된 자원과 소비 전력을 고려한 설계가 필수적이며, 낮은 연산 성능을 보완할 수 있는 전용 가속기를 포함하는 것이 효율적이다. 본 연구는 독립 운용이 가능한 임베디드 인공지능 프로세서를 제안한다. 제안하는 인공지능 프로세서는 거리연산 기반의 경량 인공지능 알고리즘이 적용된 하드웨어 가속기를 포함하며, 프로그래밍 가능한 범용 프로세서와 함께 운용되어 다양한 임베디드 시스템에 적용 가능하다. 인공지능 프로세서는 Verilog HDL을 사용하여 설계되었으며 Field Programmable Gate Array (FPGA)를 통해 기능을 검증하였다.

  • PDF

메모리 사용률을 개선한 SURF 알고리즘 특징점 추출기의 하드웨어 가속기 설계 (An Implementation of a Feature Extraction Hardware Accelerator based on Memory Usage Improvement SURF Algorithm)

  • 정창민;곽재창;이광엽
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.77-80
    • /
    • 2013
  • SURF 알고리즘은 영상의 특징점 검출 및 서술자를 생성하는 알고리즘으로 크기와 회전, 조명 및 시점 등의 환경 변화에 강인한 특징을 가지고 있다. 이러한 특징 때문에 객체 인식, 파노라마 이미지, 3차원 영상 복원 등 영상처리 분야에서 많이 사용되고 있다. 하지만 SURF 알고리즘과 같은 대부분의 인식 알고리즘은 많은 양의 연산을 필요로 하기 때문에 실시간 구현이 어렵다. 본 논문은 SURF의 메모리 접근 횟수와 메모리 사용량을 분석하여 효율적인 메모리를 설계함으로써 메모리 접근 횟수와 메모리 사용량을 최소화하여 실시간 구현이 가능하도록 설계하였다.

  • PDF

프로그래머블 비디오 복호화기를 위한 구성요소의 성능 분석 (Analysis of Components Performance for Programmable Video Decoder)

  • 김재현;박구만
    • 방송공학회논문지
    • /
    • 제24권1호
    • /
    • pp.182-185
    • /
    • 2019
  • 본 논문에서는 프로그래머블 멀티포맷 비디오 복호화기를 구성하기 위한 기본 모듈들의 요구 성능을 분석하고 제안하였다. 제안한 플랫폼의 목적은 고성능 FHD 비디오 복호화기 구성이다. 제안한 복호화기는 재구성 가능한 프로세서, 전용 비트스트림 코프로세서, 메모리 제어기, 움직임 보상용 캐쉬 및 플렉서블 하드웨어 가속기 등으로 구성되었다. 300MHz 클럭을 사용했을 때 HEVC로 부호화된 초당 30 장의 FHD를 복호화 할 수 있는 모듈들의 성능에 대해서 분석하고 기본 성능을 제안하였다.

GP-GPU 개발을 위한 3차원 그래픽 시뮬레이터 구현 (Implementation of a 3D Graphics Simulator for GP-GPU)

  • 여동영;김우영;정형기;이광엽
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 추계학술대회
    • /
    • pp.337-340
    • /
    • 2009
  • 3차원 그래픽 처리를 위한 가속기 하드웨어가 발표된 이후 GPU(Graphics Processing Unit)의 성능은 끊임없이 개선되어 왔다. 이는 복잡한 그래픽 어플리케이션의 연산을 효율적으로 처리하기 위한 추세이나 실제로 GPU의 리소스를 100% 활용하는 경우는 드물다. 최근 주목받고 있는 GP-GPU(General-Purpose GPU)는 GPU에서 담당하는 연산을 포함하고 CPU가 처리하는 일반적인 연산의 처리도 가능하여 프로세서 자원의 분배에 따라 효율적인 제어가 가능하다. 본 논문에서는 GP-GPU 기반 환경을 가상으로 구현하여 프로그램의 설계 및 디버깅이 가능한 시뮬레이터를 구현하였다. 이를 통해 동시 설계(Co-Design) 환경을 구성하여 동시적 개발 환경을 지원하고 3차원 그래픽 컨텐츠의 디스플레이가 가능한 인터페이스를 구축하여 빠르고 안정적인 검증이 가능하다.

  • PDF

선박안전 운항을 위한 이진 분할 알고리즘 기반 해상 객체 검출 하드웨어 가속기 설계 및 구현 (Design and Implementation of a Hardware Accelerator for Marine Object Detection based on a Binary Segmentation Algorithm for Ship Safety Navigation)

  • 이효찬;송현학;이성주;전호석;김효성;임태호
    • 한국정보통신학회논문지
    • /
    • 제24권10호
    • /
    • pp.1331-1340
    • /
    • 2020
  • 해상 객체 검출은 선장이 육안으로 해상 주변의 충돌 위험성이 있는 부유물을 컴퓨터를 통해 자동으로 검출하여 사람이 확인하는 방법과 유사한 정확도로 인지하는 방법을 말한다. 기존 선박에서는 레이더의 전파를 통해 해상 부유물의 유무와 거리를 판단하였지만 형체를 알아내어 장애물이 무엇인지는 판단할 수 없는 약점이 있다. 반면, 카메라는 인공지능 기술이 발달하면서 물체를 검출하거나 인식하는데 성능이 우수하여 항로에 있는 장애물을 정확하게 판단할 수 있다. 하지만, 디지털 영상을 분석하기 위해서는 컴퓨터가 대용량의 화소를 연산해야 하는데 CPU는 순차적 처리 방식에 특화된 구조이기에 처리속도가 매우 느려 원활한 서비스 지원은 물론 안전성도 보장할 수 없게 된다. 따라서 본 논문에서는 해상 객체 인식 소프트웨어를 개발하였고 연산량이 많은 부분을 가속화하기 위해 FPGA로 구현하였다. 또한, 임베디드 보드와 FPGA 인터페이스를 통해 시스템 구현 완성도를 높였으며 소프트웨어 기반의 기존 구현 방법보다 약 30배의 빠른 성능을 얻었고 전체 시스템의 속도는 약 3배 이상이 개선되었음을 확인할 수 있었다.

천공 부호를 지원하는 Viterbi 복호기의 면적 효율적인 생존자 경로 계산기 설계 (Design of an Area-Efficient Survivor Path Unit for Viterbi Decoder Supporting Punctured Codes)

  • 김식;황선영
    • 한국통신학회논문지
    • /
    • 제29권3A호
    • /
    • pp.337-346
    • /
    • 2004
  • 천공 부호를 지원하는 비터비 복호기는 하드웨어 복잡도를 유지하는 선에서 부호율을 효율적으로 높일 수 있지만 충분한 BER 성능을 얻기 위해 복호 지연 시간이 길어지고 생존자 메모리의 크기가 늘어나는 단점이 있다. 본 논문은 비터비 복호기의 메모리 소요량을 줄이는 파이프라인화 된 순방향 추적기를 포함하는 생존자 경로 계산기를 제안한다. 제안된 생존자 경로 계산기는 역추적에 필요한 초기 복호 지연을 없애고, 경로 계산을 위한 순방향 추적 과정을 가속함으로써 생존자 메모리의 사용량을 감소시킨다. 실험 결과, 제안된 비터비 복호기의 생존자 계산기는 기존의 혼성 생존자 경로 계산기에 비해 약 16% 면적이 감소함을 확인하였다.

CNN 추론 연산 가속기를 위한 곱셈기 최적화 설계 (Design of Multipliers Optimized for CNN Inference Accelerators)

  • 이재우;이재성
    • 한국정보통신학회논문지
    • /
    • 제25권10호
    • /
    • pp.1403-1408
    • /
    • 2021
  • AI 프로세서를 FPGA 기반으로 구현하는 연구가 최근 활발하게 진행되고 있다. Deep Convolutional Neural Networks (CNN) 는 AI 프로세서가 수행하는 기본적인 연산 구조로서 매우 방대한 양의 곱셈을 필요로 한다. CNN 추론 연산에서 사용되는 곱셈 계수는 상수라는 점과 FPGA 은 특정 계수에 맞춰진 곱셈기 설계가 용이하다는 점에 착안하여 곱셈기를 최적화 구현할 수 있는 방법을 제안한다. 본 방법은 2의 보수와 분배법칙을 활용하여 곱셈 계수에서 값이 1인 비트의 개수를 최소화하여 필요한 적층 덧셈기의 개수를 절감한다. CNN 을 FPGA 에 구현한 실제 예제에 본 방법을 적용해본 결과 로직 사용량은 최대 30.2%까지, 신호 전달 지연은 최대 22%까지 줄어들었다. ASIC 전용 칩으로 구현할 경우에도 하드웨어 면적은 최대 35%까지, 신호 전달 지연은 최대 19.2%까지 줄어드는 것으로 나타났다.

Foreground 객체 추출을 위한 실시간 SoC 설계 (A Real-time SoC Design of Foreground Object Segmentation)

  • 김지수;이태호;이혁재
    • 대한전자공학회논문지SD
    • /
    • 제43권9호
    • /
    • pp.44-52
    • /
    • 2006
  • 최근 개발된 영상 압축 표준인 MPEG-4 Part 2는 임의의 영상 객체를 처리할 수 있는 최신의 기능을 포함한다. 이러한 기능을 지원하기 위해서는 효과적인 객체 추출 기술이 요구된다. 본 논문에서는 영상 내에서 실시간으로 객체를 추출해 낼 수 있는 알고리즘을 제안한다. 제안된 알고리즘은 두 단계로 구성된다. 첫 번째 단계는 한 프레임의 영상을 시공간적 watershed transform을 이용하여 여러 영역으로 분할하는 것이고, 두 번째 단계는 분할된 영역 정보를 바탕으로 객체를 추출해내는 것이다. 실시간 처리를 위해서 제안된 알고리즘은 하드웨어와 소프트웨어로 분할하여 구현하고, 계산량이 집중된 연산 부분을 하드웨어 가속기를 사용하여 처리한다. 실험 결과 제안된 시스템은 QCIF 크기의 영상을 초당 15 frame 이상의 속도로 처리하면서도, 정확한 객체 추출 결과를 보였다.