• 제목/요약/키워드: GPU algorithm

검색결과 267건 처리시간 0.029초

그래픽 하드웨어 가속을 이용한 실시간 색상 인식 (Real-time Color Recognition Based on Graphic Hardware Acceleration)

  • 김구진;윤지영;최유주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권1호
    • /
    • pp.1-12
    • /
    • 2008
  • 본 논문에서는 야외 및 실내에서 촬영된 차량 영상에 대해 실시간으로 차량 색상을 인식할 수 있는 GPU(Graphics Processing Unit) 기반의 알고리즘을 제시한다. 전처리 과정에서는 차량 색상의 표본 영상들로부터 특징벡터를 계산한 뒤, 이들을 색상 별로 조합하여 GPU에서 사용할 참조 텍스쳐(Reference texture)로 저장한다. 차량 영상이 입력되면, 특징벡터를 계산한 뒤 GPU로 전송하고, GPU에서는 참조 텍스쳐 내의 표본 특징리터들과 비교하여 색상 별 유사도를 측정한 뒤 CPU로 전송하여 해당 색상명을 인식한다. 분류의 대상이 되는 색상은 가장 흔히 발견되는 차량 색상들 중에서 선택한 7가지 색상이며, 검정색, 은색, 흰색과 같은 3가지의 무채색과 빨강색, 노랑색, 파랑색, 녹색과 같은 4가지의 유채색으로 구성된다. 차량 영상에 대한 특징벡터는 차량 영상에 대해 HSI(Hue-Saturation-Intensity) 색상모델을 적용하여 색조-채도 조합과 색조-명도 조합으로 색상 히스토램을 구성하고, 이 중의 채도 값에 가중치를 부여함으로써 구성한다. 본 논문에서 제시하는 알고리즘은 다양한 환경에서 촬영된 많은 수의 표본 특징벡터를 사용하고, 색상 별 특성을 뚜렷이 반영하는 특징벡터를 구성하였으며, 적합한 유사도 측정함수(likelihood function)를 적용함으로써, 94.67%에 이르는 색상 인식 성공률을 보였다. 또한, GPU를 이용함으로써 대량의 표본 특징벡터의 집합과 입력 영상에 대한 특징벡터 간의 유사도 측정 및 색상 인식과정을 병렬로 처리하였다. 실험에서는, 색상 별로 1,024장씩, 총 7,168장의 차량 표본 영상을 이용하여 GPU에서 사용하는 참조 텍스쳐를 구성하였다. 특징벡터의 구성에 소요되는 시간은 입력 영상의 크기에 따라 다르지만, 해상도 $150{\times}113$의 입력 영상에 대해 측정한 결과 평균 0.509ms가 소요된다. 계산된 특징벡터를 이용하여 색상 인식의 수행시간을 계산한 결과 평균 2.316ms의 시간이 소요되었고, 이는 같은 알고리즘을 CPU 상에서 수행한 결과에 비해 5.47배 빠른 속도이다. 본 연구에서는 차량만을 대상으로 하여 색상 인식을 실험하였으나, 일반적인 피사체의 색상 인식에 대해서도 제시된 알고리즘을 확장하여 적용할 수 있다.

인공지능프로세서 기술 동향 (Trends in AI Processor Technology)

  • 이미영;정재훈;이주현;한진호;권영수
    • 전자통신동향분석
    • /
    • 제35권3호
    • /
    • pp.66-75
    • /
    • 2020
  • As the increasing expectations of a practical AI (Artificial Intelligence) service makes AI algorithms more complicated, an efficient processor to process AI algorithms is required. To meet this requirement, processors optimized for parallel processing, such as GPUs (Graphics Processing Units), have been widely employed. However, the GPU has a generalized structure for various applications, so it is not optimized for the AI algorithm. Therefore, research on the development of AI processors optimized for AI algorithm processing has been actively conducted. This paper briefly introduces an AI processor especially for inference acceleration, developed by the Electronics and Telecommunications Research Institute, South Korea., and other global vendors for mobile and server platforms. However, the GPU has a generalized structure for various applications, so it is not optimized for the AI algorithm. Therefore, research on the development of AI processors optimized for AI algorithm processing has been actively conducted.

CPU-GPU환경에서 효율적인 메인메모리 접근을 위한 융합 프로세서 구조 개발 (A Development of Fusion Processor Architecture for Efficient Main Memory Access in CPU-GPU Environment)

  • 박현문;권진산;황태호;김동순
    • 한국전자통신학회논문지
    • /
    • 제11권2호
    • /
    • pp.151-158
    • /
    • 2016
  • 이기종시스템 구조(HSA)는 두 유닛의 각각에 메모리 폴(pools)이 가상메모리를 통해 공유할 수 있게 됨에 따라 CPU와 GPU 아키텍처의 오랜 문제를 해결하였다. 그러나 물리적 실제 시스템에서는 가상메모리 처리를 위해 GPU와 GPU 사이의 빈번한 메모리 이동으로 병목현상(Bottleneck)과 일관성 요청(Coherence request)의 오버헤드를 갖게 된다. 본 연구는 CPU와 GPU간의 효율적인 메인 메모리 접근방안으로 퓨전프로세서 알고리즘을 제안하였다. CPU가 요청한 처리할 메모리 영역을 GPU의 코어에 맞게 분배 제어해주는 기능으로 작업관리자(Job Manager)와 Re-mapper, Pre-fetcher를 제안하였다. 이를 통해 CPU와 GPU간의 빈번한 메시지도 감소되고 CPU의 메모리주소에 없는 Page-Table 요청이 낮아져 두 매체간의 효율성이 증대되었다. 제안한 알고리즘의 검증 방안으로 QEMU(:short for Quick EMUlator)기반의 에뮬레이터를 개발하고 CUDA(:Compute Unified Device. Architecture), OpenMP, OpenCL 등의 알고리즘과 비교평가를 하였다. 성능평가 결과, 본 연구에서 제안한 융합 프로세서 구조를 기존과 비교했을 때 최대 198%이상 빠르게 처리되면서 메모리 복사, 캐시미스 등의 오버헤드를 최소화하였다.

GPU 기반의 실시간 인터렉티브 광선추적법 구현 (Implementation of Real-time Interactive Ray Tracing on GPU)

  • 배성민;홍현기
    • 한국게임학회 논문지
    • /
    • 제7권3호
    • /
    • pp.59-66
    • /
    • 2007
  • 광선추적법(ray tracing)은 빛의 반사, 투과 등을 사실적으로 표현할 수 있는 대표적인 전역조명(global illumination) 기술이지만, 복잡한 계산과정으로 인해 실시간 활용에는 많은 제약이 존재한다. 이런 문제를 해결하기 위해 최근에는 GPU(Graphics Processing Unit) 기반의 광선추적법 알고리즘이 활발하게 개발되고 있으며, 본 논문에서는 J. Purcell 등이 제안한 광선추적법 기법을 구현하였다. 그리고 구현된 알고리즘을 인터렉티브 응용분야에 활용하기 위해 렌더링 성능을 개선하는 두가지 방법을 적용하였다. 먼저, 그래픽스 하드웨어에서 지원하는 래스터라이제이션(rasterization)을 적용해 초기 광선의 교차점을 효과적으로 구했다. 또한 대상 물체를 가속화(acceleration) 구조로 구성하여 광선과 물체간의 교차연산에 소요되는 계산시간을 단축하였다. GPU 기반의 광선추적법 렌더링에서 다양한 성능 개선 알고리즘을 적용하여 향상된 렌더링 결과를 구체적으로 분석한 기존 연구가 비교적 적었으며, 본 논문에서는 각 과정에 따른 개선 결과를 제시하였다. 구현된 렌더러와 GPU 기반의 환경 맵을 비교하였으며 이동형 개인 컴퓨터와 무선 센싱 장비를 이용한 무선 원격 렌더링 시스템을 구현하였다. 제안된 시스템은 실시간 합성, 증강현실(augmented reality), 가상현실 등의 다양한 분야에서 활용될 것으로 기대된다.

  • PDF

질량스프링 시뮬레이션을 위한 병렬 구조 설계 방법 (Parallel Structure Design Method for Mass Spring Simulation)

  • 성낙준;최유주;홍민
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제25권3호
    • /
    • pp.55-63
    • /
    • 2019
  • 최근 물리 시뮬레이션 분야의 성능 개선을 위해 GPU 컴퓨팅 방식이 활용되고 있다. 특히 많은 연산의 양을 요구하는 변형물체 시뮬레이션의 경우 실시간성 보장을 위해 GPU 기반 병렬처리 알고리즘을 필요로 한다. 본 연구진은 변형물체 시뮬레이션을 구현하는 방법 중 하나인 질량스프링 시뮬레이션 기법의 성능을 향상시키기 위한 병렬 구조 설계 방법에 대한 연구를 수행하였다. 이를 위해 GPU에 직접 접근이 가능한 그래픽 라이브러리인 OpenGL의 GLSL을 사용하였으며, 독립적인 파이프라인인 컴퓨트 쉐이더를 활용해 GPGPU 환경을 구현하였다. 병렬 구조 설계 방법의 효과를 검증하기 위해 스프링 기반 질량스프링 시스템을 CPU기반과 GPU기반으로 구현하였으며, 실험의 결과 본 설계 방법을 적용하였을 때 CPU 환경에 비해 연산 속도가 약 6,000% 개선됨을 보였다. 추후 본 연구에서 제안한 설계 방법을 활용한다면 경량화 시뮬레이션 기술이 필요한 증강현실 및 가상현실 분야에 효과적으로 적용이 가능할 것으로 기대한다.

GPU를 이용한 이방성 탄성 거꿀 참반사 보정의 계산가속 (Acceleration of Anisotropic Elastic Reverse-time Migration with GPUs)

  • 최형욱;설순지;변중무
    • 지구물리와물리탐사
    • /
    • 제18권2호
    • /
    • pp.74-84
    • /
    • 2015
  • 탄성 거꿀 참반사 보정(elastic reverse-time migration)을 통해 물리적으로 의미가 있는 영상을 얻기 위해서는 탄성 파동방정식(elastic wave equation)을 통해 재구성된 벡터 파동장(reconstructed vector wavefield)으로부터 P파와 S파를 분리하는 파분리 알고리듬이 필요하다. 그리고 이방성을 고려한 탄성 거꿀 참반사 보정으로의 확장을 위해서는 이방성을 고려한 탄성 모델링 알고리듬 뿐만 아니라 이방성을 고려한 파분리가 필요하다. 이방성 탄성매질에서의 파분리는 등방성 탄성매질에서 주로 이용하는 Helmholtz decomposition과는 달리 탄성매질의 수직 속도 및 이방성 계수에 따라 계산된 유사미분필터(pseudo-derivative filter)를 이용한다. 이 필터는 적용에 많은 계산이 필요하기 때문에 이 연구를 통해 많은 양의 병렬계산을 효율적으로 수행할 수 있는 GPU (Graphic Processing Unit)를 이용하여 이방성 파분리를 수행하는 알고리듬을 개발하였다. 또한 GPU를 이용해 파분리를 수행하는 알고리듬을 포함하고 MPI (Message-Passing Interface)를 이용하는 효율성 높은 이방성 탄성 거꿀 참반사 보정 알고리듬을 개발하였다. 개발된 알고리듬의 검증을 위해 Marmousi-II 탄성모델을 기초로 수직 횡등방성(vertically transversely isotropy; VTI) 탄성모델을 구축하여 수치모형 실험을 수행해 다성분 합성탄성파탐사자료를 생성하였다. 이 합성탄성파 자료에 개발된 이방성 탄성 거꿀 참반사 보정 알고리듬을 적용하여 GPU와 MPI를 효과적으로 이용한 계산속도 향상과 이방성 파분리에 의한 영상결과의 정확도 향상을 보여주었다.

대규모 병렬 시스템에서 캐시와 공유메모리를 이용한 유한 차분법 성능 (Performance of the Finite Difference Method Using Cache and Shared Memory for Massively Parallel Systems)

  • 김현규;이효종
    • 전자공학회논문지
    • /
    • 제50권4호
    • /
    • pp.108-116
    • /
    • 2013
  • 최근 GPU 시스템과 같은 수백 개의 프로세서로 구성된 대규모 병렬 시스템을 이용하여 성능을 향상시키는 방법들이 많이 개발 되었다. 대표적으로 GPU에서 캐싱(Caching)과 유사한 개념으로 공유 메모리가 사용되었다. 출력 값을 얻기 위해서 이웃 값을 참조하는 이미지 필터와 같은 알고리즘들의 경우 이웃 값의 참조가 빈번하게 발생되므로 공유 메모리를 사용할 경우 성능이 향상되었다. 그러나 공유 메모리를 사용하기 위해서는 기존 코드를 재 구현해야만 하고 이는 코드의 복잡도를 증가시키는 원인이 된다. 최근 GPU 시스템에서는 공유 메모리 뿐 아니라 L1과 L2 캐시 메모리를 지원하도록 하였다. L1 캐시 메모리는 공유 메모리와 동일한 하드웨어에 위치하여 캐시의 사용이 성능향상을 도와줄 것으로 예측된다. 따라서 본 논문에서는 캐시 메모리와 공유 메모리의 성능을 비교하였다. 연구결과 성능 면에서 캐시 메모리를 사용한 알고리즘과 공유메모리를 사용한 알고리즘은 유사하였다. 특히 캐시 메모리를 사용하는 경우 공유메모리 사용 프로그래밍에서 나타나는 코드 복잡도의 증가 문제도 동시에 해결할 수 있었다.

OpenCL을 이용한 임베디드 GPGPU환경에서의 AES 암호화 성능 개선과 평가 (Performance Enhancement and Evaluation of AES Cryptography using OpenCL on Embedded GPGPU)

  • 이민학;강우철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권7호
    • /
    • pp.303-309
    • /
    • 2016
  • 최근, ARM Mali와 같은 여러 임베디드 프로세서들이 OpenCL과 같은 GPGPU 프레임워크를 지원함에 따라 기존 PC 환경에서 활용되던 GPGPU 기술이 임베디드 시스템 영역으로 확대 되고 있다. 그러나 임베디드 시스템은 PC와는 상이한 구조를 갖으며, 저전력이나 실시간성과 같은 성능이 더욱 중요하다. 본 논문에서는 임베디드 GPGPU환경에서 AES 암호화 알고리즘을 개방형 범용 병렬 컴퓨팅 프레임워크인 OpenCL을 사용하여 구현하고 이를 CPU만을 이용한 구현과 비교한다. 실험결과, 1000KByte의 데이터 사이즈의 128비트 AES 암호화 시에 OpenCL을 사용하여 GPU로 병렬 처리하는 것이 OpenMP를 사용하여 CPU상에서 병렬 처리한 방식보다 응답 시간은 최대 1/150, 에너지 소비량은 최대 1/290로 감소함을 확인하였다. 또한 호스트와 GPU 디바이스 간에 메모리를 공유하는 임베디드 구조의 특성에 최적화하여 메모리 복제를 하지 않는 기법을 적용하는 경우 응답시간과 에너지 소비량에서 최대 100% 이상의 추가적인 성능개선을 이룰 수 있었으며, 연구에서 사용한 데이터의 크기에 비례하여 더 높은 성능의 개선이 나타나는 것을 확인하였다.

접근물체 선별 알고리즘 계산 효율성 향상 연구 (A study on the Computational Efficiency Improvement for the Conjunction Screening Algorithm)

  • 김형진;김해동;성재동
    • 한국항공우주학회지
    • /
    • 제40권9호
    • /
    • pp.818-826
    • /
    • 2012
  • 본 논문에서는 우주파편 충돌위험 분석 과정에 1차적으로 필요한 접근물체 선별 알고리즘의 계산 효율성 향상 방법을 제시하였다. 첫 번째 방법은 높은 연산 능력을 바탕으로 대량의 데이터를 빠르게 처리할 수 있는 GPU(Graphics Processing Unit)를 이용하는 것이고, 두 번째 방법은 접근 가능성이 없는 물체들을 최소 근접거리 계산 과정에서 제외하여 계산 수행 시간을 단축할 수 있는 원/근지점 필터(Apogee/Perigee filter)를 이용하는 것이며, 세 번째 방법은 앞서 언급한 두 가지 방법을 결합하여 이용하는 것이다. GPU만 적용하였을 경우 평균 34 배 정도 계산 효율성이 향상되었고, 원/근지점 필터만 적용하였을 때는 평균 3 배 정도 계산 효율성이 향상되었다. 마지막으로 GPU와 원/근지점 필터를 함께 적용하였을 때는 약 163 배 정도 계산 효율성이 향상됨을 확인할 수 있었다.

GPGPU를 이용한 Grabcut의 수행 속도 개선 방법에 관한 연구 (A Study of How to Improve Execution Speed of Grabcut Using GPGPU)

  • 김지훈;박영수;이상훈
    • 디지털융복합연구
    • /
    • 제12권11호
    • /
    • pp.379-386
    • /
    • 2014
  • 본 논문에서는 Grabcut 알고리즘의 수행 속도를 효율적으로 개선시키기 위하여 GPU(Graphics Processing Unit)에서 데이터를 처리하는 방법을 제안한다. Grabcut 알고리즘은 뛰어난 성능의 객체 추출 알고리즘으로 기존의 Grabcut 알고리즘은 전경 영역과 배경 영역을 분할한 후 배경 K-클러스터와 전경 K-클러스터로 할당한다. 그리고 할당 된 결과를 점진적으로 개선될 때까지의 과정을 반복한다. 하지만 Grabcut 알고리즘은 반복된 클러스터링 작업으로 인하여 수행 시간이 오래 걸리는 단점이 존재한다. 따라서 GPGPU(General-Purpose computing on Graphics Processing Unit)를 이용해 반복되는 작업을 병렬적으로 처리하여 Grabcut 알고리즘의 수행 속도를 효율적으로 개선시키는 방법을 제안한다. 제안하는 방법으로 Grabcut 알고리즘의 수행시간을 평균 약 90.668% 감소시켰다.