• 제목/요약/키워드: Parallel Processing Architecture

검색결과 394건 처리시간 0.027초

Integer-Pel Motion Estimation for HEVC on Compute Unified Device Architecture (CUDA)

  • Lee, Dongkyu;Sim, Donggyu;Oh, Seoung-Jun
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제3권6호
    • /
    • pp.397-403
    • /
    • 2014
  • A new video compression standard called High Efficiency Video Coding (HEVC) has recently been released onto the market. HEVC provides higher coding performance compared to previous standards, but at the cost of a significant increase in encoding complexity, particularly in motion estimation (ME). At the same time, the computing capabilities of Graphics Processing Units (GPUs) have become more powerful. This paper proposes a parallel integer-pel ME (IME) algorithm for HEVC on GPU using the Compute Unified Device Architecture (CUDA). In the proposed IME, concurrent parallel reduction (CPR) is introduced. CPR performs several parallel reduction (PR) operations concurrently to solve two problems in conventional PR; low thread utilization and high thread synchronization latency. The proposed encoder reduces the portion of IME in the encoder to almost zero with a 2.3% increase in bitrate. In terms of IME, the proposed IME is up to 172.6 times faster than the IME in the HEVC reference model.

Performance Study of Satellite Image Processing on Graphics Processors Unit Using CUDA

  • Jeong, In-Kyu;Hong, Min-Gee;Hahn, Kwang-Soo;Choi, Joonsoo;Kim, Choen
    • 대한원격탐사학회지
    • /
    • 제28권6호
    • /
    • pp.683-691
    • /
    • 2012
  • High resolution satellite images are now widely used for a variety of mapping applications including photogrammetry, GIS data acquisition and visualization. As the spectral and spatial data size of satellite images increases, a greater processing power is needed to process the images. The solution of these problems is parallel systems. Parallel processing techniques have been developed for improving the performance of image processing along with the development of the computational power. However, conventional CPU-based parallel computing is often not good enough for the demand for computational speed to process the images. The GPU is a good candidate to achieve this goal. Recently GPUs are used in the field of highly complex processing including many loop operations such as mathematical transforms, ray tracing. In this study we proposed a technique for parallel processing of high resolution satellite images using GPU. We implemented a spectral radiometric processing algorithm on Landsat-7 ETM+ imagery using CUDA, a parallel computing architecture developed by NVIDIA for GPU. Also performance of the algorithm on GPU and CPU is compared.

병렬 연역 데이타베이스에서 확장된 평가 알고리즘 (An Extended Evaluation Algorithm in Parallel Deductive Database)

  • 조우현;김항준
    • 한국정보처리학회논문지
    • /
    • 제3권7호
    • /
    • pp.1680-1686
    • /
    • 1996
  • 연역 데이타베이스가 병렬 컴퓨터 구조에 분할 적재될 때, 내포 술어에 대한 갱신이 결정적일 필요가 있으며, 이 결과를 이용한 내포 술어의 병렬 평가 알고리즘이 요구된 다. 본 논문에서는 병렬 연역 데이타베이스의 내포 술어에 대한 삽입과 삭제가 결정적 인 방법을 제안하고 병렬 영역 데이타베이스를 휘한 병렬 컴퓨터 구도에서 갱신 방 법이 고려된 확장된 병렬 평가 알고리즘을 제안한다. 연역 데이타베이스는 외연적 데이타베이스 즉 사실들의 집합과, 내포적 데이타베이스 즉 규칙들의 집합으로 구성된다. 이 집합들을 여러개의 처리기에 분산 적재 하였을 때, 각각의 처리기에서 갱신 방법과 그 결과를 이용한 병렬 평가방법을 연구한다. 각각의 처리기는 자신의 지역 기억장치를 가지며 연결망을 통하여 서로 메세지를 교환함으로써 통신한다.

  • PDF

Parallel Connected Component Labeling Based on the Selective Four Directional Label Search Using CUDA

  • Soh, Young-Sung;Hong, Jung-Woo
    • 융합신호처리학회논문지
    • /
    • 제16권3호
    • /
    • pp.83-89
    • /
    • 2015
  • Connected component labeling (CCL) is a mandatory step in image segmentation where objects are extracted and uniquely labeled. CCL is a computationally expensive operation and thus is often done in parallel processing framework to reduce execution time. Various parallel CCL methods have been proposed in the literature. Among them are NSZ label equivalence (NSZ-LE) method, modified 8 directional label selection (M8DLS) method, HYBRID1 method, and HYBRID2 method. Soh et al. showed that HYBRID2 outperforms the others and is the best so far. In this paper we propose a new hybrid parallel CCL algorithm termed as HYBRID3 that combines selective four directional label search (S4DLS) with label backtracking (LB). We show that the average percentage speedup of the proposed over M8DLS is around 60% more than that of HYBRID2 over M8DLS for various kinds of images.

고화질 영상에서 고속 안개 제거를 위한 SIMD 구조에 적합한 병렬메모리 (A Parallel Memory Suitable for SIMD Architecture Processing High-Definition Image Haze Removal in High-Speed)

  • 이형
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권7호
    • /
    • pp.9-16
    • /
    • 2014
  • Dark channel prior를 이용한 안개제거 알고리즘으로 만족할만한 연구결과가 발표된 이후로 이 알고리즘의 처리 속도를 높이기 위한 많은 연구들이 진행되었다. 이들 중에서 median dark channel prior를 이용한 알고리즘이 주목을 받고 있지만 여전히 낮은 처리속도의 한계를 갖고 있다. 그래서 본 논문에서는 고화질 영상에서 고속 안개 제거를 위한 SIMD 구조에 적합한 병렬메모리 모델을 제안한다. 제안하는 병렬메모리 모델은 n개의 화소들에 동시에 접근할 수 있으며, 3, 5, 7 또는 11의 크기를 갖는 4가지 종류의 median filter를 위한 간격들을 허용한다. 그래서 충분한 데이터 대역폭을 지원하기에 median dark channel prior를 이용한 알고리즘을 고속으로 처리할 수 있다.

Memory Intensive 실시간 영상신호처리용 3 $\times$ 3 Neighborhood VLSI 처리기 (A Memory Intensive Real-time 3x3 Neighborhood processor for Image Processing)

  • 김진홍;남철우;우성일;김용태
    • 대한전자공학회논문지
    • /
    • 제27권6호
    • /
    • pp.963-971
    • /
    • 1990
  • This paper proposes a memory intensive VLSI architecture for the realization of real-time 3x3 neighborhood processor based on the distributed arithmetic. The proposed architecture is characterized by a bit serial and multi-kernel parallel processing which exploits the pixel kernel parallelism and concurrency. The chip implements 8 neighborhood processing elements in parallel with efficirnt input and output modules which operate concurrently. Besides the a4chitectural design of a neighborhood processor, the design methodology using module generator concept has been considered and MOGOT(MOdule Generator Oriented VLSI design Tool) has been constructed based on the workstation. Based on these design environments MOGOT, it has been shown that the main part of the suggested architecture can be designed efficiently using 2\ulcorner double metal CMOS technology. It includes design of input delay and data conversion module, look-up table for inner product operation, carry save accumulator, output data converter and delay module, and control module.

  • PDF

멀티쓰레드 기반 병렬처리 구조를 이용한 TMN 에이젼트 플랫폼 설계 및 구현 (Design and Implementation of a TMN Agent Platform based on a Multi-thread Parallel Processing Architecture)

  • 김성우;김영탁
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제5권6호
    • /
    • pp.793-800
    • /
    • 1999
  • TMN Agent Platform은 망 요소의 운영상태와 자원들을 GDMO에 따라 관리객체(Managed Object : MO)로 모델링 하고, 자원들의 현재 상태를 유지하며, 관리자(Manager)로부터의 망 관리 기능 요구에 따라 조작된다. 그러므로, 에이전트의 성능향상은 전체적인 통신망 관리의 성능향상에 직접적인 영향을 미친다.본 논문에서는 TMN 에이전트의 기능요구 사항을 분석하고, 이를 토대로 성능향상을 위해 멀티스레드 기법을 사용하는 병렬 처리 구조의 TMN Agent Platform의 기능구조를 제시한다. 또한 에이전트와 다양한 자원들간의 효율적인 메시지전달을 위한 체계를 제시하며, 구현된 TMN Agent Platform의 성능을 분석한다.Abstract TMN Agent manages the operational status and real-resources of network elements, such as switching nodes and transmission systems. It performs the requested management functions from manager and maintains consistent status data of real-resource. The performance of agent system affects directly the performance of network management operation. If the agent is implemented by sequential processing scheme with single process, the agent processing can be delayed or blocked according to the status of real-resources. This problem can be solved by parallel and distributed processing scheme.To improve the processing performance of TMN Agent, we propose a TMN Agent Platform's functional architecture that is based on parallel processing with multi-tread and effective message transferring scheme between agent and various real-resource. We analyze the performance of the implemented TMN Agent Platform.

병렬처리 기법을 이용한 소형 무인비행체용 통합 시현 소프트웨어 플랫폼 개발 (Development of An Integrated Display Software Platform for Small UAV with Parallel Processing Technique)

  • 이영민;황인소;임배현;문용호
    • 대한임베디드공학회논문지
    • /
    • 제11권1호
    • /
    • pp.21-27
    • /
    • 2016
  • An integrated display software platform for small UAV is developed based on parallel processing technique in this paper. When the small UAV with high-performance camera and avionic modules is employed to various surveillance-related missions, it is important to reduce the operator's workload and increase the monitoring efficiency. For this purpose, it is needed to develop an efficient monitoring software enable to manipulate the image and flight data obtained during flight within the given processing time and display them simultaneously. In this paper, we set up requirements and suggest the architecture for the software platform. The integrated software platform is implemented with parallel processing scheme. Based on AR drone, we verified that the various data are concurrently displayed by the suggest software platform.

연속 영상 기반 실시간 객체 분할 (Real-Time Object Segmentation in Image Sequences)

  • 강의선;유승훈
    • 정보처리학회논문지B
    • /
    • 제18B권4호
    • /
    • pp.173-180
    • /
    • 2011
  • 본 논문은 GPU(Graphics Processing Unit) 에서 CUDA(Compute Unified Device Architecture)를 사용하여 실시간으로 객체를 분할하는 방법을 소개한다. 최근에 감시 시스템, 오브젝트 추적, 모션 분석 등의 많은 응용 프로그램들은 실시간 처리가 요구된다. 이러한 단계의 선행부분인 객체 분할 기법은 기존 CPU 기반의 시스템으로는 실시간 처리에 제약이 발생한다. NVIDIA에서는 Parallel Processing for General Computation 을 위해 그래픽 하드웨어 제약을 개선한 CUDA platform을 제공하고 있다. 본 논문에서는 객체 추출 단계에 대표적인 적응적 가우시안 혼합 배경 모델링(Adaptive Gaussian Mixture Background Modeling) 알고리즘과 Classification 기법으로 사용되는 CCL (Connected Component Labeling) 알고리즘을 적용하였다. 본 논문은 2.4GHz를 갖는 Core2 Quad 프로세서와 비교하여 평가하였고 그 결과 3~4배 이상의 성능향상을 확인할 수 있었다.

병렬 데이타베이스 컴퓨터 구조의 성능 분석 (Performance Analysis of Parallel Database Machine Architectures)

  • 이용규
    • 한국정보처리학회논문지
    • /
    • 제5권4호
    • /
    • pp.873-882
    • /
    • 1998
  • 현재 병렬 데이타베이스 컴퓨터가 광범위하고 성공적으로 활용되고 있다. 이의 구조로는 주기억 장치와 디스크를 공유하지 않는 구조, 두가지를 모두 공유하는 구조, 디스크만을 공유하는 구조, 그리고 절충형 구조 등의 네가지 구조가 있다. 이 논문에서는 데이타베이스 컴퓨터 구조의 성능을 비교 분석하기 위하여 데이타베이스 컴퓨터 구조를 추상적인 모형으로 정의하고, 각각의 모형에 대하여 절충형 해쉬 조인 연산의 수행시간을 수식화한 성능식을 구하여 여러 가지 데이타베이스 컴퓨터 구조 모형의 수행시간을 비교 분석한다.

  • PDF