• 제목/요약/키워드: SIMD Computer

검색결과 64건 처리시간 0.037초

모바일 환경에서 실시간 영상 전경 추출 연구 (Real-time Video Matting for Mobile Device)

  • 윤종철
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권5호
    • /
    • pp.487-492
    • /
    • 2018
  • 최근 모바일 기기의 영상 촬영 기능의 확대에 따라, 영상처리를 위한 다양한 어플리케이션들이 모바일 환경으로 이식되고 있다. 또한 모바일 기기의 컴퓨팅 능력또한 상승으로 기존에 컴퓨터에서만 가능하였던 다양한 영상처리기술들이 모바일 환경으로 이식되고 있다. 이러한 영상처리 기술 중, 사용자가 촬영한 영상에서 전경만을 추출하여 원하는 새로운 배경에 합성하는 문제는 다양한 어플리케이션에서 사용이 가능하나 계산이 복잡하다는 문제점으로 모바일환경 이식에 어려움을 가지고 있었다. 본 연구에서는 모바일 기기로 촬영된 영상을 전경/배경으로 구분하여 목표 영상에 실시간으로 합성할 수 있는 영상합성 기술을 제안한다. 사용자가 촬영한 영상에서 배경이 움직이지 않는다는 가정하에 자동으로 전경을 추출하며 이를 새로운 배경에 합성하는 기법을 소개한다. 모바일 촬영의 특성을 고려하여 촬영시 약한 움직임을 포함하는 영상에서의 자동 전경 추출 알고리즘을 개발하며 이를 SIMD 및 GPGPU기반의 가속화 알고리즘을 사용하여 SD급 화질의 영상에 대해 모바일 상에서 실시간 처리가 가능한 결과를 보인다. 본 논문의 기술을 사용하여 상용화 가능한 영상처리 어플리케이션의 개발이 가능하다.

실시간 HEVC 인코더 구현을 위한 병렬화 기법에 관한 연구 (Study of parallelization methods for real-time HEVC encoder implementation)

  • 안용조;황태진;이동규;김상민;오승준;심동규
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.119-122
    • /
    • 2013
  • ITU-T VCEG 과 ISO/IEC MPEG 이 공동으로 구성한 JCT-VC (Joint Collaborative Team on Video Coding)이 표준화를 진행 중인 HEVC (High Efficiency Video Coding)은 H.264/AVC 대비 약 2 배의 압축효율을 갖는다. 하지만, 계층적 구조를 갖는 가변크기 블록의 사용과 재귀적 부호화 구조에 따른 인코더의 복잡도 증가는 개선해야 할 문제점으로 지적되고 있다. 본 논문에서는 현재 표준화가 진행 중인 HEVC 인코더의 실시간 구현을 위한 SIMD 명령어를 이용한 data-level 병렬화 기법, CPU 및 GPU 를 이용한 multi-threading 기법과 같은 다양한 병렬화 기법을 소개한다. 또한, 이러한 병렬화 기법들을 HEVC 인코더에 적용하기 위해 적합한 연산 및 기능 모듈에 대하여 소개한다. 본 연구를 통하여 HM (HEVC reference model)에 적용한 결과 $832{\times}480$ 영상의 경우 20-30fps 의 부호화 속도를 나타냈으며, $1920{\times}1080$ 영상의 경우 5-10fps 의 부호화 속도를 나타내었다.

  • PDF

소프트웨어 기반 실시간 HEVC 인코더 구현을 위한 병렬화 기법에 관한 연구 (Study of Parallelization Methods for Software based Real-time HEVC Encoder Implementation)

  • 안용주;황태진;이동규;김상민;오승준;심동규
    • 방송공학회논문지
    • /
    • 제18권6호
    • /
    • pp.835-849
    • /
    • 2013
  • ISO/IEC MPEG과 ITU-T VCEG이 공동으로 구성한 JCT-VC (Joint Collaborative Team on Video Coding)가 표준화를 진행한 HEVC (High Efficiency Video Coding)는 H.264/AVC 대비 약 2배 혹은 그 이상의 압축효율을 목표로 표준화가 시작되었다. 하지만, 계층적 구조를 갖는 가변크기 블록의 사용과 재귀적 부호화 구조에 따른 인코더의 복잡도 증가는 개선해야 할 문제점으로 지적되고 있다. HEVC 인코더의 복잡도를 감소시키기 위하여 다양한 고속화 알고리즘들이 제안되고 있으나, 고속화 알고리즘으로 얻을 수 있는 속도 향상만으로 HEVC 인코더의 실시간성을 확보하기에는 어려움이 있다. 본 논문에서는 현재 표준화가 완료된 HEVC 인코더의 실시간 구현을 위하여 SIMD 명령어를 이용한 데이터 수준 병렬화 기법, CPU 및 GPU를 이용한 멀티스레딩 기법과 같은 다양한 병렬화 기법을 소개한다. 또한, 이러한 병렬화 기법들을 HEVC 인코더에 적용하기 위해 적합한 연산 및 기능 모듈에 대하여 소개한다. 본 연구에서 제안한 방법을 HM (HEVC reference model) 10.0에 적용한 결과 $832{\times}480$ 영상의 경우 20~30fps의 부호화 속도를 나타냈으며, $1920{\times}1080$ 영상의 경우 5~10fps의 부호화 속도를 나타내었다.

Performance Comparison of Two Parallel LU Decomposition Algorithms on MasPar Machines

  • 김영태
    • 전기전자학회논문지
    • /
    • 제2권2호
    • /
    • pp.247-254
    • /
    • 1998
  • This paper presents a performance study of two LU decomposition algorithms on two massively parallel SIMD machines: the 16K processor MasPar MP-1 and the 4K processor MasPar MP-2. The paper presents experimental results and an analysis of the algorithms to explain the results. While the blocked and the nonblocked algorithms for LU decomposition have been studied individually by others, we compare the two algorithms and identify the tradeoffs between them. Our analysis of the blocked algorithm shows how the block size affects the interprocessor communication cost and the memory read/write overhead. The analysis in this paper is useful to determine an optimum block size for the blocked algorithm.

  • PDF

Heap 병합 병렬 알고리즘 (On the parallel merging algorithm)

  • 민용식
    • 한국음향학회지
    • /
    • 제12권2호
    • /
    • pp.5-13
    • /
    • 1993
  • The purpose of this paper is to suggest and analyze the parallel algorithm for merging two heaps, on SIMD-SM-R parallel computer. In order to create the parallel algorithm for merging two heaps, we have classified two subproblems. For the first method, to select node p as a LEVEL-FIND function, Wyllie(19) suggests the method with time complexity O(log n) while this thesis has O(log(n/k)). For the second method, to merge two subheap, our algorithm has O(log(n/k)*log(n)) using max(2**(i-1), 「(m+1)/4」)'s processors while Dekel and Sahni(4)'s method and Hong's method(18) have O(log m). Also our parallel algorithm's EPU is close to 1 and so has an optimal speed-up ratio.

  • PDF

기타 음 합성을 위한 최적의 SIMD기반 매니코어 프로세서 구현 (Implementation of an Optimal SIMD-based Many-core Processor for Sound Synthesis of Guitar)

  • 최지원;강명수;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권1호
    • /
    • pp.1-10
    • /
    • 2012
  • 프로세서는 더 이상 동작 주파수를 높이는 방법이 아닌 다수의 프로세서를 집적하는 멀티프로세서로 기술 발전이 이루어지고 있다. 최근 2, 4, 8개의 프로세서 코어를 넘어 64, 128개 이상의 프로세서를 집적한 대규모 데이터 처리용 고성능 프로세서들이 개발되고 있다. 본 논문에서는 기타의 음 합성을 위한 최적의 매니코어 프로세서 구조를 제안한다. 기존의 연구에서는 하나의 기타 현에 하나의 프로세싱 엘리먼트(processing element, PE)를 할당하여 음을 합성하였으나, 본 논문은 하나의 기타 현에 여러 개의 PE를 할당하고 각각의 경우에 대해 시스템 성능, 시스템 면적 효율 및 에너지 효율을 평가하였다. 샘플링율이 44.1kHz, 양자화 비트 16인 기타 음을 사용하여 모의 실험한 결과, 시스템 면적 효율은 PE 수가 24개, 에너지 효율은 PE 수가 96개일 때 각각 최적의 효율을 보였다. 또한, 최적의 매니코어 프로세서를 이용하여 합성한 결과 합성음은 원음과 스펙트럼에서 매우 유사하였다. 더불어, 음 합성에 가장 많이 사용되는 TI TMS320C6416보다 시스템 면적에서 1,235배, 에너지 효율에서 22배의 향상을 보였다.

고속의 클러스터 추정을 위한 매니코어 프로세서의 디자인 공간 탐색 (Design Space Exploration of Many-Core Processor for High-Speed Cluster Estimation)

  • 서준상;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권10호
    • /
    • pp.1-12
    • /
    • 2014
  • 본 논문에서는 단일 명령어, 다중 데이터 처리 기반의 매니코어 프로세서를 이용하여 높은 계산량이 요구되는 차감 클러스터링 알고리즘을 병렬 구현하고 성능을 향상시킨다. 또한 차감 클러스터링 알고리즘을 위한 최적의 매니코어 프로서서 구조를 선택하기 위해 다섯 가지의 프로세싱 엘리먼트 (processing element, PE) 구조 (PEs=16, 64, 256, 1,024, 4,096)를 모델링하고, 각 PE구조에 대해 실행시간 및 에너지 효율을 측정한다. 두 가지 의료 영상 및 각 영상의 세 가지 해상도(($128{\times}128$, $256{\times}256$, $512{\times}512$)를 이용하여 모의 실험한 결과, 모든 경우에 대해 PEs=4,096구조에서 최고의 성능 및 에너지 효율을 보였다.

Improved Disparity Map Computation on Stereoscopic Streaming Video with Multi-core Parallel Implementation

  • Kim, Cheong Ghil;Choi, Yong Soo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권2호
    • /
    • pp.728-741
    • /
    • 2015
  • Stereo vision has become an important technical issue in the field of 3D imaging, machine vision, robotics, image analysis, and so on. The depth map extraction from stereo video is a key technology of stereoscopic 3D video requiring stereo correspondence algorithms. This is the matching process of the similarity measure for each disparity value, followed by an aggregation and optimization step. Since it requires a lot of computational power, there are significant speed-performance advantages when exploiting parallel processing available on processors. In this situation, multi-core CPU may allow many parallel programming technologies to be realized in users computing devices. This paper proposes parallel implementations for calculating disparity map using a shared memory programming and exploiting the streaming SIMD extension technology. By doing so, we can take advantage both of the hardware and software features of multi-core processor. For the performance evaluation, we implemented a parallel SAD algorithm with OpenMP and SSE2. Their processing speeds are compared with non parallel version on stereoscopic streaming video. The experimental results show that both technologies have a significant effect on the performance and achieve great improvements on processing speed.

PU 기반 On-the-fly 업샘플링을 이용한 SHVC 복호화기 고속화 방법 (Fast SHVC Decoder using PU-based On-the-fly Up-Sampling)

  • 김승휘;이동규;채찬엽;심동규;강정원;오승준
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 추계학술대회
    • /
    • pp.110-113
    • /
    • 2015
  • SHVC(Scalable High efficiency Video Coding)는 다양한 멀티미디어 서비스 환경에서 높은 코딩 효율을 위해 공간적, 시간적, 화질적 스케일러빌리티를 이용한 표준 기술이다. SHVC는 멀티-계층 부/복호화를 수행하기 때문에 싱글-계층인 HEVC(High Efficiency Video Coding) 보다 추가적인 복잡도를 요구한다. 본 논문에서는 SHVC 복호화기의 복잡도를 분석하고 SHVC 복호화기에서 높은 복잡도를 차지하는 프레임 기반 업샘플링을 PU 기반 On-the-fly 업샘플링(On-the-fly Up-sampling) 방법과 SIMD 연산을 통해 고속화 한다. 제안하는 알고리즘이 적용된 SHVC 복호화기는 기존 SHVC 복호화기의 복호화 시간보다 평균 1.23배 고속화 성능을 보이며 업샘플링의 복잡도가 24.7%에서 1.9%로 감소하였다. On-the-fly 업샘플링 과정은 기존 프레임 레벨 업샘플링 과정 대비 평균 90.3% 수행시간 감소율을 보인다.

  • PDF

GPGPU를 이용한 고속 영상 합성 기법 (Fast View Synthesis Using GPGPU)

  • 신홍창;박한훈;박종일
    • 방송공학회논문지
    • /
    • 제13권6호
    • /
    • pp.859-874
    • /
    • 2008
  • 본 논문은 3차원 디스플레이 시스템에서 카메라의 기하 정보 및 참조 영상들의 깊이 맵 정보가 주어졌을 때, 다수의 중간 시점 영상을 실시간으로 생성하는 고속 영상 합성 기법을 제안한다. 기본적으로 본 논문에서는 영상 합성 기법의 모든 과정을 GPU에 서 병렬 처리함으로써 고속화 할 수 있었다. 병렬처리를 이용한 고속화 효율을 높이기 위해 최근 NVIDIA사에서 발표한 $CUDA^{TM}$를 이용하였다. 영상 합성을 위한 모든 중간 과정을 CUDA로 처리하기 위해 병렬구조로 변환하고, GPU 상의 고속메모리의 사용을 극대화하고, 알고리즘 구현을 최적화함으로써 고속화 효율을 높일 수 있었다. 결과적으로 본 논문에서는 양안 영상과 깊이 지도를 이용하여 가로 720, 세로 480 크기의 9개의 시점 영상을 0.128초 이내에 생성할 수 있었다.