• 제목/요약/키워드: 병렬 연산 처리

검색결과 554건 처리시간 0.024초

국소 천이규칙을 갖는 셀룰러 오토마타를 이용한 영상 첨예화 (Image Sharpening based on Cellular Automata with the Local Transition Rule)

  • 이석기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.502-504
    • /
    • 2010
  • 영상 강조를 위하여 새로운 셀룰러 오토마타의 천이규칙을 제안하고 그것을 이용한 첨예화 알고리즘을 제안한다. 천이 규칙은 순차적이고 병렬적인 움직임을 가지며 Lyapunov함수를 만족한다. 영상 첨예화는 셀룰러 오토마타의 고정된 점으로 수렴하는 동적인 특성을 이용하여 천이 규칙을 개발, 실험하였다. 영상에 대한 사전지식 없이 상대적으로 밝기값의 차이가 완만한 부분에 연산을 집중해 효율적인 첨예화된 영상을 얻을 수 있다.

SURF 기반 특징점 추출 및 서술자 생성의 FPGA 구현 (FPGA Implementation of SURF-based Feature extraction and Descriptor generation)

  • 나은수;정용진
    • 한국멀티미디어학회논문지
    • /
    • 제16권4호
    • /
    • pp.483-492
    • /
    • 2013
  • SURF는 영상의 특징점을 추출하고 서술자를 생성하는 알고리즘으로 객체인식 및 추적, 파노라마 이미지 생성 등 여러 영상처리 시스템에 응용되고 있다. SURF 알고리즘은 영상의 크기, 회전, 시점 등의 변화에 강인한 특징을 갖지만 복잡하고 반복적인 연산이 많아 실시간 처리가 어렵다. 실제 PC(Pentium, 3.3GHz) 환경에서 1000개 정도의 특징점이 추출되는 VGA($640{\times}480$) 해상도의 영상을 이용하여 실험한 결과 특징점 추출 및 서술자 생성에 총 240ms 이상이 걸려 약 4frame/sec로 실시간 처리가 불가능한 것을 확인하였다. 본 논문에서는 SURF 알고리즘의 메모리 접근 패턴을 분석하여 라인 메모리를 효율적으로 구성해 메모리 사용을 최소화하고 반복적으로 수행되는 연산을 병렬처리 하는 방법으로 하드웨어를 설계하였다. 하드웨어 설계 검증 결과 Xilinx사의 Virtex5LX330 FPGA를 타겟으로 합성 시 101,348LUTs(66%)와 1,367KB의 내부 메모리를 사용하고, 100MHz 동작 클록에서 30 frame/sec로 실시간 처리가 가능함을 볼 수 있었다.

벡타 연산을 효율적으로 수행하기 위한 다중 스레드 구조 (A Multithreaded Architecture for the Efficient Execution of Vector Computations)

  • 윤성대;정기동
    • 한국정보처리학회논문지
    • /
    • 제2권6호
    • /
    • pp.974-984
    • /
    • 1995
  • 본 논문에서는 벡타연산을 효율적으로 수행하고 대단위 병렬시스템을 지원하는 다중 스레드구조, MULVEC(MULtithreaded architecture of the VEctor Computations) 을 제시한다. MULVEC은 데이타플로우 모델에 수퍼 스칼라 RISC 마이크로 프로세서를 갖는 기존의 폰 노이만 모델을 도입하였다. 그리고 동일한 스레드 세그멘트내에 벡타 연산이 반복되는 경우에 상태필드를 이용하여 동기화의 수를 감축시켰으며, 이에 의해 문맥전환 횟수, 통신량 등을 감소시켰다. 그리고 노드 수의 변화에 대한 MULVEC의 성능평가(프로그램들의 수행시간, 프로세서들의 이용율)와 *T의 성능평가(프로그램의 수행시간)를 SPARC station 20 (super scalar RISC microprocessor)에서 시뮬레이션을 하였으며, 노드의 수, 루프의 반복홋수 등에 따라 프로그램의 수행시간이 MULVEC이 *T보 다 약 1-2배 정도 빠르다는 것을 알 수 있었다.

  • PDF

GPGPU와 Combined Layer를 이용한 필기체 숫자인식 CNN구조 구현 (Implementation of handwritten digit recognition CNN structure using GPGPU and Combined Layer)

  • 이상일;남기훈;정준모
    • 문화기술의 융합
    • /
    • 제3권4호
    • /
    • pp.165-169
    • /
    • 2017
  • CNN(Convolutional Nerual Network)는 기계학습 알고리즘 중에서도 이미지의 인식과 분류에 뛰어난 성능을 보이는 알고리즘 중 하나이다. CNN의 경우 간단하지만 많은 연산량을 가지고 있어 많은 시간이 소요된다. 따라서 본 논문에서는 CNN 수행과정에서 많은 처리시간이 소모되는 convolution layer와 pooling layer, fully connected layer의 연산수행을 SIMT(Single Instruction Multiple Thread)구조의 GPGPU(General-Purpose computing on Graphics Processing Units)를 통하여 병렬로 연산처리를 수행했다. 또한 convolution layer의 출력을 저장하지 않고 pooling layer의 입력으로 바로 사용함으로 메모리 접근횟수를 줄여 성능 향상을 기대했다. 본 논문에서는 이 실험검증을 위하여 MNIST 데이터 셋을 사용하였고 이를 통하여 제안하는 CNN 구조가 기존의 구조보다 12.38% 더 좋은 성능을 보임을 확인했다.

실시간 스테레오 비젼 시스템을 위한 SAD 정합연산기 설계 (Development of a SAD Correlater for Real-time Stereo Vision)

  • 이정수;양승구;김준성
    • 전자공학회논문지CI
    • /
    • 제45권1호
    • /
    • pp.55-61
    • /
    • 2008
  • 실시간 삼차원 영상은 충돌 방지를 위한 수동 시스템을 포함하는 다양한 응용 분야에 활용될 수 있으며, 기존 능동 시스템에 대한 훌륭한 대안으로서 잡음이 많은 복잡한 환경에서 외부의 영향을 최소화 할 수 있는 장점이 있다. 본 논문에서는 하드웨어 자원 사용량에 주목하여 실시간 삼차원 영상을 위한 스테레오 비전 시스템의 최적화에 관한 연구를 진행하였다. SAD 알고리즘은 규칙적인 구조, 선형적인 데이터 흐름과 풍부한 병렬성을 가지므로 재구성 가능한 하드웨어에서 구현하기 위한 좋은 조건을 가지고 있다. HDL을 이용하여 SAD 정합연산기를 설계하고 하드웨어 자원 사용량과 성능을 확인하기 위해서 Xilinx를 사용하여 합성하였다. 실험을 통하여, 초당 30프레임을 실시간으로 처리할 수 있는 충분한 처리 속도를 가지고 있으며, 적은 자원은 사용하면서 높은 정합율을 보이는 SAD 정합연산기를 설계하였음을 확인하였다.

클라우드 기반 UHD 영상 트랜스코딩 시스템 (UHD Video Transcoding System in Cloud Computing Environment)

  • 문희철;김용환;김동혁
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2014년도 추계학술대회
    • /
    • pp.203-205
    • /
    • 2014
  • UHD 영상 콘텐츠는 FHD 영상에 비해 생생하고 더 좋은 고화질의 영상을 제공하지만 영상정보의 데이터 양은 4K UHD 경우 4 배 이상이다. 이러한 초대용량의 UHD 영상을 기존의 병렬/분산 처리를 이용하여 비디오 코딩 한다면 UHD 의 초대용량 특성으로 인하여 연산량 부하가 발생하게 된다. 따라서 UHD 영상은 기존의 분산처리 방식이 아닌 초대용량 데이터를 빠르게 처리 할 수 있는 새로운 분산 처리기술이 필요하다. 본 논문은 UHD 콘텐츠를 빠르게 트랜스코딩 할 수 있는 클라우드 기반 UHD 영상 트랜스코딩 시스템을 제안한다. 본 논문에서 제안하는 UHD 영상 트랜스코딩 시스템은 다음 3 가지 패킷 분석기, 분산 트랜스코더, 스트림 합성기로 구성된다. 패킷 분석기는 입력 영상을 분석하여 오디오와 비디오 스트림을 분할하고 비디오 스트림은 분산처리를 할 수 있도록 영상 패킷을 분할한다. 분산 트랜스코더는 클라우드 환경을 이용하여 분할된 영상 패킷들을 분산 디코드 및 인코드 처리한다. 스트림 합성기는 트랜스코딩이 완료된 비디오 스트림과 패킷 분석기에서 획득하였던 오디오 스트림을 합성하는 기능을 한다. 제시하는 방안을 적용하여 클라우드 기반 영상 트랜스 코딩 시스템을 구현하였으며, 구현된 시스템은 대용량의 UHD 영상을 빠른 속도로 트랜스코딩이 가능하다.

  • PDF

다중 언폴딩 기법을 이용한 SHA-1 해쉬 알고리즘 고속 구현 (Implementation of High-Throughput SHA-1 Hash Algorithm using Multiple Unfolding Technique)

  • 이은희;이제훈;장영조;조경록
    • 대한전자공학회논문지SD
    • /
    • 제47권4호
    • /
    • pp.41-49
    • /
    • 2010
  • 본 논문은 다중 언폴딩 기법을 이용한 고속 SHA-1 해쉬 알고리즘 구현 방법을 제시하였다. 제안된 SHA-1 해쉬 구조는 알고리즘의 반복적인 단계 연산을 언폴딩한 후 연산의 순서를 재 배열하고, 임계경로에 포함된 연산의 일부를 이전 단계에서 선행연산하여 임계경로의 길이를 줄였다. 제안된 SHA-1 해쉬 구조는 최대 118 MHz의 동작주파수에서 5.9 Gbps 처리량을 나타낸다. 이는 기존의 SHA-1 보다 전송량이 26% 증가하였고, 회로 크기가 32% 감소하는 결과를 얻었다. 또한 이 논문에서는 여러 개의 SHA-1 모듈을 시스템 레벨에서 병렬로 연결하여 여러 개의 SHA-1을 다중 처리하여 고속화를 할 수 있는 모델을 제안했다. 이 모델은 하나의 SHA-1을 사용하는 것보다 빠르게 데이터를 처리할 수 있고 입력되는 데이터의 최소한의 지연으로 처리 가능하다. 제안된 모델은 입력되는 데이터가 지연 없이 처리 되도록 하기 위해 필요로 하는 SHA-1의 FPGA 수를 구할 수도 있다. 고속화된 SHA-1은 압축된 메시지에 유용하게 사용될 수 있고 모바일 통신이나 인터넷 서비스 등의 강한 보안에 널리 이용가능하다.

GPGPU를 이용한 영상 품질 측정 프로그램의 가속화 연구 (Research of accelerating method of video quality measurement program using GPGPU)

  • 이성욱;변기범;김기수;홍지만
    • 스마트미디어저널
    • /
    • 제5권4호
    • /
    • pp.69-74
    • /
    • 2016
  • 최근 그래픽 처리 장치(GPU)의 발전과 개발자 친화적인 GPGPU(General-Purpose computing on Graphics Processing Units)기술의 발전으로 인해 그래픽 처리 장치를 활용한 병렬 컴퓨팅의 사용이 확대되고 있다. 이를 통해 과학, 의학, 공학 등 많은 분야에 걸쳐 기존 CPU 컴퓨팅 환경보다 더 빠른 처리속도로 결과 값을 얻어 낼 수 있게 되었다. 본 논문은 CPU 기반 컴퓨팅과 GPU 기반 컴퓨팅의 연산처리 속도의 차이의 비교를 위해 기존 CPU 기반으로 구현된 영상 품질 측정 프로그램을 NVIDIA사의 GPGPU기술을 사용할 수 있도록 프로그램을 포팅한다. 포팅한 프로그램을 바탕으로 GPGPU기술을 통한 프로그램의 가속화에 대하여 연구한다. 가속화된 프로그램은 CPU 기반의 프로그램보다 약 1.83배 정도의 실행 속도를 가진다. 또한 CPU 기반의 프로그램을 GPU 기반으로 수정할 때 생기는 제약과 문제점에 대해서도 기술한다.

클러스터 VOD 서버의 부분적 장애에서 QoS 보장 (QoS Guarantee in Partial Failure of Clustered VOD Server)

  • 이좌형;정인범
    • 정보처리학회논문지C
    • /
    • 제16C권3호
    • /
    • pp.363-372
    • /
    • 2009
  • 대용량 VOD 서비스를 위한 서버로 높은 성능과 낮은 가격의 클러스터 서버가 주목받고 있다. 일반적으로 클러스터 서버는 하나의 front-end 노드와 여러 back-end 노드로 구성된다. back-end 노드 수를 증가시키면 더 많은 클라이언트들에게 QoS를 보장하는 스트리밍 서비스를 할 수 있지만, back-end 노드의 오류 가능성도 이와 비례하여 증가한다. 서버의 장애는 모든 스트리밍 서비스를 중단시킬 뿐 아니라 현재 재생 위치 정보도 잃어버린다. 본 논문에서는 back-end 노드가 오류 상태가 될 때, 끊이지 않는 스트리밍 서비스를 지원하기 위한 복구 방법을 제안한다. 실제 VOD 서비스 환경을 위해, 일반 PC로 구성된 클러스터 기반의 VOD 서버를 구현하였으며, MPEG 영화를 위한 병렬 처리 기법을 사용하였다. 구현된 VOD 서버에 패리티 연산을 이용한 비디오 블록 복구 방법을 설계하였다. 하지만, 클러스터 기반의 VOD 서버 구조를 고려하지 않으면 복구를 위한 내부 네트워크 성능의 병목현상과 back-end 노드들의 비효율적인 CPU 사용을 야기시킨다. 본 논문에서는 이러한 문제를 해결하기 위해, 파이프라인 개념을 이용한 새로운 장애 복구 방법을 제안한다.

시변 잡음에 대처하기 위한 다중 모델을 이용한 PCMM 기반 특징 보상 기법 (PCMM-Based Feature Compensation Method Using Multiple Model to Cope with Time-Varying Noise)

  • 김우일;고한석
    • 한국음향학회지
    • /
    • 제23권6호
    • /
    • pp.473-480
    • /
    • 2004
  • 본 논문에서는 잡음 환경에서 강인한 음성 인식을 위하여 음성 모델을 기반으로 하는 효과적인 특징 보상 기법을 제안한다. 제안하는 특징 보상 기법은 병렬 결합된 혼합 모델 (PCMM)을 기반으로 한다. 기존의 PCMM 기반의 기법은 시간에 따라 변하는 잡음 환경을 반영하기 위하여 매 음성 입력마다 복잡한 과정의 혼합 모델 결합이 필요하다. 제안하는 기법에서는 다중의 혼합 모델을 보간하는 방법을 채용함으로써 시간에 따라 변하는 배경 잡음에 대응할 수 있다. 보다 신뢰성 있는 혼합 모델 생성을 위하여 데이터 유도 기반의 방법을 도입하고, 실시간 처리를 위하여 프레임에 동기화된 환경 사후 확률 예측 과정을 제안한다. 다중 모델로 인한 연산량 증가를 막기 위하여 혼합 모델을 공유하는 기법을 제안한다. 가우시안 혼합 모델 사이에 통계학적으로 유사한 요소들을 선택하여 공유에 필요한 공통 모델을 생성한다. Aurora 2.0 데이터베이스와 실제 자동차 주행 환경에서 수집된 음성 데이터베이스에 대한 성능 평가를 실시한다. 실험 결과로부터 제안한 기법이 모의 환경과 실제 잡음 환경에서 강인한 음성 인식 성능을 가져오고 연산량 감소에 효과적임을 확인한다.