• 제목/요약/키워드: Parallel Processing Architecture

검색결과 397건 처리시간 0.023초

야지 자율주행을 위한 환경에 강인한 지형분류 기법 (Robust Terrain Classification Against Environmental Variation for Autonomous Off-road Navigation)

  • 성기열;유준
    • 한국군사과학기술학회지
    • /
    • 제13권5호
    • /
    • pp.894-902
    • /
    • 2010
  • This paper presents a vision-based robust off-road terrain classification method against environmental variation. As a supervised classification algorithm, we applied a neural network classifier using wavelet features extracted from wavelet transform of an image. In order to get over an effect of overall image feature variation, we adopted environment sensors and gathered the training parameters database according to environmental conditions. The robust terrain classification algorithm against environmental variation was implemented by choosing an optimal parameter using environmental information. The proposed algorithm was embedded on a processor board under the VxWorks real-time operating system. The processor board is containing four 1GHz 7448 PowerPC CPUs. In order to implement an optimal software architecture on which a distributed parallel processing is possible, we measured and analyzed the data delivery time between the CPUs. And the performance of the present algorithm was verified, comparing classification results using the real off-road images acquired under various environmental conditions in conformity with applied classifiers and features. Experiments show the robustness of the classification results on any environmental condition.

블록 암호화 알고리즘 RC6 및 Rijndael에서의 병렬성 활용 (Exploiting Parallelism in the Block Encryption Algorithms RC6 and Rijndael)

  • 정용화;정교일;손승원
    • 정보보호학회논문지
    • /
    • 제11권2호
    • /
    • pp.3-12
    • /
    • 2001
  • 현재 대부분의 상용 마이크로프로세서는 슈퍼스칼라 구조를 채택하고 있으나, 반도체 집적도가 증가함에 따라 슈퍼 스칼라 구조를 대신할 새로운 마이크로프로세서 구조가 제안되고 있다. 본 논문에서는 최근 새로운 마이크로프로세서 구조로 급부상하고 있는 다중처리 마이크로프로세서 구조가 차세대 블록 암호화 알고리즘에 적합한지를 분석한다. 즉, 차세대 블록 암호화 알고리즘인 RC6와 Rijndael에서의 병렬성을 분석하기 위하여 프로그램 구동방식의 시뮬레이션을 수행한 결과, 명령어 수준 병렬성만으로는 성능의 한계를 갖지만 쓰레드 수준 병렬성을 동시에 활용함으로써 추가적인 성능 향상을 얻을 수 있음을 확인하였다

Fundamental Function Design of Real-Time Unmanned Monitoring System Applying YOLOv5s on NVIDIA TX2TM AI Edge Computing Platform

  • LEE, SI HYUN
    • International journal of advanced smart convergence
    • /
    • 제11권2호
    • /
    • pp.22-29
    • /
    • 2022
  • In this paper, for the purpose of designing an real-time unmanned monitoring system, the YOLOv5s (small) object detection model was applied on the NVIDIA TX2TM AI (Artificial Intelligence) edge computing platform in order to design the fundamental function of an unmanned monitoring system that can detect objects in real time. YOLOv5s was applied to the our real-time unmanned monitoring system based on the performance evaluation of object detection algorithms (for example, R-CNN, SSD, RetinaNet, and YOLOv5). In addition, the performance of the four YOLOv5 models (small, medium, large, and xlarge) was compared and evaluated. Furthermore, based on these results, the YOLOv5s model suitable for the design purpose of this paper was ported to the NVIDIA TX2TM AI edge computing system and it was confirmed that it operates normally. The real-time unmanned monitoring system designed as a result of the research can be applied to various application fields such as an security or monitoring system. Future research is to apply NMS (Non-Maximum Suppression) modification, model reconstruction, and parallel processing programming techniques using CUDA (Compute Unified Device Architecture) for the improvement of object detection speed and performance.

H.264/AVC 를 위한 높은 처리량의 2-D $8{\times}8$ integer transforms 병렬 구조 설계 (High Throughput Parallel Design of 2-D $8{\times}8$ Integer Transforms for H.264/AVC)

  • 미투라니 사르마;하니 티와리;조용범
    • 대한전자공학회논문지SD
    • /
    • 제49권8호
    • /
    • pp.27-34
    • /
    • 2012
  • 본 논문에서 H.264표준을 위해 2차원 $8{\times}8$ 순방향/역방향 정수 DCT 변환을 빠르고 효율적으로 계산할 수 있는 알고리즘을 제안한다. 순방향/역방향 변환은 간단한 시프트와 덧셈 동작을 사용하여 계산 복잡도를 줄였으며, DCT 연산에 메모리를 사용하지 않으므로 해서 불필요한 자원소모를 줄였다. 제안된 파이프라인 아키텍처의 최대 동작 주파수는 1.184GHz이며, 합성결과는 44864 게이트가 사용되어 25.27Gpixels/sec의 스루풋을 보여준다. 면적 비율에 비해 높은 스루풋으로 인해, 제안된 설계는 H.264/AVC 고해상도 비디오기술의 실시간 처리에 효율적으로 사용할 수 있다.

임베디드 장치를 위한 동적 서비스 연결 프레임워크 (A Dynamic Service Binding Framework for Embedded Devices)

  • 염귀덕;이정금
    • 정보처리학회논문지A
    • /
    • 제14A권2호
    • /
    • pp.117-124
    • /
    • 2007
  • 최근 IT서비스 분야에서는 서비스들간의 자유로운 융.통합이 이슈로 부각되고 있으며 이를 위해 많은 소프트웨어 개발 벤더들은 SOA(Service-Oriented Architecture)기반의 통합 서비스 플랫폼을 제시하고 있다. 그러나 이러한 서비스 플랫폼들은 주로 엔터프라이즈 어플리케이션을 대상으로 하며 대규모의 복잡한 시스템에만 적재되어 운용되고 있다. 즉, 서비스 융.통합의 관점은 상위 수준의 서비스 어플리케이션에 초점을 맞추고 있으며 하위 수준의 임베디드 소프트웨어 분야는 고려되지 않고 있는 실정이다. 기존 서비스들과 최근 도입되고 있는 임베디드 소프트웨어 기술 기반의 서비스들과의 융.통합을 위해서는 장치에 대한 서비스화를 지원하는 기술이 필요하다. 본 논문에서는 임베디드 장치의 서비스화를 지원하는 SOA기반의 확장 가능한 구조를 가진 동적 서비스 연결 프레임워크를 제시한다. 또한 임베디드 보드 기반의 로봇 장치에 구현한 프레임워크를 적재하여 외부의 이기종 서비스나 장치들과의 다양한 상호작용을 데모 시나리오를 통하여 보여준다.

저가의 그래픽스 장치를 이용한 GPU 클러스터 시스템 구현 (Implementation of a GPU Cluster System using Inexpensive Graphics Devices)

  • 이종민;이중화;김성우
    • 한국멀티미디어학회논문지
    • /
    • 제14권11호
    • /
    • pp.1458-1466
    • /
    • 2011
  • 최근 들어 GPU 성능이 급격하게 향상됨에 따라서 그래픽 처리가 아닌 일반 계산 분야에도 활용하기 위하여 GPGPU 분야에 대한 연구에 많이 이루어지고 있다. 본 논문에서는 저가의 그래픽스 장치에 내재된 GPU를 활용하여 비용 대비 성능이 높은 시스템을 구현하기 위하여 기존의 슈퍼컴퓨터 구조를 벤치마킹한 시스템 구조를 제안하고, 8개의 GPU를 사용하는 GPU 클러스터 시스템을 구현한다. 또한 이를 위한 소프트웨어 환경을 구축하여 n-body 문제를 사용하여 시스템 성능을 분석한다. 성능 평가 결과 사용하는 GPU 수가 많아질수록 통신경비로 인하여 문제 크기가 충분히 커야 효율적임을 알 수 있었다. 그리고 GPU내 자원 부족 문제 때문에 발생하는 문제 크기 제약을 블록 단위로 계산하여 완화할 수 있는 방법을 적용하여 최대 팔백만 개의 천체에 대한 계산을 할 수 있었다.

실시간 스테레오 정합을 위한 스테레오 영상 정합 프로세서 설계 (Design of Stereo Image Match Processor for Real Time Stereo Matching)

  • 김연재;심덕선
    • 전자공학회논문지SC
    • /
    • 제37권2호
    • /
    • pp.50-59
    • /
    • 2000
  • 스테레오 영상(stereo image)이란 같은 물체나 장면을 담고있는 서로 다른 시점의 두 영상이며 스테레오 영상에서 깊이 정보를 얻어내는 것을 스테레오 비전(stereo vision)이라 한다. 스테레오 비전에서 가장 중요한 과정은 두 영상에서 서로 일치하는 점을 찾아내는 스테레오 정합(stereo matching)이다. 그러나, 스테레오 정합은 매우 많은 계산을 필요로 하기 때문에 실시간으로 정합하기 어렵다. 본 논문에서는 실시간으로 스테레오 정합을 처리할 수 있는 스테레오 영상 정합 프로세서(stereo image match procesor:SIMP)를 설계하고 구현하였다. 이를 위해 슬라이딩 메모리(sliding memory)와 최소 선택 트리(minimum selection tree)를 제안하였고 파이프라인 구조(pipeline architecture)와 병렬 처리 기법을 이용하였다. SIMP의 입력은 64 그레이 레벨인 두 개의 64×64 스테레오 영상이고 출력은 최대 7의 값을 가지는 변이(disparity)와 12비트의 주소로 이들을 이용하여 64×64 변이도(disparity map)를 구성할 수 있다. SIMP는 약 240 프레임/초의 속도로 스테레오 영상을 처리할 수 있다.

  • PDF

타원곡선 기반 공개키 암호 시스템 구현을 위한 Scalable ECC 프로세서 (A Scalable ECC Processor for Elliptic Curve based Public-Key Cryptosystem)

  • 최준백;신경욱
    • 한국정보통신학회논문지
    • /
    • 제25권8호
    • /
    • pp.1095-1102
    • /
    • 2021
  • 성능과 하드웨어 복잡도 사이에 높은 확장성과 유연성을 갖는 확장 가능형 ECC 구조를 제안한다. 구조적 확장성을 위해 유한체 연산을 32 비트 워드 단위로 병렬 처리하는 처리요소의 1차원 배열을 기반으로 모듈러 연산회로를 구현하였으며, 사용되는 처리요소의 개수를 1~8개 범위에서 결정하여 회로를 합성할 수 있도록 설계되었다. 이를 위해 워드 기반 몽고메리 곱셈과 몽고메리 역원 연산의 확장 가능형 알고리듬을 적용하였다. 180-nm CMOS 공정으로 확장 가능형 ECC 프로세서 (sECCP)를 구현한 결과, NPE=1인 경우에 100 kGE와 8.8 kbit의 RAM으로 구현되었고, NPE=8인 경우에는 203 kGE와 12.8 kbit의 RAM으로 구현되었다. sECCP가 100 MHz 클록으로 동작하는 경우, NPE=1인 경우와 NPE=8인 경우의 P256R 타원곡선 상의 점 스칼라 곱셈을 각각 초당 110회, 610회 연산할 수 있는 것으로 분석되었다.

연산 순서 변경에 따른 범용 프로세서에서 효율적인 CHAM-like 구조 (Efficient CHAM-Like Structures on General-Purpose Processors with Changing Order of Operations)

  • 신명수;김선규;신한범;김인성;김선엽;권동근;홍득조;성재철;홍석희
    • 정보보호학회논문지
    • /
    • 제34권4호
    • /
    • pp.629-639
    • /
    • 2024
  • CHAM은 ISO/IEC 표준 블록암호 운영 모드에서 암호화 함수가 복호화 함수보다 자주 사용되는 점을 고려하여 암호화 속도를 강조하여 설계되었다. 현대 범용 프로세서 구조의 슈퍼스칼라 아키텍처에서는 연산 구성이 동일하더라도 연산의 순서가 달라지면 처리 속도가 달라질 수 있다. 본 논문에서는 ARX 기반 블록암호인 CHAM의 연산 순서를 재배치한 구조 CHAM-like 구조들에 대해 범용 프로세서 환경에서 단일 블록 구현과 병렬 구현에 대한 구현 효율성과 안전성을 분석한다. 본 논문에서 제시한 구조는 암호화 속도 관점에서 최소 약 9.3%에서 최대 약 56.4% 효율적이다. 안전성 분석은 CHAM-like 구조들에 차분 공격과 선형 공격에 대한 저항성을 평가한다. 보안마진 관점에서 차분 공격은 3.4%, 선형 공격은 6.8% 차이를 보여 효율성 차이에 비해 보안 강도는 비슷함을 보인다. 이러한 결과는 ARX 기반 블록암호 설계 관점에서 활용가능하다.

UHD 영상의 실시간 처리를 위한 고성능 HEVC In-loop Filter 부호화기 하드웨어 설계 (Hardware Design of High Performance In-loop Filter in HEVC Encoder for Ultra HD Video Processing in Real Time)

  • 임준성;;류광기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.401-404
    • /
    • 2015
  • 본 논문에서는 UHD급 영상의 실시간 처리를 위한 고성능 HEVC(High Efficiency Video Coding) In-loop Filter 부호화기의 효율적인 하드웨어 구조를 제안한다. HEVC는 양자화 에러로 발생하는 화질 열화 문제를 해결하기 위해 Deblocking Filter와 SAO(Sample Adaptive Offset)로 구성된 In-loop Filter를 사용한다. 본 논문에서 제안하는 In-loop Filter 부호화기 하드웨어 구조에서 Deblocking Filter와 SAO는 수행시간 단축을 위해 $32{\times}32CTU$를 기준으로 2단 하이브리드 파이브라인 구조를 갖는다. Deblocking Filter는 10단계 파이프라인 구조로 수행되며, 메모리 접근 최소화 및 참조 메모리 구조의 단순화를 위해 효율적인 필터링 순서를 제안한다. 또한 SAO는 화소들의 분류와 SAO 파라미터 적용을 2단계 파이프라인 구조로 구현하고, 화소들의 처리를 간소화 및 수행 사이클 감소를 위해 두 개의 병렬 Three-layered Buffer를 사용한다. 본 논문에서 제안하는 In-loop Filter 부호화기 하드웨어 구조는 Verilog HDL로 설계하였으며, TSMC 0.13um CMOS 표준 셀 라이브러리를 사용하여 합성한 결과 약 205K개의 게이트로 구현되었다. 또한 110MHz의 동작주파수에서 4K UHD급 해상도인 $3840{\times}2160@30fps$의 실시간 처리가 가능하다.

  • PDF