• Title/Summary/Keyword: 병렬프로세서

Search Result 578, Processing Time 0.041 seconds

Optimized implementation of block cipher PIPO in parallel-way on 64-bit ARM Processors (64-bit ARM 프로세서 상에서의 블록암호 PIPO 병렬 최적 구현)

  • Eum, Si-Woo;Kwon, Hyeok-Dong;Kim, Hyun-Jun;Jang, Kyung-Bae;Kim, Hyun-Ji;Park, Jae-Hoon;Sim, Min-Joo;Song, Gyeong-Ju;Seo, Hwa-Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.163-166
    • /
    • 2021
  • ICISC'20에서 발표된 경량 블록암호 PIPO는 비트 슬라이스 기법 적용으로 효율적인 구현이 되었으며, 부채널 내성을 지니기에 안전하지 않은 환경에서도 안정적으로 사용 가능한 경량 블록암호이다. 본 논문에서는 ARM 프로세서를 대상으로 PIPO의 병렬 최적 구현을 제안한다. 제안하는 구현물은 8평문, 16평문의 병렬 암호화가 가능하다. 구현에는 최적의 명령어 활용, 레지스터 내부 정렬, 로테이션 연산 최적화 기법을 사용하였다. 구현은 A10x fusion 프로세서를 대상으로 한다. 대상 프로세서상에서, 기존 레퍼런스 PIPO 코드는 64/128, 64/256 규격에서 각각 34.6 cpb, 44.7 cpb의 성능을 가지나, 제안하는 기법은 8평문 64/128, 64/256 규격에서 각각 12.0 cpb, 15.6 cpb, 16평문 64/128, 64/256 규격에서 각각 6.3 cpb, 8.1 cpb의 성능을 보여준다. 이는 기존 대비 각 규격별로 8평문 병렬 구현물은 약 65.3%, 66.4%, 16평문 병렬 구현물은 약 81.8%, 82.1% 더 좋은 성능을 보인다.

Implementation of Parallel Processor for Sound Synthesis of Guitar (기타의 음 합성을 위한 병렬 프로세서 구현)

  • Choi, Ji-Won;Kim, Yong-Min;Cho, Sang-Jin;Kim, Jong-Myon;Chong, Ui-Pil
    • The Journal of the Acoustical Society of Korea
    • /
    • v.29 no.3
    • /
    • pp.191-199
    • /
    • 2010
  • Physical modeling is a synthesis method of high quality sound which is similar to real sound for musical instruments. However, since physical modeling requires a lot of parameters to synthesize sound of a musical instrument, it prevents real-time processing for the musical instrument which supports a large number of sounds simultaneously. To solve this problem, this paper proposes a single instruction multiple data (SIMD) parallel processor that supports real-time processing of sound synthesis of guitar, a representative plucked string musical instrument. To control six strings of guitar, we used a SIMD parallel processor which consists of six processing elements (PEs). Each PE supports modeling of the corresponding string. The proposed SIMD processor can generate synthesized sounds of six strings simultaneously when a parallel synthesis algorithm receives excitation signals and parameters of each string as an input. Experimental results using a sampling rate 44.1 kHz and 16 bits quantization indicate that synthesis sounds using the proposed parallel processor were very similar to original sound. In addition, the proposed parallel processor outperforms commercial TI's TMS320C6416 in terms of execution time (8.9x better) and energy efficiency (39.8x better).

Fault-tolerant Scheduling of Real-time Parallel Tasks with Energy Efficiency on Multicore Processors (멀티코어 프로세서 상에서 에너지 효율을 고려한 실시간 병렬 작업들의 결함 포용 스케쥴링)

  • Lee, Kwanwoo
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.3 no.6
    • /
    • pp.173-178
    • /
    • 2014
  • By exploiting parallel processing, the proposed scheduling scheme enhances energy saving capability of multicore processors for real-time tasks while satisfying deadline and fault tolerance constraints. The scheme searches for a near minimum-energy schedule within a polynomial time, because finding the minimum-energy schedule on multicore processors is a NP-hard problem. The scheme consumes manifestly less energy than the state-of-the-arts method even with low parallel processing speedup as well as with high parallel processing speedup, and saves the energy consumption up to 86%.

The thread scheduling method based on the priority of threads on the multithread models (다중 스레드 모델에서 스레드 우선 순위에 따른 스레드 스케쥴링 기법)

  • 이정호;고훈준;양창모;유원희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10c
    • /
    • pp.659-661
    • /
    • 2000
  • 폰 노이만 모델의 지역성과 데이터플로우 모델의 병렬성을 결합하여 등장한 모델이 다중 스레드 모델이다. 다중스레드 모델의 목적은 통신시간과 계산 시간을 겹침으로써 프로세서의 활용도를 높이고자 하는 것이다. 기존의 대부분의 다중 스레드 모델의 스레드 스케쥴링 기법은 FIFO 혹은 FILO 방식을 사용하고 있다. 본 논문에서는 프로세서의 활용도를 높이고 프로세서의 휴지 시간을 줄이기 위해서 원격 함수 호출 혹은 원격 메모리 참조 기능의 스레드(이후로는 원격 스레드라 부름)와 계산 기능의 스레드가 동시에 활성화되었을 때 원격 스레드들을 먼저 수행하는 것이 프로세서의 지연 시간을 줄이고 병렬성을 높이는 데 효과적임을 제안한다. 이것을 구현하기 위해서 프레임 내부의 지속 벡터(CV)를 CCV(call continuation vector)와 LCV(local continuation vector) 둘로 구분하였다. 스레드가 활성화될 때 CCV에는 원격 스레드들을, LCV에는 계산 스레드들을 저장한 후, CCV에 저장된 스레드들을 먼저 수행하고 LCV를 나중에 수행한다.

  • PDF

Implementation and Performance Evaluation of Task Creation/Assignment Algorithms in Parallel Spatial Join using R-tree (R-tree를 이용한 병렬공간 조인의 태스크 생성/할당 알고리즘의 구현 및 성능평가)

  • 서영덕;김진덕;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.111-113
    • /
    • 1998
  • 공간조인은 지리정보 시스템에서 공간분석을 위한 주요 연산중의 하나이다. 이러한 공간조인은 대상이 되는 공간 객체의 수가 증가함에 따라 연산시간이 지수적으로 증가하는 특징을 가지고 있다. 그래서 대규모 공간 데이터에 다한 공간 연산시간을 줄이기 위한 처리기법이 연구되고 있다. 그렇지만, 공유 디스크 구조에서 다중 프로세서의 디스크 동시 접근으로 인한 병목현상을 완화하고, 프로세서간의 공유 디스크 구조에서 다중 프로세서의 디스크 동시 접근으로 인한 병목현상을 완화하고, 프로세서간의 메시지 전달을 최소화하기 위한 태스크 생성방법, 태스크 할당방법에 관한 구체적인 연구가 없었다. 그래서 우선 병렬 공간 조인의 성능저하 요인을 분석하고, 이에 대한 성능 향상방안을 제시한다. 구체적으로 디스크 접근 시간을 줄이기 위한 객체 캐쉬 방법과 시공간 지역성을 이용한 태스크 생성 및 할당방법을 제시한다. 그리고 제안한 방법들에 대해 실험평가를 통해 최대 7.2배의 성능증가를 획득할 수 있음을 보여준다.

High Speed Camera Motion Tracking System using GPU (GPU를 이용한 고속 카메라 모션 추적 시스템)

  • Yoo, Dong-Hyun;Kim, Do-Yoon;Kim, Jae-Heon;Yoo, Jung-Jae;Kim, Hye-Mi
    • Proceedings of the KIEE Conference
    • /
    • 2009.07a
    • /
    • pp.1806_1807
    • /
    • 2009
  • 영상처리시스템은 대량의 데이터를 고속으로 처리해야하기 때문에 고성능의 프로세서를 요구한다. 카메라의 성능은 점차 해상도가 높아져서 데이터가 많아지고 있는 반면 프로세서의 성능은 물리적인 한계로 인해서 단일 프로세서로는 속도 향상에 한계에 부딪히고 있다. 최근 CPU업계에서의 추세는 단일코어의 성능향상 한계로 인해 점차 코어의 개수를 늘리는 방v향으로 개발이 진행되고 있는데 이와 같이 병렬 프로세싱을 이용해서 영상처리시스템을 개발하는 연구가 최근 진행되고 있다. 병렬처리프로세싱 방법의 하나로 그래픽카드의 프로세서인 GPU를 사용하는 방법이 많이 시도되고 있다. 본 연구에서는 GPU를 이용하여 카메라의 모션을 추적하는 시스템을 실시간 시스템으로 개발하는 방법을 소개하고자 한다.

  • PDF

A Parallelising Algortithm for Matrix Arithmetics of Digital Signal Processings on VLIW Simulator (VLIW 시뮬레이터 상에서의 디지털 신호처리 행렬 연산에 대한 병렬화 알고리즘)

  • Song, Jin-Hee;Jun, Moon-Seog
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.8
    • /
    • pp.1985-1996
    • /
    • 1998
  • A parallelising algorithm for partitioning and mapping methods of matrix/vector multiplication into linear processor array/VLW simulator is presented in this paper. First we discuss the mapping methods for input matrix or vector into the arbitrarily size of processor arrays. Then, we show partitioning the algorithmss of the large size of computational problem into the size of the processor array. We execute the algorithm on VLIW simuhator and show to effectiviness of algorithm. The result which we achived better parallelising performance on our VLIW simulator dsign than on linear processor array.

  • PDF

Analysis of Characteristics of Various High Performance Computing Systems Based on NAS Parallel Benchmarks (NAS 병렬 벤치마크 기반 다양한 고성능 컴퓨팅 시스템의 특성 분석)

  • Park, Guenchul;Park, Chan-Yeol;Choi, Ji Eun;Rho, Seungwoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.118-120
    • /
    • 2019
  • 특정 어플리케이션을 주로 실행하는 소규모 고성능 컴퓨팅 시스템을 구축하는데 있어서 가장 중요한 점은 해당 어플리케이션의 효율을 최대한 끌어내기 위한 하드웨어를 선택하는 것이다. 하지만 최근 고성능 컴퓨팅을 위한 프로세서의 다양성은 점점 심화되고 있고 이는 최적의 프로세서 선택 및 시스템의 구성을 힘들게 하고 있다. 이에 본 논문에서는 고성능 컴퓨팅에 주로 사용되는 주요한 프로세서를 사용한 시스템을 NAS 병렬 벤치마크를 기반으로 그 특성과 성능을 분석하여 응용프로그램의 특성에 적합한 프로세서 및 시스템의 선택을 지원하고자 한다.

Component Based Design and Performance Analysis for Multiprocessor Embedded Real-Time Software (멀티프로세서 임베디드 소프트웨어를 위한 컴포넌트 기반 설계 및 성능분석 방법)

  • Sunwoo Lee;Byung Kwan Jung;Minsoo Ryu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.928-931
    • /
    • 2008
  • 현재까지 소프트웨어 개발을 위한 많은 컴포넌트 기술들이 연구되어 왔다. 하지만 기존의 기술들은 멀티프로세서 환경에서 사용하기에 적합하지 못하다. 멀티프로세서 임베디드 소프트웨어를 구성하는 다수의 쓰레드들이 병렬적으로 수행될 수 있고, 그로 인한 성능 문제 또한 고려되어야 하기 때문이다. 본 논문에서는 새로운 컴포넌트 모델과 태스크 모델, 그리고 소프트웨어 설계 과정을 제안한다. 그리고 컴포넌트 모델과 태스크 모델 사이의 변환 과정 및 병렬성 극대화를 위한 태스크 분할 과정을 소개하여, 최종적으로 성능분석이 가능한 멀티프로세서 임베디드 소프트웨어 개발 과정을 제시한다.

Design of a Graphic Processor for Multimedia Data Processing (멀티미디어 데이타 처리를 위한 그래픽 프로세서 설계)

  • 고익상;한우종;선우명동
    • Journal of the Korean Institute of Telematics and Electronics C
    • /
    • v.36C no.10
    • /
    • pp.56-65
    • /
    • 1999
  • This paper presents an architecture and its instruction set for a graphic coprocessor(GCP) which can be used for a multimedia server. The proposed instruction set employs parallel architecture concepts, such as SIMD and Superscalar. GCP consists of a scheduler and four functional units. The scheduler solves an instruction bottleneck problem causing by sharing with four general processors(GPs). GCP can execute up to 4 instructions in parallel. It consists of about 56,000 gates and operates at 30 MHz clock frequency due to speed limitation of SOG technology. GCP meets the real-time DCT algorithm requirement of the CIF image format and can process up to 63 frames/sec for the DCT Algorithm and 21 frames/sec for the Full Block matching Algorithm of the CIF image format.

  • PDF