• 제목/요약/키워드: parallel computer processing

검색결과 652건 처리시간 0.025초

A Study on Sorting in A Computer Using The Binary Multi-level Multi-access Protocol

  • Jung Chang-Duk
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2006년도 춘계학술대회
    • /
    • pp.303-310
    • /
    • 2006
  • The sorting algorithms have been developed to take advantage of distributed computers. But the speedup of parallel sorting algorithms decrease rapidly with increased number of processors due to parallel processing overhead such as context switching time and inter-processor communication cost. In this paper, we propose a parallel sorting method which provides linear speedup of an optimal serial algorithm for a system with a large number of processors. This algorithm may even provide superlinear speedup for a practical system. The algorithm takes advantage of an interconnection network properties and its protocol.

  • PDF

Lock-free unique identifier allocation for parallel macro expansion

  • Son, Bum-Jun;Ahn, Ki Yung
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권4호
    • /
    • pp.1-8
    • /
    • 2022
  • 이 논문에서는 싱글 프로세스 멀티코어 환경의 매크로 확장에서 Lock이 필요하지 않은 더 효과적인 고유식별자 할당 방식을 제안한다. 이 할당 방식의 핵심 아이디어는 나머지 연산을 이용해 순차적 의존성을 제거하는 것이다. 우리가 고안한 방식이 멀티코어 병렬 환경에서 매크로 확장의 성능 개선에 적합함을 확인하기 위해, 기존에 순차적 방식의 고유식별자 생성으로 구현된 라이브러리를 우리가 고안한 방식으로 변경하여 변경 전의 버전과 후의 버전의 라이브러리로 작성된 같은 프로그램의 성능을 비교하는 벤치마크를 수행하였다.

다중 GPU기반 홀로그램 생성을 위한 병렬처리 성능 최적화 기법 (An Optimization Method for Hologram Generation on Multiple GPU-based Parallel Processing)

  • 국중진
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.9-15
    • /
    • 2019
  • 홀로그램의 생성을 위한 연산은 포인트 클라우드의 규모에 따라 연산량이 기하급수적으로 증가하기 때문에 최근에는 다중의 GPU를 기반으로 CUDA 또는 OpenCL 라이브러리를 활용한 병렬처리가 이루어지고 있다. GPU기반의 병렬처리를 위한 CUDA 커널은 GPU의 코어 개수와 메모리 크기를 고려하여 쓰레드(thread), 블록(block), 그리드(grid)를 구성해야 하며, 다중 GPU 환경인 경우 GPU의 개수에 따른 그리드, 블록, 또는 쓰레드 단위의 분산처리가 필요하다. 본 논문에서는 CGH 생성에 대한 성능평가를 위해 포인트 클라우드의 포인트 개수를 10~1,000,000개 범위에서 점진적으로 증가시키면서 CPU, 단일 GPU, 다중 GPU 환경에서 연산 속도를 비교해 보았으며, 다중 GPU 환경에서 CGH(Computer Generated Hologram) 생성 연산을 가속화하기 위한 CUDA 기반의 병렬처리 과정에서 요구되는 메모리 구조 설계와 연산 방법을 제안한다.

충돌해석을 위한 병렬유한요소 알고리즘 (A Parallel Finite Element Procedure for Contact-Impact Problems)

  • 하재선
    • 대한기계학회:학술대회논문집
    • /
    • 대한기계학회 2003년도 추계학술대회
    • /
    • pp.1286-1290
    • /
    • 2003
  • This paper presents a newly implemented parallel finite element procedure for contact-impact problems. Three sub-algorithms are includes in the proposed parallel contact-impact procedure, such as a parallel Belytschko-Lin-Tsay (BLT) shell element generation, a parallel explicit time integration scheme, and a parallel contact search algorithm based on the master slave slide-line algorithm. The underlying focus of the algorithms is on its effectiveness and efficiency for inclusion in future finite element systems on parallel computers. Throughout this research, a prototype code, named GT-PARADYN, is developed on the IBM SP2, a distributed-memory computer. Some numerical examples are provided to demonstrate the timing results of the procedure, discussing the accuracy and efficiency of the code.

  • PDF

3차원 공간정보 시스템을 위한 병렬 알고리즘 (A Parallel Algorithm for 3D Geographic Information System)

  • 조정우;김진석
    • 정보처리학회논문지A
    • /
    • 제9A권2호
    • /
    • pp.217-224
    • /
    • 2002
  • 3D 공간정보를 이용하여 3D 이미지를 처리하는 시스템이 많이 상용화되어 있다. 기존에 3D 이미지를 처리하기 위한 방법으로 고성능의 시스템을 이용하거나 이미지 압축 기술을 사용하였다. 하지만 고성능의 시스템을 사용하여 GIS 시스템을 구현할 경우 가격의 부담이 크다는 문제점이 있고 이미지 압축 기술을 사용하여 GIS 시스템을 구현할 경우 원 이미지에 손실이 크다는 문제점이 있다. 또한 일반 시스템에서 3D 이미지를 처리하려면 3D 이미지의 파일의 크기가 크기 때문에 공간 이미지를 처리하는데 시간이 오래 걸린다는 단점이 있다. 따라서 본 논문에서는 3D 이미지를 병렬로 처리하여 디스플레이 시간을 단축하는 병렬 알고리즘을 제안한다. 본 논문에서 제시된 병렬 알고리즘은 3D 이미지를 다수의 노드로 분할하여 각 노드에서 이미지를 화면에 디스플레이 하는 방법을 사용한다. 병렬컴퓨터의 노드의 수가 증가함에 따라 제안된 알고리즘의 성능이 증가함을 실험을 통해 보였다.

영상처리를 위한 SIMT 기반 Image Signal Processor 구현 (Implementation of the SIMT based Image Signal Processor for the Image Processing)

  • 황윤섭;전희경;이관호;이광엽
    • 전기전자학회논문지
    • /
    • 제20권1호
    • /
    • pp.89-93
    • /
    • 2016
  • 본 논문에서는 다양한 영상 전처리 알고리즘들을 적용할 수 있고, 영상 인식과 같이 ISP 응용 프로그램을 병렬로 처리 가능한 SIMT(Single Instruction Multiple Threads) 기반 Image Signal Processor를 제안하였다. 기존의 ISP는 입력 영상의 품질 개선을 위하여 영상 개선 알고리즘이 하드웨어로 설계되어 처리 속도는 빠르지만 다양한 영상 처리 알고리즘에 따라 성능 최적화에 어려움이 있었다. 제안한 ISP는 명령어를 기반으로 한 프로세서로서 다양한 영상 처리 알고리즘을 수행하고 SIMT 구조를 적용하여 알고리즘을 병렬로 수행해 성능을 개선하였다. 제안하는 ISP를 검증하기 위해 Xilinx Virtex-7을 탑재한 VC707 Board를 사용하였으며 cell multicore processor와 비교했을 경우 수행시간이 약 71%, ARM Cortex-A9과 ARM Cortex-A15와 비교하였을 경우 각각 63%, 33% 성능을 개선하였다.

Design and Implementation of a Latency Efficient Encoder for LTE Systems

  • Hwang, Soo-Yun;Kim, Dae-Ho;Jhang, Kyoung-Son
    • ETRI Journal
    • /
    • 제32권4호
    • /
    • pp.493-502
    • /
    • 2010
  • The operation time of an encoder is one of the critical implementation issues for satisfying the timing requirements of Long Term Evolution (LTE) systems because the encoder is based on binary operations. In this paper, we propose a design and implementation of a latency efficient encoder for LTE systems. By virtue of 8-bit parallel processing of the cyclic redundancy checking attachment, code block (CB) segmentation, and a parallel processor, we are able to construct engines for turbo codings and rate matchings of each CB in a parallel fashion. Experimental results illustrate that although the total area and clock period of the proposed scheme are 19% and 6% larger than those of a conventional method based on a serial scheme, respectively, our parallel structure decreases the latency by about 32% to 65% compared with a serial structure. In particular, our approach is more latency efficient when the encoder processes a number of CBs. In addition, we apply the proposed scheme to a real system based on LTE, so that the timing requirement for ACK/NACK transmission is met by employing the encoder based on the parallel structure.

이동 에이전트를 이용한 병렬 인공신경망 시뮬레이터 (The Parallel ANN(Artificial Neural Network) Simulator using Mobile Agent)

  • 조용만;강태원
    • 정보처리학회논문지B
    • /
    • 제13B권6호
    • /
    • pp.615-624
    • /
    • 2006
  • 이 논문은 이동 에이전트 시스템에 기반을 둔 가상의 병렬분산 컴퓨팅 환경에서 병렬로 수행되는 다층 인공신경망 시뮬레이터를 구현하는 것을 목적으로 한다. 다층 신경망은 학습세션, 학습데이터, 계층, 노드, 가중치 수준에서 병렬화가 이루어진다. 이 논문에서는 네트워크의 통신량이 상대적으로 적은 학습세션 및 학습데이터 수준의 병렬화가 가능한 신경망 시뮬레이터를 개발하고 평가하였다. 평가결과, 학습세션 병렬화와 학습데이터 병렬화 성능분석에서 약 3.3배의 학습 수행 성능 향상을 확인할 수 있었다. 가상의 병렬 컴퓨터에서 신경망을 병렬로 구현하여 기존의 전용병렬컴퓨터에서 수행한 신경망의 병렬처리와 비슷한 성능을 발휘한다는 점에서 이 논문의 의의가 크다고 할 수 있다. 따라서 가상의 병렬 컴퓨터를 이용하여 신경망을 개발하는데 있어서, 비교적 시간이 많이 소요되는 학습시간을 줄임으로서 신경망 개발에 상당한 도움을 줄 수 있다고 본다.

SIMD상에서의 이차선별법을 사용한 병렬 소인수분해 알고리즘 (Parallel Factorization using Quadratic Sieve Algorithm on SIMD machines)

  • 김양희
    • 정보처리학회논문지A
    • /
    • 제8A권1호
    • /
    • pp.36-41
    • /
    • 2001
  • 본 논문에서는 첫째로 큰 정수의 소인수 분해를 위한 병렬 이차선별법(parallel quadratic sieve) 알고리즘을 제시한다. 이 알고리즘을 반복적으로 사용하여, 분산 메모리 모델(DMM)을 갖는 SIMD구조의 병렬 컴퓨터 상에서 분할정복기법을 사용하는 병력 소인수 분해(parallel factoring) 알고리즘을 제시한다. 또한 이러한 알고리즘이 시간과 프로세서의 곱의 관점에서 최적화 알고리즘임을 보인다.

  • PDF

클러스터환경에서 MPI를 이용한 병렬 MPEG-2 인코더의 설계 및 구현 (Design and Implementation of Parallel MPEG-2 Encoder with MPI on Cluster System)

  • 이좌형;최면욱;방철석;김병길;정인범
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.1413-1416
    • /
    • 2004
  • 최근 컴퓨터와 네트워크 기술이 빠르게 발전하고 널리 보급되면서 텍스트 위주로 작업을 하던 어플리케이션들의 비중이 낮아지고 멀티미디어 데이터를 처리하는 어플리케이션들의 비중이 점차 증가하고 있는 추세이다. 다양한 멀티미디어들 중에서 영화같은 동영상 멀티미디어를 다루는 프로그램들은 멀티미디어 응용 어플리케이션들 중에서 큰 비중을 차지하고 있으며 실생활에서 널리 사용되고 있다. 대표적인 동영상 압축 표준인 MPEG의 경우 매우 높은 압축률을 제공하여 일반 사용자들도 손쉽게 동영상 데이터를 접하고 사용할 수 있는 기회를 제공한다. 하지만 MPEG 인코딩은 매우 많은 컴퓨팅 자원과 시간을 요하는 작업이다. 본 연구에서는 동영상 데이터를 인코딩 하는데 소요되는 시간과 자원을 감소시키기 위해 클러스터환경에서 MPI를 이용하여 동영상 압축 표준인 MPEG-2 기반의 Parallel Encoder를 설계 및 구현하였다.

  • PDF