• Title/Summary/Keyword: 병렬 구현

Search Result 1,474, Processing Time 0.035 seconds

Implementation and Performance Evaluation of Parallel Multi-way Spatial Join (병렬 다중 공간 조인 알고리즘의 구현 및 성능평가)

  • 류우석;김진덕;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.123-125
    • /
    • 1998
  • 지리 정보 시스템이서 다중 공간 조인과 같은 많은 기하 계산을 필요로 하는 질의를 처리하기 위해서는 질의에 대한 병렬화 작업을 통해 실행 시간을 최소화 하는 것이 필수적이다. 다중 공간 조인은 정제에서 많은 시간을 소비하므로 여과와 정제를 분리하여 각각을 수행하는 것이 정제 시간을 단축하게 되고 따라서 좋은 성능을 나타낼 수 있다. 그러므로 다중 공간 조인을 병렬화 하기 위해서는 다중 공간 여과와 정제 각각에 대해 병렬 실행 계획을 세우는 것이 중요하다. 이 논문에서는 우선적으로 병렬 공간 여과를 수행하기 위한 두가지 알고리즘, 즉 blush tree을 사용한 다중 공간 여과와 pipelining을 사용한 다중 공간 여과의 병렬화를 비교한다. 그리고, 다중 공간 여과의 결과로서 생성되는 중간 결과 테이블에서 데이터의 중복에 따라 정제 성능의 저하가 발생되는데, 이를 효율적으로 제거하기 위한 두가지 그래프 생성 알고리즘을 제안하고 이를 비교한다. 그리고, 생성된 그래프에서 병렬 정제를 수행하기 위한 여러 가지 분할 알고리즘을 제안하고 이를 비교 평가한다. 이런 일련의 작업을 통해 우수한 성능의 병렬 다중 공간 조인 방법을 제안하고 성능 평가를 통해 최적의 병렬 수행 방법을 도출한다.

Implementation Factors for Multi-rate Parallel Interference Cancellation in the IMT-2000 3GPP System (IMT-2000 3GPP 시스템을 위한 다중 전송율 병렬형 간섭제거기의 구현 요소들)

  • 김진겸;오성근;선우명훈;김성락
    • Journal of the Institute of Electronics Engineers of Korea TC
    • /
    • v.40 no.2
    • /
    • pp.56-63
    • /
    • 2003
  • We investigate some implementation factors that affect the performance of multi-rate parallel interference cancellers (PICs) for the international mobile telecommunications-2000 (IMT-2000) 3rd-generation partnership project (3GPP) system. We consider the simple multi-rate PIC [1,2] that can remove effectively multiple access interference (MAI) through block-based detection and sample-based cancellation in asynchronous user environments. The PIC structure has significantly lower complexity as compared with that of the existing scheme, especially as the number of users increases. We analyze the effects of timing error, oversampling rate, unsynchronized users and/or outer-cell interference, and the number of Quantization bits on the PIE performance through extensive computer simulations. The models for such factors and the optimum parameters are drawn. Finally, we evaluate the receiver complexities of the PIC receivers employing using the advanced removal scheme.

A Parallel Processing System for Visual Media Applications (시각매체를 위한 병렬처리 시스템)

  • Lee, Hyung;Pakr, Jong-Won
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.27 no.1A
    • /
    • pp.80-88
    • /
    • 2002
  • Visual media(image, graphic, and video) processing poses challenge from several perpectives, specifically from the point of view of real-time implementation and scalability. There have been several approaches to obtain speedups to meet the computing demands in multimedia processing ranging from media processors to special purpose implementations. A variety of parallel processing strategies are adopted in these implementations in order to achieve the required speedups. We have investigated a parallel processing system for improving the processing speed o f visual media related applications. The parallel processing system we proposed is similar to a pipelined memory stystem(MAMS). The multi-access memory system is made up of m memory modules and a memory controller to perform parallel memory access with a variety of combinations of 1${\times}$pq, pq${\times}$1, and p${\times}$q subarray, which improves both cost and complexity of control. Facial recognition, Phong shading, and automatic segmentation of moving object in image sequences are some that have been applied to the parallel processing system and resulted in faithful processing speed. This paper describes the parallel processing systems for the speedup and its utilization to three time-consuming applications.

CUDA-based Object Oriented Programming Techniques for Efficient Parallel Visualization of 3D Content (3차원 콘텐츠의 효율적인 병렬 시각화를 위한 CUDA 환경 기반 객체 지향 프로그래밍 기법)

  • Park, Tae-Jung
    • Journal of Digital Contents Society
    • /
    • v.13 no.2
    • /
    • pp.169-176
    • /
    • 2012
  • This paper presents a parallel object-oriented programming (OOP) platform for efficient visualization of three-dimensional content in CUDA environments. For this purpose, this paper discusses the features and limitations in implementing C++ object-oriented codes using CUDA and proposes the solutions. Also, it presents how to implement a 3D parallel visualization platform based on the MVC (Model/View/Controller) design pattern. Also, it provides sample implementations for integral MLS (iMLS) and signed distance fields (SDFs) based on the Marching Cubes and Raytracing. The proposed approach enables GPU parallel processing only by implementing simple interfaces. Based on this, developers can expect general benefits that are common in general OOP techniques including abstractization and inheritance. Though I implemented only two specific samples in this paper, I expect my approach can be widely applied to general computer graphics problems.

Improvement of Dynamic Response Characteristics of Parallel PWM Converters Using Fuzzy Logic Controller (퍼지 제어기를 이용한 병렬 PWM 컨버터의 과도응답특성 개선)

  • 민병권;김이훈;김재문;원충연;김규식;최세완
    • The Transactions of the Korean Institute of Power Electronics
    • /
    • v.7 no.3
    • /
    • pp.303-312
    • /
    • 2002
  • In this paper, a fuzzy logic controller(FLC) for parallel operation system of PWM converters with high performances is proposed and a PI controller is also realized to compare with the performances of the proposed FLC. The simulation and experimental results show that performances of the proposed FLC are far more excellent compared with those of PI controller, especially in points of DC voltage transient response characteristics and current control transient response characteristics at step increase of rated load. To verify the superiorities of the proposed FLC and actually apply it in industrial field, Simulation iud experimental results are provided to verify the implemented a PWM converter system with 15kw capacity in paralleled with two 7.5kW PWM converters.

A Research on Low-power FFT(Fast Fourier Transform) Design for Multiband OFDM UWB(Ultra Wide Band) Communication System (Multiband OFDM UWB(Ultra Wide Band) 통신시스템을 위한 저전력 FFT(Fast Fourier-Transform) 설계에 관한 연구)

  • Ha, Jong-Ik;Kim, In-Soo;Min, Hyoung-Bok
    • Proceedings of the KIEE Conference
    • /
    • 2009.07a
    • /
    • pp.2119.1_2120.1
    • /
    • 2009
  • UWB(Ultra Wide Band)는 차세대 무선통신 기술로 무선 디지털펄스라고도 한다. GHz대의 주파수를 사용하면서도 초당 수천~수백만 회의 저출력 펄스로 이루어진 것이 큰 특징이다[1]. 기존 무선통신 기술의 양대 축인 IEEE 802.11과 블루투스 등에 비해 속도와 전력소모 등에서 월등히 앞서고 있으며, SoC(System on a Chip)의 저전력 구현에 대한 연구가 활발히 진행되고 있다. OFDM은 크게 FFT(Fast Fourier Transform) 블록, Interpolation /decimation 필터 블록, 비터비 블록, 변복조 블록, 등화기 블록 등으로 구성된다. 고속 시스템에서는 대역효율성이 우수한 OFDM(Orthogonal Frequency Division Multiplexing) 방식을 사용하고 있으며, OFDM 전송방식은 직렬로 입력되는 데이터 열을 병렬 데이터 열로 변환한 후에 부반송파에 실어 전송하는 방식이다. 이와 같은 병렬화와 부반송파를 곱하는 동작은 IFFT와 FFT로 구현이 가능한데, FFT 블록의 구현 비용과 전력소모를 줄이는 것이 핵심사항이라고 할 수 있다. 기존논문에서는 OFDM용 FFT 구조로 단일버터플라이연산자 구조, 파이프라인 구조, 병렬구조 등의 여러 구조가 제안되었다[2]. 본 논문에서는 Radix-8 FFT 알고리즘 기반의 New partial Arithmetic 저전력 FFT 구조를 제안하였다. 제안한 New partial Arithmetic 저전력 FFT구조는 곱셈기 대신 병렬 가산기를 이용 하여 지금까지 사용되는 FFT 구조보다 전력소모를 줄일 수 있음을 보였다.

  • PDF

Implementation of parallel blocked LU decomposition program for utilizing cache memory on GP-GPUs (GP-GPU의 캐시메모리를 활용하기 위한 병렬 블록 LU 분해 프로그램의 구현)

  • Kim, Youngtae;Kim, Doo-Han;Yu, Myoung-Han
    • Journal of Internet Computing and Services
    • /
    • v.14 no.6
    • /
    • pp.41-47
    • /
    • 2013
  • GP-GPUs are general purposed GPUs for numerical computation based on multiple threads which are originally for graphic processing. GP-GPUs provide cache memory in a form of shared memory which user programs can access directly, unlikely typical cache memory. In this research, we implemented the parallel block LU decomposition program to utilize cache memory in GP-GPUs. The parallel blocked LU decomposition program designed with Nvidia CUDA C run 7~8 times faster than nun-blocked LU decomposition program in the same GP-GPU computation environment.

An Architecture for Two's Complement Serial-Parallel Multiplication (2의 보수 직병렬 승산을 위한 논리구조)

  • Mo, Sang-Man;Yoon, Yong-Ho
    • ETRI Journal
    • /
    • v.13 no.2
    • /
    • pp.9-14
    • /
    • 1991
  • 직병렬 승산기는 피승수와 승수중 어느 하나가 병렬로 입력되고 또다른 수는 직렬로 입력되는 구조를 가지며, 디지틀 신호처리, 온라인 응용, 특수 목적용 계산 시스팀 등에서 많이 이용되고 있다. 본 논문에서는 2 의 보수를 위한 직병렬 승산기의 논리구조를 제안한다. 제안한 2의 보수 직병렬 승산기는 효과적인 2의 보수 직병렬 승산 알고리즘에 의해서 모든 데이터 신호가 국부적 연결만으로 구성되며, 간단하고 모듈화된 하드웨어의 구성으로 쉽게 설계할 수 있다. 이 승산기는 무부호 승산과 마찬가지로 2n+1 사이클만을 필요로 하고, 각 사이클 시간은 무부호 직병렬 승산에 비해서 2의 보수 승산을 위한 XOR 게이트의 지연시간이 추가된 것뿐이다. 또한, 제안한 2의 보수 직병렬 승산기는 VLSI 구현에 매우 적합한 구조를 지닌다.

  • PDF

Parallel Speech Recognition on Distributed Memory Multiprocessors (분산 메모리 다중 프로세서 상에서의 병렬 음성인식)

  • 윤지현;홍성태;정상화;김형순
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.747-749
    • /
    • 1998
  • 본 논문에서는 음성과 자연언어의 통합처리를 위한 효과적인 병렬 계산 모델을 제안한다. 음소모델은 continuous HMM에 기반을 둔 문맥종속형 음소를 사용하며, 언어모델은 knowledge-based approach를 사용한다. 또한 계층구조의 지식베이스상에서 다수의 가설을 처리하기 위해 memory-based parsing기술을 사용하였다. 본 연구의 병렬 음성인식 알고리즘은 분산메모리 MIMD 구조의 다중 Transputer 시스템을 이용하여 구현되었다. 실험을 통하여 음성인식 과정에서 발생하는 speech-specific problem의 해를 제공하고 음성인식 시스템의 병렬화를 통하여 실시간 음성인식의 가능성을 보여준다.

  • PDF

Parallel Design and Implementation of Shot Boundary Detection Algorithm (샷 경계 탐지 알고리즘의 병렬 설계와 구현)

  • Lee, Joon-Goo;Kim, SeungHyun;You, Byoung-Moon;Hwang, DooSung
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.51 no.2
    • /
    • pp.76-84
    • /
    • 2014
  • As the number of high-density videos increase, parallel processing approaches are necessary to process a large-scale of video data. When a processing method of video data requires thousands of simple operations, GPU-based parallel processing is preferred to CPU-based parallel processing by way of reducing the time and space complexities of a given computation problem. This paper studies the parallel design and implementation of a shot-boundary detection algorithm. The proposed shot-boundary detection algorithm uses pixel brightness comparisons and global histogram data among the blocks of frames, and the computation of these data is characterized with the high parallelism for the related operations. In order to maximize these operations in parallel, the computations of the pixel brightness and histogram are designed in parallel and implemented in NVIDIA GPU. The GPU-based shot detection method is tested with 10 videos from the set of videos in National Archive of Korea. In experiments, the detection rate is similar but the computation time is about 10 time faster to that of the CPU-based algorithm.