• Title/Summary/Keyword: 병렬 최적 구현

Search Result 88, Processing Time 0.023 seconds

Performance Evaluation of Parallel BMA on Networked Cluster of Workstations (워크스테이션 클러스트 환경에서 병렬 BMA의 구현 및 성능 분석)

  • 김종렬;나현태;김정선;문영식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10c
    • /
    • pp.753-755
    • /
    • 1999
  • 본 논문에서는 동영상에서 움직임 벡터를 찾는 방법 중의 하나인 BMA(Block Matching Algorithm)를 워크스테이션 클러스터(cluster of workstations) 환경하에서 구현하고 이에 대한 성능 분석 모델을 제시한다. 동영상에서 움직임 벡터를 찾는 BMA는 영상처리 및 컴퓨터 비전 분야에서 널리 사용되는 방법으로 병렬화를 통해 처리 속도를 단축시킬수 있는 알고리즘이다. 그러나 워크스테이션 클러스트 환경하에서는 데이터의 분할 및 각 노드간의 통신방법에 따라서 전체적인 성능에 많은 영향을 미친다. 따라서 본 논문에서는 최적의 데이터 분할 및 각 노드간의 통신을 최소화하는 병렬 BMA를 설계.구현한다. 또한 데이터의 분할 및 각 노드간의 통신을 고려한 성능 모델을 제시하여 프로세서의 증가 및 데이터의 분배에 따른 성능을 예측하고, 실험 결과를 통하여 제시한 모델의 타당성을 입증한다.

  • PDF

Plug and Play Style Performance Visualizer for Parallel Programs (병렬 프로그램을 위한 PnP 스타일의 성능 가시화기)

  • 문상수;김정선;문영식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10c
    • /
    • pp.756-758
    • /
    • 1999
  • 본 논문에서는 최적의 성능을 갖는 병렬 프로그램을 개발하는데 필수 도구인 성능가시화기를 이식성, 확장성 그리고 효율성을 고려해 설계 및 구현한 PnP 스타일의 성능 가시화기에 대하여 기술한다. 본 가시화기는 기존 가시화기의 문제점인 수정 및 변용에의 어려움을 해결하기 위하여 독립된 계층구조인 인스트루멘테이션층, 인터페이스층, 가시화층으로 구성함으로써 확장성 및 이식성을 갖도록 하였다. 인스트루멘테이션층은 사건(event)을 포획하기 위해 개발된 라이브러리인 ECL(Event Capture Library)로 구성되며, 인터페이스층은 인스트루멘테이션층과 가시화층간에 확장성 있는 문제중심 인터페이스를 제공하기 위해 개발된 사건 기술 언어 및 Java 문제중심 엑세스 라이브러리로 구성되었다. 그리고 PnP 스타일의 성능 가시화기를 설계함으로써 뷰와 필터의 추가 및 수정이 용이하도록 가시화층을 구현하였다. 이렇게 구현된 성능가시화기는 독립된 도구로 사용될 수 있을 뿐 아니라 병렬 프로그래밍, 디버깅, 그리고 성능 분석이 통합된 프로그램 개발환경 구축의 핵심도구로서 활용될 수 있을 것이다.

  • PDF

Implementation and Performance Evaluation of Parallel Multi-way Spatial Join (병렬 다중 공간 조인 알고리즘의 구현 및 성능평가)

  • 류우석;김진덕;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.123-125
    • /
    • 1998
  • 지리 정보 시스템이서 다중 공간 조인과 같은 많은 기하 계산을 필요로 하는 질의를 처리하기 위해서는 질의에 대한 병렬화 작업을 통해 실행 시간을 최소화 하는 것이 필수적이다. 다중 공간 조인은 정제에서 많은 시간을 소비하므로 여과와 정제를 분리하여 각각을 수행하는 것이 정제 시간을 단축하게 되고 따라서 좋은 성능을 나타낼 수 있다. 그러므로 다중 공간 조인을 병렬화 하기 위해서는 다중 공간 여과와 정제 각각에 대해 병렬 실행 계획을 세우는 것이 중요하다. 이 논문에서는 우선적으로 병렬 공간 여과를 수행하기 위한 두가지 알고리즘, 즉 blush tree을 사용한 다중 공간 여과와 pipelining을 사용한 다중 공간 여과의 병렬화를 비교한다. 그리고, 다중 공간 여과의 결과로서 생성되는 중간 결과 테이블에서 데이터의 중복에 따라 정제 성능의 저하가 발생되는데, 이를 효율적으로 제거하기 위한 두가지 그래프 생성 알고리즘을 제안하고 이를 비교한다. 그리고, 생성된 그래프에서 병렬 정제를 수행하기 위한 여러 가지 분할 알고리즘을 제안하고 이를 비교 평가한다. 이런 일련의 작업을 통해 우수한 성능의 병렬 다중 공간 조인 방법을 제안하고 성능 평가를 통해 최적의 병렬 수행 방법을 도출한다.

An Advanced Parallel Join Algorithm for Managing Data Skew on Hypercube Systems (하이퍼큐브 시스템에서 데이타 비대칭성을 고려한 향상된 병렬 결합 알고리즘)

  • 원영선;홍만표
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.30 no.3_4
    • /
    • pp.117-129
    • /
    • 2003
  • In this paper, we propose advanced parallel join algorithm to efficiently process join operation on hypercube systems. This algorithm uses a broadcasting method in processing relation R which is compatible with hypercube structure. Hence, we can present optimized parallel join algorithm for that hypercube structure. The proposed algorithm has a complete solution of two essential problems - load balancing problem and data skew problem - in parallelization of join operation. In order to solve these problems, we made good use of the characteristics of clustering effect in the algorithm. As a result of this, performance is improved on the whole system than existing algorithms. Moreover. new algorithm has an advantage that can implement non-equijoin operation easily which is difficult to be implemented in hash based algorithm. Finally, according to the cost model analysis. this algorithm showed better performance than existing parallel join algorithms.

Optimized parallel implementation of Lightweight blockcipher PIPO on 32-bit RISC-V (32-bit RISC-V상에서의 경량 블록암호 PIPO 최적 병렬 구현)

  • Eum, Si-Woo;Jang, Kyung-Bae;Song, Gyeong-Ju;Lee, Min-Woo;Seo, Hwa-Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.201-204
    • /
    • 2021
  • PIPO 경량 블록암호는 ICISC'20에서 발표된 암호이다. 본 논문에서는 PIPO의 단일 평문 최적화 구현과 4평문 병렬 구현을 제안한다. 단일 평문 최적화 구현은 Rlayer의 최적화와 키스케쥴을 포함하지 않은 구현을 진행하였다. 결과적으로 키스케쥴을 포함하는 기존 연구 대비 70%의 성능 향상을 확인하였다. 4평문의 경우 32-bit 레지스터를 최대한 활용하여, 레지스터 내부 정렬과 Rlayer의 최적화 구현을 진행하였다. 또한 Addroundkey 구현에서 메모리 최적화 구현과 속도 최적화 구현을 나누어 구현하였다. 메모리 사용을 줄인 메모리 최적화 구현은 단일 평문 구현 대비 80%의 성능 향상을 확인하였고, 암호화 속도를 빠르게 구현한 속도 최적화 구현은 단일 평문 구현 대비 157%의 성능 향상을 확인하였다.

Implementaion of 1.8kW bi-directional LDC with Parallel Control for Mild Hybrid Electric Vehicle (1.8kW급 마일드하이브리드 차량용 양방향 LDC의 병렬제어 구현)

  • Kim, Hyun-Bin;Kim, Jong-Soo;Jeon, Sun-Woo;Kim, Jeong-Tae;Bae, Sung-Woo
    • Proceedings of the KIPE Conference
    • /
    • 2016.07a
    • /
    • pp.389-390
    • /
    • 2016
  • 본 논문에서는 마일드하이브리드 차량용 양방향 LDC의 동작 신뢰성 향상을 위해 2병렬 구성된 1.8kW급 LDC의 설계 및 제어에 대해 기술한다. 양방향 LDC 구현을 위한 최적 회로방법 및 병렬 구동을 위한 제어 방법에 대해 고찰하고 Working Sample 수준의 실험세트 제작내용 및 실험 결과를 제시한다.

  • PDF

An Effective Parallel Implementation of Sound Synthesis of Guitar using GPU (GPU를 이용한 기타의 음 합성을 위한 효과적인 병렬 구현)

  • Kang, Sung-Mo;Kim, Jong-Myon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.18 no.8
    • /
    • pp.1-8
    • /
    • 2013
  • This paper proposes an effective parallel implementation of a physical modeling synthesis of guitar on the GPU environment. We used appropriate filter coefficients and adjusted the length of delay line for each open string to generate 44,100 six-polyphonic guitar sounds (E2, A2, D3, G4, B3, E4) by using physical modeling synthesis. In addition, we analyzed the physical modeling synthesis algorithm and observed that we can exploit parallelism inherent in the length of delay line. Thus, we assigned CUDA cores as many as the length of delay line and effectively implemented the physical modeling synthesis using GPU to achieve the highest performance. Experimental results indicated that synthetic guitar sounds using GPU were very similar to the original sounds when we compared their spectra. In addition, GPU achieved 68x and 3x better performance than high-performance TI DSP and CPU, respectively. Furthermore, this paper implemented and evaluated the performance of multi-GPU systems for the physical modeling algorithm.

Parallel Algorithm for Optimal Stack Filters on MCC and CCC (MCC 및 CCC에서의 최적 스택 필터를 위한 병렬 알고리즘)

  • Jeon, Byeong-Mun;Jeong, Chang-Seong
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.26 no.10
    • /
    • pp.1185-1193
    • /
    • 1999
  • 최적 스택 필터는 시그널 또는 영상의 임의의 특성 정보를 보존하고자 하는 요구조건에 의해 강제된 구조적 제약 하에서 최대의 잡음제거 효과를 얻을 수 있다. 그리고 임계치 분할 특성과 양의 부울 함수에 기반한 이진 영역에서의 처리 특성은 이 필터가 높은 병렬성을 갖고 있음을 보여준다. 본 논문에서는 두 개의 병렬 계산 모델 MCC(Mesh-Connected Computer)와 CCC(Cube-Connected Computer)에서 최적 스택 필터를 위한 1차원 병렬 알고리즘을 개발한다. 최적 스택 필터의 실행 시간은 주로 이진 median 연산에 의해 결정되고 본 논문에서 제안된 알고리즘은 선형 분리성에 의해 이 연산을 구현한다. 이를 바탕으로, M 레벨의 1-D 시그널의 길이가 L이고 윈도우 폭이 N이라고 가정할 때, 제안된 알고리즘은 {{{{root M times root M`` MCC에서 O(L sqrt{M}`) 시간에 그리고 M 개의 PE를 갖는 CCC에서 O(L log M)시간에 수행될 수 있다. 또한 잡음을 더욱 효과적으로 제거하기 위해 윈도우 폭 N을 증가시킬 때, 제안된 병렬 알고리즘의 계산 시간은 일정하게 유지됨을 보인다.Abstract An optimal stack filter achieves the maximum noise attenuation under the structural constraints imposed by the requirement of preserving certain signal or image features. And the filter provides a high parallelism due to the principles of threshold decomposition and binary processing based on positive Boolean functions(PBFs). In this paper, we develop an one-dimensional parallel algorithm for the optimal stack filter on two parallel computation models, MCC(Mesh-Connected Computer) and CCC(Cube-Connected Computer). The running time of the optimal stack filter depends mainly on the binary median operation and our algorithm realizes this operation by the linear separability. Based on this scheme, our parallel algorithm can be performed in {{{{O(L sqrt{M}`) MCC and inO(L log M) time on CCC with M PEs, when the length of M``-valued 1-D signal is L`` and window width is N`` Also, we show that the computation time of our parallel algorithm keeps constant when the window width N increases in order to achieve the best noise attenuation.

Implementation Factors for Multi-rate Parallel Interference Cancellation in the IMT-2000 3GPP System (IMT-2000 3GPP 시스템을 위한 다중 전송율 병렬형 간섭제거기의 구현 요소들)

  • 김진겸;오성근;선우명훈;김성락
    • Journal of the Institute of Electronics Engineers of Korea TC
    • /
    • v.40 no.2
    • /
    • pp.56-63
    • /
    • 2003
  • We investigate some implementation factors that affect the performance of multi-rate parallel interference cancellers (PICs) for the international mobile telecommunications-2000 (IMT-2000) 3rd-generation partnership project (3GPP) system. We consider the simple multi-rate PIC [1,2] that can remove effectively multiple access interference (MAI) through block-based detection and sample-based cancellation in asynchronous user environments. The PIC structure has significantly lower complexity as compared with that of the existing scheme, especially as the number of users increases. We analyze the effects of timing error, oversampling rate, unsynchronized users and/or outer-cell interference, and the number of Quantization bits on the PIE performance through extensive computer simulations. The models for such factors and the optimum parameters are drawn. Finally, we evaluate the receiver complexities of the PIC receivers employing using the advanced removal scheme.

Optimized Implementation of Lightweight Block Cipher SIMECK and SIMON Counter Operation Mode on 32-Bit RISC-V Processors (32-bit RISC-V 프로세서 상에서의 경량 블록 암호 SIMECK, SIMON 카운터 운용 모드 최적 구현)

  • Min-Joo Sim;Hyeok-Dong Kwon;Yu-Jin Oh;Min-Ho Song;Hwa-Jeong Seo
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.33 no.2
    • /
    • pp.165-173
    • /
    • 2023
  • In this paper, we propose an optimal implementation of lightweight block ciphers, SIMECK and SIMON counter operation mode, on a 32-bit RISC-V processor. Utilizing the characteristics of the CTR operating mode, we propose round function optimization that precomputes some values, single plaintext optimization and two plaintext parallel optimization. Since there are no previous research results on SIMECK and SIMON on RISC-V, we compared the performance of implementations with and without precomputation techniques for single plaintext optimization and two plaintext parallel optimization implementations. As a result, the implementations to which the precomputation technique was applied showed a performance improvement of 1% compared to the implementations to which precomputation was not applied.