• Title/Summary/Keyword: 병렬성능

Search Result 1,947, Processing Time 0.027 seconds

Performance Evaluation of the GPU Architecture Executing Parallel Applications (병렬 응용프로그램 실행 시 GPU 구조에 따른 성능 분석)

  • Choi, Hong-Jun;Kim, Cheol-Hong
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.5
    • /
    • pp.10-21
    • /
    • 2012
  • The role of GPU has evolved from graphics-specific processing to general-purpose processing with the development of unified shader core architecture. Especially, execution methods for general-purpose parallel applications using GPU have been researched intensively, since the parallel hardware architecture can be utilized efficiently when the parallel applications are executed. However, current GPU architecture has limitations in executing general-purpose parallel applications, since the GPU is not specialized for general-purpose computing yet. To improve the GPU performance when general-purpose parallel applications are executed, the GPU architecture should be evolved. In this work, we analyze the GPU performance according to the architecture varying the number of cores and clock frequency. Our simulation results show that the GPU performance improves by up to 125.8% and 16.2% as the number of cores increases and the clock frequency increases, respectively. However, note that the improvement of the GPU performance is saturated even though the number of cores increases and the clock frequency increases continuously, since the data cannot be provided to the GPU due to the limit of memory bandwidth. Consequently, to accomplish high performance effectiveness on GPU, computational resources must be more suitably considered.

Technology and Trends of High Performance Processors (고성능 프로세서 기술동향)

  • Kim, Y.W.;Kim, S.W.
    • Electronics and Telecommunications Trends
    • /
    • v.25 no.5
    • /
    • pp.123-136
    • /
    • 2010
  • 반도체 공정 기술의 발전으로 인하여 반도체 회로는 지속적으로 비약적인 성능의 발전을 가져오고 있다. 고성능 프로세서는 이와 같은 반도체 공정의 미세화에 따라 전력소모 및 발열 문제로 인하여 공정 및 속도 향상을 통한 성능 경쟁에서 탈피하여, 수십 개에서 수백 개의 코어를 내장하는 고도병렬화/이기종화를 통한 성능 향상을 추구하는 시대로 접어들고 있다. 본 문서에서는 최근의 고성능 프로세서 동향을 중심으로 병렬/이기종화 기술 및 관련 기술의 최근 동향과 향후 발전 추세에 대해 논의하고자 한다.

Performance Analysis of WCDMA Systems Employing a Hybrid Interference Cancellation Scheme in Rayleigh Fading Channels (Rayleigh 페이딩 채널에서 복합간섭제거기법을 적용한 WCDMA 시스템의 성능분석)

  • 서정욱;임철호;최충열;오창헌;조성준
    • Proceedings of the Korea Electromagnetic Engineering Society Conference
    • /
    • 2000.11a
    • /
    • pp.3-4
    • /
    • 2000
  • 본 논문에서는 다양한 QoS와 전송률을 갖는 WCDMA 시스템에 복합간섭제거기법을 적용하여 그 성능을 분석하였다. 전송률이 높은 사용자들은 병렬간섭제거기법이나 복합간섭제거기법을 사용하여 간섭을 제거하는 것이 효과적이며, 전송률이 낮은 사용자들은 순차간섭제거기법이나 복합간섭제거기법을 사용하는 게 효과적이다. 그러나, 순차 및 병렬간섭제거기법과 비교해 본 결과 QoS와 전송률에 관계없이 복합간섭제거기법의 성능이 가장 우수함을 알 수 있었다.

  • PDF

Table Comparison Prefetching using Available I/O Bandwidth in Parallel File System (병렬 파일 시스템에서의 가용 입출력 대역폭을 고려한 테이블 비교 선반입 정책)

  • 김재열;석성우;조종현;서대화
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10c
    • /
    • pp.630-632
    • /
    • 2000
  • 과도한 파일 입출력이 요구되는 병렬파일 시스템의 성능을 결정하는 중요한 요소로서 캐슁과 선반입을 들 수 있다. 본 논문은 캐쉬의 크기에 비해 상대적으로 큰 파일을 요청하는 경우에 시스템 성능에 막대한 영향을 미치는 선반입에 대해서 선반입할 데이터를 결정하는 알고리즘으로 테이블 비교법을 제안하고, 이와 더불어 예측된 데이터의 선반입 여부와 선반입 시기를 결정하는 경우 현재의 가용 입출력 대역폭을 고려하는 기법을 제안한다. 제안하는 선반입 알고리즘을 시뮬레이션을 통하여 기타 선반입 알고리즘과 비교해 본 결과 파일 시스템 성능이 향상되었음을 보여준다.

  • PDF

Task Duplication Based Clustering and Scheduling on Symmetric Multiprocessor Systems (대칭형 다중프로세서 시스템에서 태스크 중복기반의 클러스터링과 스케줄링)

  • 강오한;조경미;김기남;김시관
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.97-99
    • /
    • 2003
  • 대칭형 다중프로세서 (SMP: Symmetric Multiprocessors) 시스템은 고성능의 병렬 연산을 위한 중요하고 효과적인 기반환경을 제공하고 있다. SMP에서 태스크 클러스터링과 스케줄링 기법은 시스템의 성능에 큰 영향을 미친다. 본 논문에서는 버스 기반의 SMP에서 사용할 수 있는 태스크 중복 기반의 클러스터링과 스케줄링 기법을 소개한다. 본 논문에서 제안한 클러스터링 기법에서는 휴리스틱을 사용하여 중복할 태스크를 선택한 후 프로세서에 할당하고, 스케줄링 기법에서는 잠재하는 통신 충돌을 방지하기 위하여 네트워크 통신 자원을 사전에 할당한다. 새로운 클러스터링과 스케줄링 기법의 성능을 확인하기 위하여 시뮬레이션에서는 통신비용의 변화에 대한 병렬연산시간을 비교하였다.

  • PDF

Design and Implementation of Parallelized Linked List Class Library using Pthread Library (Pthread 라이브러리를 이용한 Linked List 병렬화 클래스 라이브러리의 설계 및 구현)

  • 김홍숙;한동수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10c
    • /
    • pp.780-782
    • /
    • 1999
  • 병렬 프로세서 시스템이 제고하는 하드웨어적인 장점을 이용하기 위해서는 병렬 프로그래밍을 통한 애플리케이션의 병렬화가 필요하다. 기존의 순차적 코드의 경우에 자동 병렬화 컴파일러 기법을 통하여 병렬 프로세서시스템이 제공하는 성능을 극대화하고 있다. 그러나 자동병렬화는 과학 기술 계산용 코드와 같은 정형성을 지닌 코드에서는 유용하지만 비즈니스 응용에서 사용되는 동적인 자료구조를 사용하는 코드에서는 포인터에 의한 별명과 이에 따른 의존성 분석에 어려움으로 인해 많이 응용되고 있지는 못하다. 본 논문은 병렬 프로세서 시스템이 제공하는 기능을 이용하기 위한 한 방법으로 비즈니스 응용에서 많이 사용되는 동적인 자료 구조 중 linked list 클래스 라이브러리의 설계와 구현에 대하여 기술한다.

  • PDF

Performance Improvement of Parallel Processing System through Runtime Adaptation (실행시간 적응에 의한 병렬처리시스템의 성능개선)

  • Park, Dae-Yeon;Han, Jae-Seon
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.26 no.7
    • /
    • pp.752-765
    • /
    • 1999
  • 대부분 병렬처리 시스템에서 성능 파라미터는 복잡하고 프로그램의 수행 시 예견할 수 없게 변하기 때문에 컴파일러가 프로그램 수행에 대한 최적의 성능 파라미터들을 컴파일 시에 결정하기가 힘들다. 본 논문은 병렬 처리 시스템의 프로그램 수행 시, 변화하는 시스템 성능 상태에 따라 전체 성능이 최적화로 적응하는 적응 수행 방식을 제안한다. 본 논문에서는 이 적응 수행 방식 중에 적응 프로그램 수행을 위한 이론적인 방법론 및 구현 방법에 대해 제안하고 적응 제어 수행을 위해 프로그램의 데이타 공유 단위에 대한 적응방식(적응 입도 방식)을 사용한다. 적응 프로그램 수행 방식은 프로그램 수행 시 하드웨어와 컴파일러의 도움으로 프로그램 자신이 최적의 성능을 얻을 수 있도록 적응하는 방식이다. 적응 제어 수행을 위해 수행 시에 병렬 분산 공유 메모리 시스템에서 프로세서 간 공유될 수 있은 데이타의 공유 상태에 따라 공유 데이타의 크기를 변화시키는 적응 입도 방식을 적용했다. 적응 입도 방식은 기존의 공유 메모리 시스템의 공유 데이타 단위의 통신 방식에 대단위 데이타의 전송 방식을 사용자의 입장에 투명하게 통합한 방식이다. 시뮬레이션 결과에 의하면 적응 입도 방식에 의해서 하드웨어 분산 공유 메모리 시스템보다 43%까지 성능이 개선되었다. Abstract On parallel machines, in which performance parameters change dynamically in complex and unpredictable ways, it is difficult for compilers to predict the optimal values of the parameters at compile time. Furthermore, these optimal values may change as the program executes. This paper addresses this problem by proposing adaptive execution that makes the program or control execution adapt in response to changes in machine conditions. Adaptive program execution makes it possible for programs to adapt themselves through the collaboration of the hardware and the compiler. For adaptive control execution, we applied the adaptive scheme to the granularity of sharing adaptive granularity. Adaptive granularity is a communication scheme that effectively and transparently integrates bulk transfer into the shared memory paradigm, with a varying granularity depending on the sharing behavior. Simulation results show that adaptive granularity improves performance up to 43% over the hardware implementation of distributed shared memory systems.

A Study on Translational and Rotational Velocity Performance Indices of Six-Degree-of-Freedom parallel Mechanism (6자유도를 갖는 병렬형 기구의 병진속도와 회전속도 성능 지표에 관한 연구)

  • Kim, Chan-Soo
    • Journal of Korea Game Society
    • /
    • v.10 no.6
    • /
    • pp.57-65
    • /
    • 2010
  • In this paper, mobility performance indices are proposed which may be used to estimate characteristics of output velocity space in six-degree-of-freedom parallel mechanism. In order for manipulability and condition number to not suffer from lack of the physical meaning due to dimensional inhomogeneity, output space is partitioned into translational velocity space and rotational velocity space, respectively. In each space, mobility ellipsoids corresponding to unit input space are defined and two types of mobility performance in translational velocity spaces indices are derived. Two types of mobility performance in rotational velocity spaces indices are derived.

Benchmarking the Intel Xeon Phi Coprocessor with Intel MKL library (인텔 MKL 라이브러리를 이용한 Xeon Phi Coprocessor 벤치마크)

  • Park, Young-Soo;Park, Koo-Rack;Kim, Jin-Mook
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.1-4
    • /
    • 2014
  • 인텔 Many Integrated Core (MIC) 아키텍쳐는 61개의 코어가 하나의 칩에 결합되어 있다. Xeon Phi 로 명명된 인텔 MIC는 인텔 E5 Xeon CPU 보다 2배의 single precision GFLOPs 성능을 제공한다. 인텔 MIC 는 수치연산에 최적화 되어 있는 아키텍쳐이다. 우리는 Xeon Phi 7120P를 가지고 벤치마킹을 하였고 클락스피드 1.238GHz, 61Core 이고 한 개의 코어당 4쓰레드를 사용하며 이론상 최고 성능은 Peak Double Precision(GFLOP)는 약 2-TFlops 이다. 이에 우리는 인텔 X86 아키텍쳐에서 openMP 와 인텔 MKL(Math kernel library) 라이브러리를 이용한 병렬프로그램을 작성하여 쓰레드 수를 증가 시키면서 인텔 Xeon Phi 와 E5 Xeon CPU에서 single precision 성능을 벤치마킹 하여, Xeon Phi 와 Xeon E5 의 이론적인 성능을 비교해 보고자 한다. 또한 openMP와 인텔 MKL라이브러리를 사용한 병렬환경에서 CPU의 성능 지표인 클락스피드와 코어수 외에 Vector unit size 의 크기가 성능에 어떤 영향을 미치는지 살펴보았다.

  • PDF

Real-Time Monitoring of Resource for Distributed/Parallel Framework on the Web (웹 기반 분산/병렬 프레임워크상에서 실시간 자원 모니터링)

  • Kim, Su-Ja;Jeong, Jae-Hong;Song, Eun-Ha;Han, Sung-Kook;Joo, Su-Chong;Jeong, Young-Sik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.117-120
    • /
    • 2003
  • 웹의 다양한 자원을 이용하여 고성능 작업 처리를 요구하는 분산/병렬 시스템은 균형적인 작업 할당을 위해 각 호스트의 성능 평가가 중요하다. 하지만 성능 평가에 대한 지속적인 신뢰하기가 어려우며 뿐만 아니라, 작업 도중 호스트의 성능 변화를 예측하기가 어렵다. 성능 변화에 따른 효율적인 작업 스케줄링이 필요하며, 자원 관리자는 작업을 수행중인 호스트에 대한 모니터가 요구된다. 본 논문에서는 자원 관리자와 시스템 관리자에게 효율적인 자원 정책을 제안하기 위해 각 호스트의 자원을 모니터하고, 분산/병렬 시스템의 작업 할당 메커니즘에 의해 각 호스트의 성능 평가 기준을 정한다 또한 관리자에게 실시간으로 호스트의 성능 변화에 따른 자원 정보를 관리하도록 다양한 시각화를 제공한다.

  • PDF