• 제목/요약/키워드: Multicore

검색결과 143건 처리시간 0.021초

Easily Adaptable On-Chip Debug Architecture for Multicore Processors

  • Xu, Jing-Zhe;Park, Hyeongbae;Jung, Seungpyo;Park, Ju Sung
    • ETRI Journal
    • /
    • 제35권2호
    • /
    • pp.301-310
    • /
    • 2013
  • Nowadays, the multicore processor is watched with interest by people all over the world. As the design technology of system on chip has developed, observing and controlling the processor core's internal state has not been easy. Therefore, multicore processor debugging is very difficult and time-consuming. Thus, we need a reliable and efficient debugger to find the bugs. In this paper, we propose an on-chip debug architecture for multicore processors that is easily adaptable and flexible. It is based on the JTAG standard and supports monitoring mode debugging, which is different from run-stop mode debugging. Compared with the debug architecture that supports the run-stop mode debugging, the proposed architecture is easily applied to a debugger and has the advantage of having a desirable gate count and execution cycle. To verify the on-chip debug architecture, it is applied to the debugger of the prototype multicore processor and is tested by interconnecting it with a software debugger based on GDB and configured for the target processor.

Counter-Based Approaches for Efficient WCET Analysis of Multicore Processors with Shared Caches

  • Ding, Yiqiang;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제7권4호
    • /
    • pp.285-299
    • /
    • 2013
  • To enable hard real-time systems to take advantage of multicore processors, it is crucial to obtain the worst-case execution time (WCET) for programs running on multicore processors. However, this is challenging and complicated due to the inter-thread interferences from the shared resources in a multicore processor. Recent research used the combined cache conflict graph (CCCG) to model and compute the worst-case inter-thread interferences on a shared L2 cache in a multicore processor, which is called the CCCG-based approach in this paper. Although it can compute the WCET safely and accurately, its computational complexity is exponential and prohibitive for a large number of cores. In this paper, we propose three counter-based approaches to significantly reduce the complexity of the multicore WCET analysis, while achieving absolute safety with tightness close to the CCCG-based approach. The basic counter-based approach simply counts the worst-case number of cache line blocks mapped to a cache set of a shared L2 cache from all the concurrent threads, and compares it with the associativity of the cache set to compute the worst-case cache behavior. The enhanced counter-based approach uses techniques to enhance the accuracy of calculating the counters. The hybrid counter-based approach combines the enhanced counter-based approach and the CCCG-based approach to further improve the tightness of analysis without significantly increasing the complexity. Our experiments on a 4-core processor indicate that the enhanced counter-based approach overestimates the WCET by 14% on average compared to the CCCG-based approach, while its averaged running time is less than 1/380 that of the CCCG-based approach. The hybrid approach reduces the overestimation to only 2.65%, while its running time is less than 1/150 that of the CCCG-based approach on average.

멀티 코어 프로세서를 위한 저전력 필터 캐쉬 설계 기법 (Low-power Filter Cache Design Technique for Multicore Processors)

  • 박영진;김종면;김철홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권12호
    • /
    • pp.9-16
    • /
    • 2009
  • 최신의 멀티코어 프로세서를 설계할 때에는 성능과 함께 전력 효율성이 반드시 고려되어야 한다. 본 논문에서는 싱글 코어 프로세서의 명령어 캐쉬에서 소비되는 전력을 줄이기 위해 사용되는 대표적 기법중 하나인 필터 캐쉬 구조를 멀티 코어 프로세서에 적용하기 위한 새로운 방안을 제시하고자 한다. 명령어 캐쉬는 프로세서 전체에서 소비되는 전력의 상당 부분을 차지하고 있기 때문에, 변형 필터 캐쉬 구조를 이용한 저전력 명령어 캐쉬 설계는 멀티 코어 프로세서의 전력 소비를 줄이는데 있어서 중요한 역할을 담당할 수 있다. 제안하는 변형 필터 캐쉬 구조는 멀티코어 프로세서에서 필터 캐쉬에 대한 희생 캐쉬를 추가함으로써 1차 명령어 캐쉬에 대한 접근 횟수를 감소시키는 방법을 이용하여 명령어 캐쉬에서 소비되는 총전력을 줄일 수 있다. 제안하는 명령어 캐쉬 구조의 효율성을 분석하기 위한 모의 실험 도구로 SimpleScalar시뮬레이터와 CACTI를 사용한다. 모의실험 결과, 제안하는 기술은 멀티코어 프로세서의 명령어 캐쉬에서 소비되는 전력을 기존의 필터 캐쉬 구조와 비교하여 최대 3.4% 감소시킬 수 있음을 확인할 수 있다. 더욱이 제안하는 구조는 기존의 필터 캐쉬 구조에 비해 보다 우수한 성능을 보여준다.

락의 실제 : 멀티코어 상의 데이터베이스 성능 분석 (Locking in Practice : Performance of a Database System on a Multicore Machine)

  • 한혁
    • 한국콘텐츠학회논문지
    • /
    • 제14권8호
    • /
    • pp.22-29
    • /
    • 2014
  • 락은 멀티프로세서 환경에서 공유 데이터에 대한 접근을 안전하게 하는 잘 알려진 일반적인 방법이다. 1960년대에 상호 배제가 소개된 후에 많은 스핀락 알고리즘이 제안되었고 운영체제나 데이터베이스 시스템에 사용되어 왔다. 이 연구에서 고성능 멀티코어 시스템 상에서 락 알고리즘이 데이터베이스 시스템에 미치는 영향을 측정하였다. 평가를 위해 그 동안 멀티코어 상에서 성능 개선을 위해 재구조화된 최신 MySQL 5.6 및 MySQL에 탑재된 InnoDB 엔진을 사용하였다. InnoDB의 스핀락 함수를 수정하여 다양한 락 알고리즘들을 구현하였고 구현된 락 알고리즘들을 멀티코어 환경에서 평가하였다.

Multicore-Aware Code Co-Positioning to Reduce WCET on Dual-Core Processors with Shared Instruction Caches

  • Ding, Yiqiang;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제6권1호
    • /
    • pp.12-25
    • /
    • 2012
  • For real-time systems it is important to obtain the accurate worst-case execution time (WCET). Furthermore, how to improve the WCET of applications that run on multicore processors is both significant and challenging as the WCET can be largely affected by the possible inter-core interferences in shared resources such as the shared L2 cache. In order to solve this problem, we propose an innovative approach that adopts a code positioning method to reduce the inter-core L2 cache interferences between the different real-time threads that adaptively run in a multi-core processor by using different strategies. The worst-case-oriented strategy is designed to decrease the worst-case WCET among these threads to as low as possible. The other two strategies aim at reducing the WCET of each thread to almost equal percentage or amount. Our experiments indicate that the proposed multicore-aware code positioning approaches, not only improve the worst-case performance of the real-time threads but also make good tradeoffs between efficiency and fairness for threads that run on multicore platforms.

멀티코어 프로세서의 전력 소비에 대한 연구 (A Study on Power Dissipation of The Multicore Processor)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권2호
    • /
    • pp.251-256
    • /
    • 2017
  • 최근에 이르러, 범용 컴퓨터 뿐만이 아니라 임베디드 시스템 및 모바일 장치에서도 광범위하게 멀티코어 프로세서가 이용되어 그 성능이 증대되고 있다. 이러한 멀티코어 프로세서 시스템의 전력 소비량이 매우 중요하므로, 설계의 초기 단계에서 그 값을 정확하게 예측할 수 있어야 한다. 본 논문에서는 멀티코어 프로세서에 대하여 빠른 속도를 갖는 명령어 자취형 (trace-driven) 모의실험기 기반의 전력 분석기를 개발하였다. 이 때, 각 코어를 구성하는 하드웨어 유닛별 소비전력을 계산하여 합산하였다. 또한, SPEC 2000 벤치마크를 입력으로 모의실험을 수행하여 명령어 당평균 전력 소비량을 측정하였다.

Exploiting Static Non-Uniform Cache Architectures for Hard Real-Time Computing

  • Ding, Yiqiang;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제9권4호
    • /
    • pp.177-189
    • /
    • 2015
  • High-performance processors using Non-Uniform Cache Architecture (NUCA) are increasingly used to deal with the growing wire delays in multicore/manycore processors. Due to the convergence of high-performance computing with embedded computing, NUCA caches are expected to benefit high-end embedded systems as well. However, for real-time systems that use multicore processors with NUCA caches, it is crucial to bound worst-case execution time (WCET) accurately and safely. In this paper, we developed a WCET analysis approach by considering the effect of static NUCA caches on WCET. We compared the WCET in real-time applications with different topologies of static NUCA caches. Our experimental results demonstrated that the static NUCA cache could improve the worst-case performance of realtime applications using multicore processor compared to the cache with uniform access time.

Static Timing Analysis of Shared Caches for Multicore Processors

  • Zhang, Wei;Yan, Jun
    • Journal of Computing Science and Engineering
    • /
    • 제6권4호
    • /
    • pp.267-278
    • /
    • 2012
  • The state-of-the-art techniques in multicore timing analysis are limited to analyze multicores with shared instruction caches only. This paper proposes a uniform framework to analyze the worst-case performance for both shared instruction caches and data caches in a multicore platform. Our approach is based on a new concept called address flow graph, which can be used to model both instruction and data accesses for timing analysis. Our experiments, as a proof-of-concept study, indicate that the proposed approach can accurately compute the worst-case performance for real-time threads running on a dual-core processor with a shared L2 cache (either to store instructions or data).

멀티코어 기반 모바일 플랫폼을 위한 애플리케이션의 태스크 병렬화 시스템 (Task Parallelism System of Application for Multicore-Based Mobile Platform)

  • 임근식;이세호;엄영익
    • 한국통신학회논문지
    • /
    • 제38C권6호
    • /
    • pp.521-530
    • /
    • 2013
  • 본 논문은 기존의 소프트웨어가 멀티코어기반의 모바일 디바이스를 인지할 수 있도록 태스크 병렬화 시스템(BioMP)을 제안한다. 애플리케이션 개발자가 기존의 소프트웨어에 병렬화 규약의 코드를 추가하였을 때, 제안 시스템은 호환성 뿐만 아니라 병렬 쓰레드의 수행을 지원한다. BioMP는 기존의 대용량 애플리케이션 소스코드를 단시일에 멀티코어를 인지하는 소프트웨어로 개선한다. 실험 결과, 우리의 아이디어는 쿼드 코어기반의 멀티코어 환경에서 기존의 시스템 대비 애플리케이션 실행속도를 약 64%까지 개선하였다. 또한, BioMP는 독립적인 컴포넌트이기 때문에 어떠한 플랫폼의 추가적인 수정도 필요로 하지 않는다. 그 결과, 애플리케이션 개발자는 멀티코어향 소프트웨어를 애플리케이션 스토어에 배포하였을 때, 사용자는 모바일 디바이스의 어떠한 수정도 없이 즉시 실행을 할 수 있다.

멀티코어 시스템에서 흐름 수준 병렬처리에 기반한 리눅스 TCP/IP 스택의 성능 개선 (A Performance Improvement of Linux TCP/IP Stack based on Flow-Level Parallelism in a Multi-Core System)

  • 권희웅;정형진;곽후근;김영종;정규식
    • 정보처리학회논문지A
    • /
    • 제16A권2호
    • /
    • pp.113-124
    • /
    • 2009
  • 최근 멀티코어가 장착된 시스템이 증가하면서 이를 통한 애플리케이션 성능향상에 대한 노력이 계속 되어왔다. 하나의 시스템에 다수의 처리장치가 존재함으로 인해 프로세싱 파워는 기존보다 증가했지만 기존의 소프트웨어나 하드웨어들은 싱글코어 시스템에 적합하게 설계된 경우가 많아 멀티코어의 이점을 충분히 활용하지 못하고 있는 경우가 많다. 기존의 많은 소프트웨어들은 멀티코어 상에서 공유 자원에 대한 병목현상과 비효율적인 캐시 메모리 사용으로 인하여 충분한 성능향상을 기대하기 어려우며 이러한 문제점들로 인하여 기존 소프트웨어는 코어의 개수에 비례한 성능을 얻지 못하며, 최악의 경우 오히려 감소될 수 있다. 본 논문에서는 TCP/IP를 사용하는 기존의 네트워크 애플리케이션과 운영체제에 흐름 수준 병렬처리 기법을 적용하여 성능을 증가 시킬 수 있는 방법을 제안한다. 제안된 방식은 개별 코어단위로 네트워크 애플리케이션, 운영체제의 TCP/IP 스택, 디바이스 드라이버, 네트워크 인터페이스가 서로 간섭 없이 작동할 수 있는 환경을 구성하며, L2 스위치를 통해 각 코어 단위로 트래픽을 분산하는 방법을 적용하였다. 이를 통해 각 코어 간에 애플리케이션의 데이터 및 자료구조, 소켓, 디바이스 드라이버, 네트워크 인터페이스의 공유를 최소화하여, 각 코어간의 자원을 차지하기 위한 경쟁을 최소화하고 캐시 히트율을 증가시킨다. 이를 통하여 8개의 멀티코어를 사용하였을 경우 네트워크 접속속도와 대역폭이 코어의 개수에 따라 선형적으로 증가함을 실험을 통해 입증하였다.