• 제목/요약/키워드: thread scheduling

검색결과 34건 처리시간 0.037초

Evaluation Of The Content-Based Packet Scheduling Policies On The Multithreaded Multiprocessor Network System

  • Yim Kangbin
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.39-41
    • /
    • 2004
  • In this paper, I propose a thread scheduling policy for faster packet processing on the network processors with multithreaded multiprocessor architecture. To implement the proposed policy, I derived several basic parameters related to the thread scheduling and included a new parameter representing the packet contents and the features of the multithreaded architecture. Through the empirical study using a network processor, I proved the proposed scheduling ploicy provides better throughput and load balancing compared to the generally used thread scheduling policy.

  • PDF

네트워크 프로세서를 위한 다중 쓰레드 스케줄링 (Multi-thread Scheduling for the Network Processor)

  • 임강빈;박준구;정기현;최경희
    • 정보처리학회논문지C
    • /
    • 제11C권3호
    • /
    • pp.337-344
    • /
    • 2004
  • 본 논문은 다중 프로세서(Multiprocessor) 기반 다중 쓰레드(Multithreaded) 구조의 네트워크 프로세서를 이용한 패킷 치리 시스템에서 패킷을 보다 고속으로 처리하기 위한 쓰레드 스케줄링 기법을 제안한다 이를 위하여 스케줄링과 관련한 인자를 실험을 통하여 얻고, 패킷 내용 및 다중 쓰레드 아키텍쳐를 표현하는 인자를 포함하도록 설계하였다. 시뮬레이터를 이용한 실험을 통하여 제안된 스케줄링 기법이 제공하는 처리율 및 부하 분산 정도가 다른 스케줄링 기법과 비교하여 효율적임을 증명하였다.

Multicore Real-Time Scheduling to Reduce Inter-Thread Cache Interferences

  • Ding, Yiqiang;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제7권1호
    • /
    • pp.67-80
    • /
    • 2013
  • The worst-case execution time (WCET) of each real-time task in multicore processors with shared caches can be significantly affected by inter-thread cache interferences. The worst-case inter-thread cache interferences are dependent on how tasks are scheduled to run on different cores. Therefore, there is a circular dependence between real-time task scheduling, the worst-case inter-thread cache interferences, and WCET in multicore processors, which is not the case for single-core processors. To address this challenging problem, we present an offline real-time scheduling approach for multicore processors by considering the worst-case inter-thread interferences on shared L2 caches. Our scheduling approach uses a greedy heuristic to generate safe schedules while minimizing the worst-case inter-thread shared L2 cache interferences and WCET. The experimental results demonstrate that the proposed approach can reduce the utilization of the resulting schedule by about 12% on average compared to the cyclic multicore scheduling approaches in our theoretical model. Our evaluation indicates that the enhanced scheduling approach is more likely to generate feasible and safe schedules with stricter timing constraints in multicore real-time systems.

SimTBS: GPGPU 스레드블록 스케줄링 시뮬레이터 (SimTBS: Simulator For GPGPU Thread Block Scheduling)

  • 조경운;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권4호
    • /
    • pp.87-92
    • /
    • 2020
  • GPGPU(General-Purpose GPU)는 수만 단위의 스레드들을 병렬적으로 수행하여 성능을 최대화시킬 수 있지만, 실질적으로는 스레드들을 그룹화하여 스레드블록(Thread Block) 단위로 작업을 정의하고 GPGPU 하드웨어 자원의 할당 단위로 활용한다. 이러한 역할을 담당하는 스레드블록 스케줄러는 GPGPU내에 하드웨어적으로 구현되어 있으며, 스레드블록들을 하드웨어 자원들에게 라운드로빈 방식으로 할당한다. 그런데, 라운드로빈 정책은 단순 순차 할당 방식으로서 GPGPU 하드웨어 자원의 활용도에 최적화되어 있지 않다. 본 논문에서는 다양한 스레드블록 스케줄링 방식의 성능을 정량적으로 분석할 수 있는 스레드블록 스케줄러 모델을 제안하고, 구현된 시뮬레이터의 성능 결과를 통해 기존 GPGPU의 스레드블록 스케줄링 방식이 작업 부하가 높은 경우에는 적합하지 않음을 보이고자 한다.

An IPC-based Dynamic Cooperative Thread Array Scheduling Scheme for GPUs

  • Son, Dong Oh;Kim, Jong Myon;Kim, Cheol Hong
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권2호
    • /
    • pp.9-16
    • /
    • 2016
  • Recently, many research groups have focused on GPGPUs in order to improve the performance of computing systems. GPGPUs can execute general-purpose applications as well as graphics applications by using parallel GPU hardware resources. GPGPUs can process thousands of threads based on warp scheduling and CTA scheduling. In this paper, we utilize the traditional CTA scheduler to assign a various number of CTAs to SMs. According to our simulation results, increasing the number of CTAs assigned to the SM statically does not improve the performance. To solve the problem in traditional CTA scheduling schemes, we propose a new IPC-based dynamic CTA scheduling scheme. Compared to traditional CTA scheduling schemes, the proposed dynamic CTA scheduling scheme can increase the GPU performance by up to 13.1%.

다중스레드 모델에서 최단 프레임 우선 스레드 스케줄링 알고리즘 (Shortest-Frame-First Scheduling Algorithm of Threads On Multithreaded Models)

  • 심우호;유원희;양창모
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권5호
    • /
    • pp.575-582
    • /
    • 2000
  • 기존 다중스레드 모델에서의 주로 사용되는 선입선출 스케줄링 알고리즘은 실행의 지역성을 고려하지 않았기 때문에 높은 문맥전환 비용과 상대적으로 수행 시간이 짧은 프레임의 지연이 야기되어 일부 환경에서는 실행의 효율성을 떨어뜨리는 요인이 된다. 선입선출 스케줄링 알고리즘의 문제를 개선한 TAM의 퀀텀 단위 스케줄링 방법은 퀀텀 단위의 우선권을 너무 강조하므로 프로그램 실행의 병렬성을 제한시켜 프로세서의 활용도가 저하될 수 있고, 프레임 내에 있는 스레드들 간의 동기화로 인한 지연이 발생될 경우 대기 시간이 길어질 수 있다는 문제점을 가지고 있다. 위의 문제점들을 해결하기 위해 본 논문에서는 컴파일러에 의해 생성된 스레드의 크기와 동기화 정보를 이용하여 상대적으로 가장 짧은 프레임의 실행 시간을 예상하여 이를 우선적으로 처리하는 최단 프레임 우선(shortest-frame-first) 스케줄링 알고리즘을 제안한다. 다중스레드 모델은 실행의 일부분 특히 동기화 처리를 컴파일러에 의존하는 방식을 취함으로써 작업 시간에 대한 정확한 예상과 일관성을 쉽게 이용할 수 있다. 제안한 최단 프레임 우선 스케줄링 알고리즘을 선입선출 스케줄링 알고리즘과 비교한 실험 결과, 실행시간의 평가에서는 평균 15% 정도 실행 시간을 단축시켰고 프로세서 활용도의 평가에서는 5% 정도의 성능 향상을 얻었다. 그리고 대기 시간의 평가에서는 평균 24% 정도의 대기 시간을 줄였다.

  • PDF

다중 워크로드 환경을 위한 GPGPU 스레드 블록 스케줄링 (Thread Block Scheduling for Multi-Workload Environments in GPGPU)

  • 박소연;조경운;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권2호
    • /
    • pp.71-76
    • /
    • 2022
  • 대규모 병렬 워크로드를 GPGPU의 연산 유닛에 할당하기 위한 스케줄링으로 라운드 로빈 방식이 널리 사용되고 있다. 라운드 로빈은 작업을 각 연산 유닛에 순차적으로 할당하여 구현이 쉽다는 장점이 있으나, 클라우드와 같은 다중 워크로드 환경에서는 연산 유닛 간 부하 균형이 잘 이루어지지 않는 문제점이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 스레드 블록 스케줄링을 제안한다. 제안하는 방식은 다양한 GPGPU 워크로드가 만들어낸 스레드 블록들을 그 작업량에 근거해 다중큐로 관리하고 각 연산 유닛의 잔여 자원을 가장 잘 활용할 수 있는 큐에서 스레드 블록을 선택하여 연산 유닛들의 자원 이용률을 극대화시키고 부하균형을 유도한다. 다양한 부하 환경에서의 시뮬레이션 실험을 통해 제안하는 방식이 라운드 로빈 대비 평균 24.8%의 성능개선 효과가 있음을 보인다.

GPGPU 자원 활용 개선을 위한 블록 지연시간 기반 워프 스케줄링 기법 (A Novel Cooperative Warp and Thread Block Scheduling Technique for Improving the GPGPU Resource Utilization)

  • ;최용;김종면;김철홍
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제6권5호
    • /
    • pp.219-230
    • /
    • 2017
  • 멀티스레딩 기법이 적용된 GPGPU는 내부 병렬 자원들을 기반으로 데이터를 고속으로 처리하고 메모리 접근시간을 감소시킬 수 있다. CUDA, OpenCL 등과 같은 프로그래밍 모델을 활용하면 스레드 레벨 처리를 통해 응용프로그램의 고속 병렬 수행이 가능하다. 하지만, GPGPU는 범용 목적의 응용프로그램을 수행함에 있어 내부 하드웨어 자원들을 효과적으로 사용하지 못한다는 단점을 보이고 있다. 이는 GPGPU에서 사용하는 기존의 워프/스레드 블록 스케줄러가 메모리 접근시간이 긴 명령어를 처리하는데 있어서 비효율적이기 때문이다. 이와 같은 문제점을 해결하기 위해 본 논문에서는 GPGPU 자원 활용률을 개선하기 위한 새로운 워프 스케줄링 기법을 제안하고자 한다. 제안하는 워프 스케줄링 기법은 스레드 블록의 워프들 중 긴 메모리 접근시간을 가진 워프와 짧은 메모리 접근시간을 가진 워프들을 구분한 후, 긴 메모리 접근시간을 가진 워프를 우선 할당하고, 짧은 메모리 접근시간을 가진 워프를 나중에 할당하여 처리한다. 또한, 메모리와 내부 연결망에서 높은 경합이 발생했을 때 동적으로 스트리밍 멀티프로세서의 수를 감소시켜 워프 스케줄러를 효과적으로 사용할 수 있는 기법도 제안한다. 실험결과에 따르면, 15개의 스트리밍 멀티프로세서를 가진 GPGPU 플랫폼에서 제안된 워프 스케줄링 기법은 기존의 라운드로빈 워프 스케줄링 기법과 비교하여 평균 7.5%의 성능(IPC)이 향상됨을 확인할 수 있다. 또한, 제안된 두 개의 기법을 동시에 적용하였을 경우에는 평균 8.9%의 성능(IPC) 향상을 보인다.

Adaptive Memory Controller for High-performance Multi-channel Memory

  • Kim, Jin-ku;Lim, Jong-bum;Cho, Woo-cheol;Shin, Kwang-Sik;Kim, Hoshik;Lee, Hyuk-Jun
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제16권6호
    • /
    • pp.808-816
    • /
    • 2016
  • As the number of CPU/GPU cores and IPs in SOC increases and applications require explosive memory bandwidth, simultaneously achieving good throughput and fairness in the memory system among interfering applications is very challenging. Recent works proposed priority-based thread scheduling and channel partitioning to improve throughput and fairness. However, combining these different approaches leads to performance and fairness degradation. In this paper, we analyze the problems incurred when combining priority-based scheduling and channel partitioning and propose dynamic priority thread scheduling and adaptive channel partitioning method. In addition, we propose dynamic address mapping to further optimize the proposed scheme. Combining proposed methods could enhance weighted speedup and fairness for memory intensive applications by 4.2% and 10.2% over TCM or by 19.7% and 19.9% over FR-FCFS on average whereas the proposed scheme requires space less than TCM by 8%.

Kernel Thread Scheduling in Real-Time Linux for Wearable Computers

  • Kang, Dong-Wook;Lee, Woo-Joong;Park, Chan-Ik
    • ETRI Journal
    • /
    • 제29권3호
    • /
    • pp.270-280
    • /
    • 2007
  • In Linux, real-time tasks are supported by separating real-time task priorities from non-real-time task priorities. However, this separation of priority ranges may not be effective when real-time tasks make the system calls that are taken care of by the kernel threads. Thus, Linux is considered a soft real-time system. Moreover, kernel threads are configured to have static priorities for throughputs. The static assignment of priorities to kernel threads causes trouble for real-time tasks when real-time tasks require kernel threads to be invoked to handle the system calls because kernel threads do not discriminate between real-time and non-real-time tasks. We present a dynamic kernel thread scheduling mechanism with weighted average priority inheritance protocol (PIP), a variation of the PIP. The scheduling algorithm assigns proper priorities to kernel threads at runtime by monitoring the activities of user-level real-time tasks. Experimental results show that the algorithms can greatly improve the unexpected execution latency of real-time tasks.

  • PDF