• 제목/요약/키워드: task parallelism

검색결과 40건 처리시간 0.025초

스레드를 이용한 함수 병렬성 추출 (Exploration of Functional Parallelism using threads)

  • 김현철;이성우;류시룡;유기영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (3)
    • /
    • pp.633-635
    • /
    • 2000
  • 본 논문에서는 프로그램을 루프 구조에 근거하여 계층적으로 표현한 HTG (Hierarchical Task Graph)의 복합 노드 태스크들을 공유 메모리 다중처리기 환경에서의 효율적 수행을 위한 새로운 스케쥴링 기법을 제안한다. 단일처리기의 멀티스레드 구조를 비롯한 여러 플랫폼에 적용하기 위해 자바의 스레드를 사용하여 구현하였으며, 기존의 HTG의 함수 병렬성을 위한 비티 벡터 알고리즘과 성능을 비교 분석하였다. 실험 결과에서 보듯이, 제안된 기법이 비트 벡트 방법에 비해 수행 시간 측면에서 효율적임을 알 수 있으며 또한, 좋은 부하 균형을 유지하였다.

  • PDF

멀티모드 멀티태스크 임베디드 어플리케이션을 위한 HW/SW 분할 기법 (HW/SW Partitioning Techniques for Multi-Mode Multi-Task Embedded Applications)

  • 김영준;김태환
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권8호
    • /
    • pp.337-347
    • /
    • 2007
  • 시스템의 기능을 바꾸어 가면서 여러 개의 어플리케이션을 작동시키는 임베디드 시스템을 멀티모드(multi-mode) 임베디드 시스템이라 부른다. 더 나아가서 하나의 모드가 여러 개의 태스크로 구성된 임베디드 시스템을 멀티모드 멀티태스크(multi-task) 임베디드 시스템이라 부른다. 본 논문에서는 시간제한 조건을 가지고 있는 멀티모드 멀티태스크 임베디드 어플리케이션을 대상으로 하는 HW/SW 분할 방법에 대한 연구이다. 시간제한 조건을 만족하는 스케줄과 함께 태스크의 기능모듈(functional module)을 동작시킬 효율적인 처리 자원(processing resource)을 할당/매핑하여 시스템의 비용(가격)을 최대한 낮추는 것이 목적이다. 이 문제를 잘 풀기 위해 중요한 것은 모듈사이의 병렬성을 최대한 이용하여 실행시키는 것이다. 그러나 이전의 HW/SW 분할 방법은 모듈의 병렬 실행 가능성을 최대한 이용하지 않았는데, 병렬성 이용을 위한 탐색 계산이 복잡할 뿐 아니라 스케줄 가능성(schedulability) 검사를 단순하게 하려고 하였기 때문이다. 기존 방법의 한계를 극복하기 위해서 우리는 다음의 세 개의 세부문제를 동시에 고려하는 HW/SW 분할 기법을 제안한다: (1) 처리 자원의 할당 (2) 태스크 모듈에 대한 처리 자원 매핑 (3) 모듈실행 스케줄의 결정. 특별히 모듈의 병렬 실행과 실행 가능성을 간결하게 측정하는데 바탕을 둔 단순모드(single-mode) 멀티태스크 어플리케이션에 대한 반복 개선 방식을 갖는 분할 기법을 만들었다. 다시 이 기법을 확장하여 멀티모드 멀티태스크 어플리케이션의 분할 기법을 만들었다. 실제 사용되는 어플리케이션을 대상으로 한 실험에서 제안된 우리의 기법이 기존의 방법에 비해서 단순모드와 멀티모드 멀티태스크 어플리케이션에 대해서 각각 17.0%와 19.0%의 가격을 낮추는 것이 확인되었다.기존의 단량체인 Bis-GMA의 대체재로 고려될 수 있다. 혈중 cholestrol의 증가는 비만, 동맥경화, 고혈압 등의 심혈관 질환과 당뇨병 지방 대사 장해 등을 일으킨다. 함량의 경우 정상군에 비해 대조군은 1.74배 증가하였다. 그에 비해 RCM 투여군의 경우 대조군에 비해 57.4%의 예방효과를 측정할 수 있었다. HDL-콜레스테롤은 항 동맥경화의 지표로서 콜레스테롤을 말초혈관에서 간으로 수송하여 동맥경화를 진행시키지 않는 방향으로 콜레스테롤을 운반하여 지질대사 장해에 대한 방어 작용을 지니고 있다고 볼 수 있다. 정상군에 비해 대조군은 2.62배 감소하였다. 그에 비해 RCM 투여군은 대조군보다 81.6% 증대되는 효과를 볼 수 있었다. 과산화 지질 (Malondialdehyde)의 경우 지질조직의 손상정도를 나타내는 중요한 효소로 인정되고 있으며, 조직의 손상, 발암, 염증, 성인병 및 노화 등과 같은 여러 가지 유해 작용을 일으킨다. 정상군에 비해 대조군은 1.74배 수치가 증가되었으며, RCM투여군의 대조군과 비교 시 57.4% 감소되는 효과를 볼 수 있었다. 본 연구는 LPS로부터 유도된 산화적 스트레스에 대한 복분자의 선투여 후 예방효과를 알아보았다. 생약재의 일종인 복분자의 경우 LPS로 유도된 산화적 스트레스 억제 및 지질대사로부터의 개선 효과가 있는 것으로 판단되며 지질과산화에 대해서 강한 억제 활성을 나타내는 것을 알 수 있었다. 이러한 결과로 복분자는 생활 습관병의 예방과 개선에 유효한 것으로 사료되었으며, 지질대사와 과산화지표의 검증을 통해 기능성 식품소재로 활용될 수 있음을 보여주었다.로서 역시 CTV 치료계획에서 적게 조사되었다(p=0.005). 기존의 ICRU 치료계획은 잔류종양의 크기가 작은 경우 불필요하게 정상조직에 많은 선량이 투여되기 때문에 CT를 이용한 CTV 치료계획을 적용하여 정상조직에 대한 피폭을

TBBench: A Micro-Benchmark Suite for Intel Threading Building Blocks

  • Marowka, Ami
    • Journal of Information Processing Systems
    • /
    • 제8권2호
    • /
    • pp.331-346
    • /
    • 2012
  • Task-based programming is becoming the state-of-the-art method of choice for extracting the desired performance from multi-core chips. It expresses a program in terms of lightweight logical tasks rather than heavyweight threads. Intel Threading Building Blocks (TBB) is a task-based parallel programming paradigm for multi-core processors. The performance gain of this paradigm depends to a great extent on the efficiency of its parallel constructs. The parallel overheads incurred by parallel constructs determine the ability for creating large-scale parallel programs, especially in the case of fine-grain parallelism. This paper presents a study of TBB parallelization overheads. For this purpose, a TBB micro-benchmarks suite called TBBench has been developed. We use TBBench to evaluate the parallelization overheads of TBB on different multi-core machines and different compilers. We report in detail in this paper on the relative overheads and analyze the running results.

Static Homogeneous Multiprocessor Task Graph Scheduling Using Ant Colony Optimization

  • Boveiri, Hamid Reza;Khayami, Raouf
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권6호
    • /
    • pp.3046-3070
    • /
    • 2017
  • Nowadays, the utilization of multiprocessor environments has been increased due to the increase in time complexity of application programs and decrease in hardware costs. In such architectures during the compilation step, each program is decomposed into the smaller and maybe dependent segments so-called tasks. Precedence constraints, required execution times of the tasks, and communication costs among them are modeled using a directed acyclic graph (DAG) named task-graph. All the tasks in the task-graph must be assigned to a predefined number of processors in such a way that the precedence constraints are preserved, and the program's completion time is minimized, and this is an NP-hard problem from the time-complexity point of view. The results obtained by different approaches are dominated by two major factors; first, which order of tasks should be selected (sequence subproblem), and second, how the selected sequence should be assigned to the processors (assigning subproblem). In this paper, a hybrid proposed approach has been presented, in which two different artificial ant colonies cooperate to solve the multiprocessor task-scheduling problem; one colony to tackle the sequence subproblem, and another to cope with assigning subproblem. The utilization of background knowledge about the problem (different priority measurements of the tasks) has made the proposed approach very robust and efficient. 125 different task-graphs with various shape parameters such as size, communication-to-computation ratio and parallelism have been utilized for a comprehensive evaluation of the proposed approach, and the results show its superiority versus the other conventional methods from the performance point of view.

계층 자료구조의 결합과 3차원 클러스터링을 이용하여 적응적으로 부하 균형된 GPU-클러스터 기반 병렬 볼륨 렌더링 (Adaptive Load Balancing Scheme using a Combination of Hierarchical Data Structures and 3D Clustering for Parallel Volume Rendering on GPU Clusters)

  • 이원종;박우찬;한탁돈
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권1_2호
    • /
    • pp.1-14
    • /
    • 2006
  • 대용량 볼륨 데이타를 가시화하는 효과적인 방법인 후-정열 병렬 렌더링은 부하균형에 의해 성능이 결정된다. 기존의 정적 데이타 분할 방법은 태스크 병렬성만의 관점에서는 자기균형을 쉽게 얻을 수 있었지만, 데이타 내부의 빈 공간을 고려하지 않았기 때문에 데이타 병렬성의 관점에서는 심각한 불균형을 초래할 수 있었다. 본 논문은 태스크 병렬성과 데이타 병렬성이 함께 고려된, 적응적이며 확장적인 부하 균형 기법을 제안한다. 우리는 계층적 자료 구조인 옥트리와 BSP-트리를 효과적으로 결합하여 볼륨 데이타의 실제 영역만을 추출하여 렌더링 노드들로 균등하게 분산시켰으며, 각 렌더링 노드들에서는 3차원 클러스터링 알고리즘을 적용하여 렌더링 순서를 효과적으로 결정하였다. 제안하는 방법은 기존의 정적 데이타 분산 기법에 비해 최대 22배의 병렬성을 높였고 동기화 비용을 낮추어 렌더링 성능을 크게 향상시켰음을 실험을 통해 알 수 있었다.

Software Pipeline-Based Partitioning Method with Trade-Off between Workload Balance and Communication Optimization

  • Huang, Kai;Xiu, Siwen;Yu, Min;Zhang, Xiaomeng;Yan, Rongjie;Yan, Xiaolang;Liu, Zhili
    • ETRI Journal
    • /
    • 제37권3호
    • /
    • pp.562-572
    • /
    • 2015
  • For a multiprocessor System-on-Chip (MPSoC) to achieve high performance via parallelism, we must consider how to partition a given application into different components and map the components onto multiple processors. In this paper, we propose a software pipeline-based partitioning method with cyclic dependent task management and communication optimization. During task partitioning, simultaneously considering computation load balance and communication optimization can cause interference, which leads to performance loss. To address this issue, we formulate their constraints and apply an integer linear programming approach to find an optimal partitioning result - one that requires a trade-off between these two factors. Experimental results on a reconfigurable MPSoC platform demonstrate the effectiveness of the proposed method, with 20% to 40% performance improvements compared to a traditional software pipeline-based partitioning method.

주관적 각성정도, 기분, 수행능력의 일중변화 (Circadian rhythms in subjective activation, mood, and performance efficiency)

  • 윤인영
    • 수면정신생리
    • /
    • 제5권1호
    • /
    • pp.12-17
    • /
    • 1998
  • Circadian rhythms in subjective alertness, mood, and performance can be classified as psychological rhythm, compared with physiological rhythm such as body temperature and hormonal change. While in normal condition entrained by 24hr zeitgeber, subjective alertness would reach its maximum value around midday, subjective alertness would parallel body temperature rhythm with its peak at evening in non-entrained, free-running state. With desynchronization technique, subjective alertness rhythm is thought to be controlled by both temperature and sleep-wake rhythm oscillator. Circadian performance rhythms depend on the kind of task tested. It shows parallelism with body temperature rhythm when subjects are tested with simple, repetitive task. But when tested with tasks requiring complex verbal reasoning or immediate memory, subjects would perform them best at early morning, with performance decreasing as time of day advances. The desynchronization technique shows that circadian performance rhythm of simple, repetitive task is dependent on temperature oscillator but circadian performance rhythm of complex verbal reasoning is influenced by both temperature and sleep-wake rhythm oscillator or another independent oscillator. It would be worthwhile to compare psychological rhythm with hormonal change such as cortisol and melatonin. And more simple and time-saving method than desynchronization technique may facilitate the study of the mechanism underlying psychological rhythm.

  • PDF

Multi-Objective Pareto Optimization of Parallel Synthesis of Embedded Computer Systems

  • Drabowski, Mieczyslaw
    • International Journal of Computer Science & Network Security
    • /
    • 제21권3호
    • /
    • pp.304-310
    • /
    • 2021
  • The paper presents problems of optimization of the synthesis of embedded systems, in particular Pareto optimization. The model of such a system for its design for high-level of abstract is based on the classic approach known from the theory of task scheduling, but it is significantly extended, among others, by the characteristics of tasks and resources as well as additional criteria of optimal system in scope structure and operation. The metaheuristic algorithm operating according to this model introduces a new approach to system synthesis, in which parallelism of task scheduling and resources partition is applied. An algorithm based on a genetic approach with simulated annealing and Boltzmann tournaments, avoids local minima and generates optimized solutions. Such a synthesis is based on the implementation of task scheduling, resources identification and partition, allocation of tasks and resources and ultimately on the optimization of the designed system in accordance with the optimization criteria regarding cost of implementation, execution speed of processes and energy consumption by the system during operation. This paper presents examples and results for multi-criteria optimization, based on calculations for specifying non-dominated solutions and indicating a subset of Pareto solutions in the space of all solutions.

고성능 언어에서의 병렬 태스크 생성에 관한 연구 (A Study on Generation of Parallel Task in High Performance Language)

  • 박성순;구미순
    • 한국정보처리학회논문지
    • /
    • 제4권6호
    • /
    • pp.1636-1651
    • /
    • 1997
  • 포트란 M 등의 태스크 병렬언어에서는 프로그래머가 태스크 병렬구조를 사용하여 프로그래밍한다. 그런데 응용 프로그램에서 프로시쥬어간에 종속성 관계가 존재하는 경우 프로그래머가 이 종속성을 고려하여 태스크 병렬 프로그램을 작성하기는 쉽지 않다. 그러므로 컴파일러 단계에서 묵시적 병렬성을 추출한 후, 태스크 병렬언어에서 제공하는 병렬구조로 변환하는 병렬화가 필요하다. 그러나 현재의 태스크 병렬언어 컴파일러에서는 이러한 기능을 제공하지 못하고 있다. 본 논문에서는 종속성 관계에 따라 각 경우를 분석하여, 순차 수행되어야하는 루프 구조에 대해 컴파일러 단계에서 포트란 M의 태스크 병렬 구조인 PROCESSDO 루프와 PROCESSES 블록구조로 병렬화하기 위해 묵시적 병렬성을 가지고 있는 경우를 추출하는 방안을 제안한다. 그리고 PROCESSDO 루프와 PROCESSES 블록 구조 모두로 병렬화 가능한 경우, 조건에 따라 어느 구조로 변환하는 것이 효과적인가를 분석한다.

  • PDF

멀티코어 프로세서에서의 H.264/AVC 디코더를 위한 데이터 레벨 병렬화 성능 예측 및 분석 (Data Level Parallelism for H.264/AVC Decoder on a Multi-Core Processor and Performance Analysis)

  • 조한욱;조송현;송용호
    • 대한전자공학회논문지SD
    • /
    • 제46권8호
    • /
    • pp.102-116
    • /
    • 2009
  • 최근 멀티코어 프로세서의 이용이 증가함에 따라, 멀티코어환경에서 고성능 H.264/AVC 코덱을 구현하기 위한 다양한 병렬화 기법들이 제안되고 있다. 이러한 기법들은 병렬화 기법 적용 방식에 따라 태스크 레벨 병렬화 기법과 데이터 레벨 병렬화 기법으로 구분된다. 태스크 레벨 병렬화 기법을 이용한 파이프라인 병렬화 기법은 H.264 알고리즘을 파이프라인 단계로 나누어 구현하며, 일반적으로 화면 사이즈가 작고 복잡도가 낮은 비트스트림에 유리하다. 그러나 프로세싱 모듈별 수행시간 차이가 커서 로드밸런싱이 좋지 않고, 파이프라인 단계의 수가 제한적이라 성능 확장성에 제한이 있어 HD 비디오같이 해상도가 큰 비트스트림 처리에는 적합하지 않은 단점이 있다. 본 논문에서는 로드밸런싱 및 성능 확장성을 고려하여 매크로블록 라인 단위로 쓰레드를 할당하는 수평적 데이터 레벨 병렬화 기법을 제안하고, 이에 대한 성능 예측 수식 모델을 통하여 성능을 예상한다. 또한 성능 예측의 정확성을 검증하기 위해 JM 13.2 레퍼런스 디코더에 대한 데이터 레벨 병렬화 기법을 ARM11 MPCore 환경에서 구현하고 이에 대한 성능 검증을 수행하였다. SoCDesigner를 이용한 사이클 단위의 성능 측정 결과, 본 논문에서 제시하는 쓰레드 증가에 대한 병렬화 기법의 성능 변화를 비교적 높은 수준의 정확도로 예측 가능하였다.