• 제목/요약/키워드: 병렬 워크로드

검색결과 12건 처리시간 0.022초

GPU 작업 배치의 효율화를 위한 자원 이용률 상세 분석 (Analyzing Fine-Grained Resource Utilization for Efficient GPU Workload Allocation)

  • 박윤주;신동희;조경운;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.111-116
    • /
    • 2019
  • 최근 GPU가 그래픽 처리뿐 아니라 다양한 분야의 병렬 처리로 그 영역을 넓혀가고 있다. 그러나, 현재 GPU는 워크로드의 다양성을 반영하기보다 간결한 제어 구조를 통한 개별 워크로드의 병렬성 극대화에 초점을 맞추고 있다. 본 논문은 워크로드 특성을 반영한 GPU 작업 배치를 위해 GPU에서 수행되는 워크로드의 자원 사용 특성을 컴퓨팅 바운드형, 메모리 바운드형, 실행종속 지연형으로 분류한 후, 각 분류에서 병목점이 되는 세부 자원을 규명한다. 예를 들어 컴퓨팅 바운드형의 경우 단정밀도 연산장치, 배정밀도 연산장치, 특수함수 연산장치 등 병목 자원이 무엇인지 분석한다. 본 논문의 분석 결과는 동일한 컴퓨팅 바운드형 워크로드라도 병목이 되는 세부 자원이 다를 경우 함께 배치하는 것이 성능 충돌을 일으키지 않는다는 점을 규명하여 GPU 작업배치의 효율화에 기여할 것으로 기대된다.

타키온 클러스터 시스템의 병렬 분산 파일 시스템 워크로드 분석 (Analysis of Parallel and Distributed File System Workloads on Tachyon Cluster System)

  • 조혜영;김성호;이식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.113-114
    • /
    • 2009
  • 클러스터 시스템의 응용 분야가 다양화되고 복잡해짐에 따라, 대규모 클러스터 시스템을 보다 효율적으로 사용하기 위해서 실제 사용자의 이용 패턴을 예측할 수 있는 워크로드 분석의 필요성이 높아지고 있다. 이에 본 논문에서는 현재 가동중인 188개의 계산 노드, 3008개 CPU 자원을 보유한 대규모 클러스터 시스템에서 병렬 분산 파일 시스템에 대한 워크로드를 분석하였다.

상세 자원 이용률에 기반한 병렬 가속기용 스레드 블록 스케줄링 (Thread Block Scheduling for GPGPU based on Fine-Grained Resource Utilization)

  • 반효경;조경운
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.49-54
    • /
    • 2022
  • 최근 클라우드 시스템에서 병렬가속기를 사용하는 사례가 늘면서 가속기 내에서 멀티태스킹을 통해 자원 이용률을 높이는 것이 중요한 이슈로 부각되고 있다. 본 논문에서는 병렬가속기 내 자원 사용 패턴을 컴퓨팅 중심과 메모리 중심으로 분류하여 워크로드를 배치하는 방식이 자원 이용률 측면에서 충분한 효과를 나타내지 못함을 보이고, 워크로드별 상세 자원 이용률에 기반한 새로운 스레드 블록 스케줄링 기법을 제안한다. 제안한 기법은 기존 방식과 달리 프로파일링과 스케줄링을 분리하여 스케줄링시의 오버헤드를 줄이고 병목 자원이 일치하지 않는 워크로드들을 최대한 중복 배치하여 자원 이용률을 높인다. 다양한 가상머신 시나리오에 대한 시뮬레이션 실험을 통해 제안한 기법이 병렬가속기의 처리량을 평균 130.6%, 최대 161.4%까지 개선함을 보인다.

PVFS2 를 위한 파일 접근 로그 생성 (Log Generation for File Access on PVFS2)

  • 차광호;조혜영;김성호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.675-677
    • /
    • 2007
  • 클러스터 시스템의 응용 분야가 다양화되고 복잡해짐에 따라, 대규모 클러스터 시스템을 보다 효율적으로 사용하기 위해서 실제 사용자의 이용 패턴을 예측할 수 있는 워크로드 분석의 필요성이 높아지고 있다. 워크로드 분석으로는 다양한 작업이 진행되는데 특히 파일 단위의 동적 접근 분석도 이에 포함된다. 본 논문에서는 실험용 병렬 파일 시스템으로 많이 보급된 PVFS2 에 파일 단위접근 기록을 가능케하는 방안을 모색하고 이 기능의 활용 가능성을 살펴 보았다.

다중 워크로드 환경을 위한 GPGPU 스레드 블록 스케줄링 (Thread Block Scheduling for Multi-Workload Environments in GPGPU)

  • 박소연;조경운;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권2호
    • /
    • pp.71-76
    • /
    • 2022
  • 대규모 병렬 워크로드를 GPGPU의 연산 유닛에 할당하기 위한 스케줄링으로 라운드 로빈 방식이 널리 사용되고 있다. 라운드 로빈은 작업을 각 연산 유닛에 순차적으로 할당하여 구현이 쉽다는 장점이 있으나, 클라우드와 같은 다중 워크로드 환경에서는 연산 유닛 간 부하 균형이 잘 이루어지지 않는 문제점이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 스레드 블록 스케줄링을 제안한다. 제안하는 방식은 다양한 GPGPU 워크로드가 만들어낸 스레드 블록들을 그 작업량에 근거해 다중큐로 관리하고 각 연산 유닛의 잔여 자원을 가장 잘 활용할 수 있는 큐에서 스레드 블록을 선택하여 연산 유닛들의 자원 이용률을 극대화시키고 부하균형을 유도한다. 다양한 부하 환경에서의 시뮬레이션 실험을 통해 제안하는 방식이 라운드 로빈 대비 평균 24.8%의 성능개선 효과가 있음을 보인다.

유전자 알고리즘을 이용한 Backfilling 스케줄러의 작업 패킹 기법 (Job Packing Technique in Backfilling Scheduler using Genetic Algorithm)

  • 이효영;이동우
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (A)
    • /
    • pp.46-48
    • /
    • 2005
  • 본 논문에서는 병렬 컴퓨팅의 스케줄링 시스템인 EASY Backfilling 알고리즘에 기반한 작업 패킹 기법의 최적화에 대해 논의한다. 이를 위해 최적의 작업 집합을 구성하기 위한 탐색 기법으로 유전자 알고리즘을 활용하여 작업 패킹을 효율적으로 수행함과 동시에, 적은 노드를 요청한 작업에 가중치를 부여함으로써 다수 작업의 동시 실행을 우선 고려하게 하였다. 스케줄링 정책은 컴퓨터 성능에 직접적인 영향을 미치는 요소이기 때문에 시스템 부하별로 각 워크로드의 평균 대기 시간을 측정한 실험을 통해 제안 기법이 전반적인 병렬 컴퓨팅의 성능을 개선함을 확인하였다.

  • PDF

클라우드 스토리지 최적화를 위한 고속 캐싱 및 대용량 파일 전송 기법 (A Scheme on High-Performance Caching and High-Capacity File Transmission for Cloud Storage Optimization)

  • 김태훈;김정한;엄영익
    • 한국통신학회논문지
    • /
    • 제37권8C호
    • /
    • pp.670-679
    • /
    • 2012
  • 최근 클라우드 컴퓨팅 환경의 보급과 함께 스토리지의 데이터양이 급증함에 따라 그에 따른 스토리지 저장 비용이 빠르게 증가하고 있다. 더불어, 사용자들의 다양한 서비스 및 데이터 요청으로 클라우드 스토리지의 부하 또한 급증하고 있다. 이러한 문제를 해결하기 위해 분산 파일 시스템을 통한 저비용 고성능 스토리지 환경을 제공하고자 하는 기존의 연구가 있었으나, 이에는 데이터 병렬처리, 임의위치 접근처리, 빈번한 작은 워크로드 접근처리 등의 취약점이 존재한다. 최근에는 캐싱 기술을 이용하여 이를 개선하려는 연구가 주목받고 있다. 본 논문에서는 분산 파일 시스템 환경에서 병렬 캐싱, 분산 캐싱과 공유 자원을 고려한 데이터 병렬 전송방법을 제공하는 CHPC(Cloud storage High-Performance Caching) 구조를 제안하며, 또한 이를 기존의 방법들과 비교 평가하여 스토리지 부하를 최적화하는 방법을 제시한다. 더불어, 제안 기법이 기존 클라우드 시스템에 비하여 스토리지 서버의 디스크 입출력 감소, 서버로 데이터의 요청이 집중되어 발생하는 병목현상 방지, 각 클라이언트의 중복되는 페이지 캐시 제거, 데이터 전송률 향상의 장점을 가짐을 보인다.

멀티코어 인메모리 환경에서 트랜잭션을 처리하기 위한 효율적인 HTM 기법 (Efficient Hardware Transactional Memory Scheme for Processing Transactions in Multi-core In-Memory Environment)

  • 장연우;강문환;윤민;장재우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권8호
    • /
    • pp.466-472
    • /
    • 2017
  • 하드웨어 트랜잭셔널 메모리(HTM)는 트랜잭션 처리를 위한 병렬 프로그래밍 패러다임을 크게 바꾸었으며, 최근 Intel에서 TSX를 제안함에 따라 HTM에 기반한 다수의 연구들이 수행되었다. 그러나 기존 연구들은 트랜잭션 처리에서 하나의 원인에 대한 충돌 예측만을 지원하며, 모든 워크로드에 대해 획일화된 TSX 환경을 제공한다. 이러한 문제점을 해결하기 위해, 본 논문에서는 멀티코어 인메모리 환경에서 트랜잭션을 처리하기 위한 효율적인 HTM 기법을 제안한다. 첫째, 제안하는 기법은 과거 트랜잭션 처리 정보를 수집한 매트릭스를 이용하여, HTM 실패시의 대비책 경로로써 STM 혹은 single lock을 선택한다. 둘째, 머신러닝 알고리즘 기반 재시도 정책을 제공함으로써, 워크로드 특성에 맞는 효율적인 트랜잭션 처리를 수행한다. 마지막으로 STAMP를 이용한 성능평가를 통해, 제안하는 기법이 기존 연구에 비해 10~20%의 성능 향상이 있음을 보인다.

멀티코어 환경에서 샘플링 기반 재시도 정책을 이용한 하이브리드 트랜잭셔널 메모리 (Hybrid Transactional Memory using Sampling-based Retry Policy in Multi-Core Environment)

  • 강문환;장연우;윤민;장재우
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권2호
    • /
    • pp.49-61
    • /
    • 2017
  • 트랜잭셔널 메모리는 트랜잭션 처리를 위한 병렬 프로그래밍 패러다임을 크게 바꾸었으며, 하드웨어 및 소프트웨어 방식에 따라 STM, HTM, HyTM으로 구분된다. 그러나, 기존 연구들은 모든 워크로드에 대해 획일적인 재시도 정책을 제공하는 문제점이 존재한다. 이러한 문제점을 해결하기 위해, 본 논문에서는 멀티코어 환경에서 샘플링 기반 유연한 재시도 정책을 이용한 하이브리드 트랜잭셔널 메모리 기법을 제안한다. 첫째, 제안하는 기법은 트랜잭션의 특성을 파악하여 HTM 혹은 STM을 선택하여 수행하거나, 블룸필터를 이용하여 동시에 HTM과 STM을 수행한다. 둘째, 제안하는 기법은 각 워크로드 내의 트랜잭션의 특성을 반영한 유연한 HTM 재시도 정책을 제공한다. 마지막으로 STAMP를 이용한 성능평가를 통해, 제안하는 기법이 기존 연구에 비해 10~20%의 성능 향상이 있음을 보인다.

광대역 액세스 망을 위한 연결 제어 프로토콜의 병렬형 연동 모델과 성능 분석 (Parallel Interworking Model and Performance Analysis of a Connection Control Protocol for Broadband Access Network)

  • 김춘희;차영욱;김재근;한기준
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권12호
    • /
    • pp.1529-1538
    • /
    • 1999
  • 광대역 액세스 망은 B-ISDN 환경에서 다양한 유형의 가입자들을 서비스 노드로 집선하는 기능을 수행한다. ITU-T의 SG13에서는 광대역 액세스 망과 서비스 노드 사이에서 ATM 자원의 동적인 할당 및 해제를 위하여 연결 제어 프로토콜의 표준화를 수행하고 있다. ATM 연결의 설정을 위한 연결 제어 프로토콜과 신호 프로토콜의 연동 기능은 서비스 노드에서 수행되며, ITU-T에서는 순차적 연동 모델을 채택하고 있다. 순차적 연동 모델은 SN에서 각 프로토콜의 절차가 순차적 방식으로 연동되므로 연결 지연이 크다. 본 논문에서는 광대역 액세스 망의 도입으로 인한 연결 설정 지연을 최소화하기 위하여 병렬형으로 수행되는 연동 모델을 제시하였다. 그리고 본 논문에서 제안한 병렬형 연동 모델의 성능 분석을 통하여 순차적 연동 모델과의 연결 설정 지연 및 완료비에 대한 비교, 분석을 수행하였다. 성능 분석에서 사용된 워크로드 파라미터는 RACE MAGIC 프로젝트의 결과를 적용하였다. Abstract In B-ISDN environment, various subscribers are concentrated into a service node via a broadband access network. The SG13 of ITU-T is standardizing a connection control protocol which provides dynamic allocation of ATM resources between an access network and a service node. To establish an ATM connection, interworking functions between the connection control protocol and the signaling protocol are performed at the service node. ITU-T adopts the sequential interworking model. In this paper, we propose the parallel interworking model which minimizes the overall connection setup delay by introducing the access network. Using the performance analysis, we compare our proposed parallel model with the existing sequential model in terms of connection setup delay and completion ratio. The workload parameters of RACE MAGIC project are applied to the analysis and simulation.