통합 검색 | Korea Science

NUMA 기반의 스케줄러 설계를 위한 고려사항 분석 (Analysis of the Design Factors in NUMA-aware Scheduler)

김정훈;민창우;엄영익
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2012년도 추계학술발표대회
- /
- pp.195-196
- /
- 2012
하드웨어 플랫폼은 다수 코어 아키텍처의 메모리 대역폭을 만족시키기 위해 NUMA 구조로 설계되고 있다. 이러한 NUMA 구조에서 다른 노드의 메모리에 접근할 경우, 해당 노드의 메모리 접근에 비해 1.5~2배 지연이 발생한다. 따라서 이러한 특성을 고려하는 NUMA 시스템 기반 스케줄러가 필요하다. 본 논문에서는 NUMA 기반 스케줄러 설계를 위해 고려되어야 할 사항에 대해 분석해 본다. 분석 결과, 공유 자원 경쟁과 리모트 접근을 최소화하는 것이 NUMA 스케줄러 설계의 핵심이라는 것을 확인할 수 있었다. 뿐만 아니라 같은 노드에서 실행되는 워크로드의 조합 및 캐시 오염 태스크 관리, 그리고 노드별 남아있는 메모리 정보 또한 고려되어야 한다는 것을 확인할 수 있었다.
https://doi.org/10.3745/PKIPS.y2012m11a.195 인용 PDF

NUMA 시스템에서 소유권에 근거한 원격 캐시 교체 정책 (Keeping-ownership Cache Replacement Policies for Remote Access Caches of NUMA System)

신숭현;곽종욱;장성태;전주식
- 한국정보과학회논문지:시스템및이론
- /
- 제31권8호
- /
- pp.473-486
- /
- 2004
NUMA 시스템은 원격의 메모리에 반복적으로 접근하는 오버헤드를 피하기 위해 지역 노드내에 원격 캐시를 둔다. 이러한 원격 캐시를 사용하여 원격 메모리로의 접근 지연 시간을 감소시키고 네트워크 상의 트래픽 양을 줄이지 못한다면 다중 프로세서 시스템의 성능 저하는 명백하다. 성능 상의 여러 기준 중에서 메모리 시스템과 관련해서는 캐시 교체 정책에 관한 연구가 계속되었고, 그 중 다중 프로세서 시스템에서의 캐시 교체 정책에 관한 연구도 이어졌다. 본 논문에서는 캐시의 공유 상태에 기반을 둔 교체 정책을 제안한다. 소유권이 없는 캐시 라인을 먼저 교체하고, 이를 통해 소유권이 옮겨지는 오버헤드를 피하여 메모리 지연 시간을 줄인다. 또한 소유권이 없는 캐시 라인에 지나친 피해가 얼도록, “MRU를 사용한 소유권 유지 교체 정책(KOM)”과 “참조 비트를 사용한 소유권 유지 교체 정책(KORB)”를 제안하고, 이를 LRU, Pseudo LRU(PLRU)와 비교한다. KOM과 KORB는 PLRU에 비하여 수행 시간에서 25%, 13%씩 각각 향상을 보였다. 특히 KOM은 하드웨어 복잡도가 현저히 낮음에도 불구하고 LRU에 가까운 성능을 나타냈다.
PDF KSCI

NUMA구조를 가진 고성능 컴퓨팅 시스템에서의 메쉬 재배열의 라플라시안 스무딩에 대한 효과 (The Effect of Mesh Reordering on Laplacian Smoothing for Nonuniform Memory Access Architecture-based High Performance Computing Systems)

김지범
- 전자공학회논문지
- /
- 제51권3호
- /
- pp.82-88
- /
- 2014
우리는 고성능 컴퓨팅 (high performance computing) 시스템에서 메쉬 재배열이 라플라시안 스무딩에 대해서 어떠한 효과가 있는지 연구한다. 구체적으로, 우리는 nonuniform memory access (NUMA) 구조의 고성능 컴퓨팅 시스템에서 Reverse-Cuthill Mckee 알고리즘을 사용하여 메쉬를 재배열하고 메쉬질을 높이기 위하여 라플라시안 스무딩을 사용한다. 먼저 하나의 코어를 사용하여 메쉬 재배열의 라플라시안 스무딩에 대한 속도 향상을 조사한 후에 NUMA구조의 멀티코어 시스템에서 OpenMP를 이용하여 병렬화할 경우 메쉬 재배열의 라플라시안 스무딩에 대한 속도 향상에 대하여 조사한다.
https://doi.org/10.5573/ieie.2014.51.3.082 인용 PDF KSCI

CC-NUMA 다중 프로세서의 캐쉬 일관성 유지를 위한 세그먼트 디렉토리 (Segment Directory for Cache Coherence of CC-NUMA Multiprocessors)

최종혁;박규호
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
- /
- pp.6-8
- /
- 1999
세그먼트 디렉토리는 CC-NUMA (Cache Coherent Non-Uniform Memory Access)시스템의 전체 벡터와 포인터의 장점만을 가지는 새로운 형태의 디렉토리 요소이다. 포인터가 하나의 프로세서 위치만을 가리키는데 비해, 세그먼트 디렉토리는 복수 개이 프로세서들을 한 번에 가리킬 수 있으면서, 포인터처럼 작은 단위로 사용가능하다. 본 논문에서는 세그먼트 디렉토리를 제한 디렉토리 방법들에 적용하여 디렉토리 넘침의 횟수를 줄인다. 기존의 방법들이 디렉토리 넘침 후의 효율적인 캐쉬 일관성 유지 기법을 제시했던 것에 비해, 세그먼트 디렉토리는 디렉토리 넘침 자체를 제거하는 최초의 시도이다. 디렉토리 넘침의 제거로 CC-NUMA 시스템 대역폭 요구량이 줄어들고, 프로그램 수행이 가속되며, 디렉토리 제어기 점유가 대폭 감소된다. Tango-Lite를 사용한 실행 구동 시뮬레이션을 통하여 세그먼트 디렉토리가 약 80%까지의 디렉토리 넘침을 제거한 것을 확인하였고, 이에 따르는 시스템 성능 향상을 분석하였다.
PDF

NUMA 시스템의 공유 LLC 활용을 위한 I/O 트래픽에 따른 태스크 분류법 (I/O Traffic based Task Classification for Shared Last Level Cache Utilization in NUMA Systems)

안득현;김지홍;엄영익
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2012년도 춘계학술발표대회
- /
- pp.199-201
- /
- 2012
디스크나 이더넷과 같은 I/O 장치로부터 발생하는 I/O 트래픽은, 여러 개의 노드를 가진 NUMA 시스템의 공유 LLC에 캐시 오염을 일으켜 캐시 라인이 재사용되는 것을 방해한다. 이러한 태스크는 캐시를 효율적으로 이용할 수 있는 메모리 집중적인 태스크들과 따로 분리하여 다룰 필요가 있다. 본 논문에서는 이러한 캐시 오염을 발생시키는 태스크들을 해당 태스크의 I/O 트래픽을 이용하여 실시간으로 감시하고 분류하는 기법을 제안한다. 또한 대량의 I/O 트래픽을 일으키는 태스크의 특성을 알아본다. 이를 통해, NUMA 시스템 환경에서 각 노드의 공유 LLC를 보다 효율적으로 사용할 수 있는 운영체제 스케줄링 기법을 연구하기 위한 토대를 마련하였다.
https://doi.org/10.3745/PKIPS.y2012m04a.199 인용 PDF

스누핑 프로토콜을 사용하는 NUMA 시스템의 계층적 링 구조로의 확장 (Hierarchical Ring Extension of NUMA Systems using Snooping Protocol)

성현중;김형호;장성태;전주식
- 한국정보과학회논문지:시스템및이론
- /
- 제26권11호
- /
- pp.1305-1317
- /
- 1999
NUMA 구조는 원격 메모리에 대한 접근이 불가피한 구조적 특성 때문에 상호 연결망이 성능을 좌우하는 큰 변수가 된다. 기존에 대중적으로 사용되던 버스는 물리적 확장성 및 대역폭에서 대규모 시스템을 구성하는 데 한계를 보인다. 이를 대체하는 고속의 지점간 링크를 사용한 링 구조는 버스가 가지는 확장성 및 대역폭의 한계라는 단점을 개선하였으나, 많은 클러스터가 연결되는 경우에는 전송 지연시간이 증가하는 문제점을 가지고 있다. 본 논문에서는 스누핑 프로토콜이 적용된 링 구조에서 클러스터 개수 증가에 따른 지연시간 증가의 문제점을 보완하기 위해 계층적 링 구조로의 확장을 제안하고, 이 구조에 효과적인 캐쉬 일관성 프로토콜을 설계하였다. 전역 링과 지역 링을 연결하는 브리지는 캐쉬 프로토콜을 관리하며 이 프로토콜에 의해 지역 링의 부하를 줄일 수 있도록 트랜잭션을 필터링하는 역할도 담당함으로써 시스템의 성능을 향상시킨다. probability-driven 시뮬레이터를 통해 계층적 링 구조가 시스템의 성능 및 링 이용률에 미치는 영향을 알아본다. Abstract Since NUMA architecture has to access remote memory, interconnection network performance determines performance of NUMA architecture. Bus, which has been used as popular interconnection network of NUMA, has a limit to build a large-scale system because of limited physical scalability and bandwidth. Ring interconnection network, composed of high-speed point-to-point link, made up for bus's defects of scalability and bandwidth. But, it also has problem of increasing delay as the number of clusters is increased. In this paper, we propose a hierarchical expansion of snoop-based ring architecture in order to overcome ring's defects of increasing delay. And we also design an efficient cache coherence protocol adopted to this architecture. Bridge, which connects local ring and global ring, maintains cache coherence protocol and does snoop-filtering which reduces local ring and cluster bus utilization. Therefore bridge can improve performance of this system. We analyze effects of hierarchical architecture on the performance of system and utilization of point-to-point links using probability-driven simulator.

단방향 이중연결 CC-NUMA 시스템의 동적 부하 대응 경로 설정 기법 (Load Balancing of Unidirectional Dual-link CC-NUMA System Using Dynamic Routing Method)

서효중
- 정보처리학회논문지A
- /
- 제12A권6호
- /
- pp.557-562
- /
- 2005
높은 클럭으로 동작하는 고속의 프로세서를 다수 이용한 다중프로세서 시스템 성능은 프로세서 자체의 성능보다 상호연결망의 트랜잭션 처리 능력 및 지연에 의하여 큰 영향을 받게 된다. 따라서 상호연결망의 성능은 대역폭 및 지연시간 측면으로 시스템 성능에 큰 비중을 차지한다. 단방향 이중 연결을 이용한 CC-NUMA 구조는 이중 연결을 이용한 대역폭 증가효과와 고속 단방향 링크를 이용한 적은 지연시간으로 인하석 고성능 시스템에서 많이 채용되고 있다. 한편, 이중 연결구조로 인하여 시스템의 상호연결망의 최단 경로는 단일하게 형성되지 않으며, 여러 개의 최단 경로가 구성될 수 있다. 그러나 실제 응용프로그램을 수행할 때, 동일한 홉 수를 나타내는 경로일지라 하더라도 각 연결 링크의 부하 및 경쟁에 따른 지연 시간의 차이를 나타내게 되며, 만일 노드간의 트랜잭션 전달 경로가 정적으로 구성되어 있을 경우, 실제 프로그램의 수행에서 균일하지 못한 연결 링크 부하에 따른 지연 시간의 차이가 나타날 수 있음을 의미한다. 이는 곧 고속의 상호연결망 전체의 대역폭을 균일하게 사용하지 못함으로 나타나는 부가적 지연 시간으로 볼 수 있으며, 이로 인한 응용 프로그램의 수행 성능이 저하될 수 있음을 의미한다. 본 논문은 기존 연구된 단방향 이중 연결을 이용한 CC-NUMA 시스템에서, 노드간 트랜잭션 전달 경로가 정 적으로 구성될 경 우 발생될 수 있는 성능 저하를 평가하고, 정적 경로와 동일한 홉 수의 경로를 나타내며 링크 부하에 따라서 동적으로 전달되도록 부하에 따르는 동적 경로 설정 방법을 제시하였다. 논문에서 제시하는 방법은 기존 경로설정 방법에 대하여 동일한 홉 수를 나타내며, 링크 부하에 따라서 동적으로 경로를 설정함으로써 실시간 경로 분배가 자연스럽게 이루어지도록 하였고, 링크 경쟁을 완화함으로써 보다 균일한 링크 사용을 나타냈고, 링크 획득 실패로 인한 지 연시간을 감소시켰다. 프로그램 구동 시뮬레이션을 통한 성능 검증 결과, 논문에서 제시한 동적경로 설정 방법은 기존 정적 경로 설정 방법에 비해 링크점유시간 편차가 $1{\~}10\%$ 낮게 나타났고, 링크의 획득 실패 횟수가 ${\~}3\%$ 감소하였으며, 그 결과 $1{\~}6\%$의 수행 시간 감소를 나타냈다.
https://doi.org/10.3745/KIPSTA.2005.12A.6.557 인용 PDF KSCI

리피터 노드를 장착한 이중 링 CC-NUMA 시스템 (Dual Ring CC-NUMA System using Repeater Node)

경진미;김인석;김봉준;장성태
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
- /
- pp.697-699
- /
- 2002
CC-NUMA 구조에서는 원격 메모리에 대한 접근이 불가피한 구조적인 특성 때문에 사호 연결망이 성능을 좌우하는 큰 변수로 작용한다. 기존에 사용되는 버스는 대역폭의 한계와 물리적 확장성 때문에 대규모의 시스템에는 적합하지 않다. 이를 대체하는 고속의 지점간 링크를 도입한 이중 링 구조는 이러한 버스의 한계를 극복하고는 있지만 많은 노드를 거쳐야 하는 문제로 인해 응답 지연 시간이 증가하는 단점을 안고 있다. 본 논문에서는 요청과 응답 패킷의 지연 시간을 줄이는 방안으로 리피터 노드를 이용한 다중링을 제안한다. 제안된 시스템은 링과 링 사이의 구조가 대칭형을 이루고 있어 요청을 내보내는 링을 제외한 다른 링의 hop수는 똑같은 수치를 갖고 있으며, 이중 링에 비해 최대의 hop수와 최소의 hop수의 차가 적고 평균 hop수 또한 적어 좋은 성능을 보인다. 본 논문에서는 또한 이러한 구조를 유지하기 위한 리피터 노드의 구조를 제안하며 리피터 노드의 구조와 노드의 확장에 따른 다양한 성능을 확률 구동 시뮬레이터를 사용하여 평가를 수행한다.
PDF

병렬컴퓨터 구조가 업무에 미치는 영향

한국데이터베이스진흥센터
- 디지털콘텐츠
- /
- 10호통권65호
- /
- pp.89-97
- /
- 1998
본 기사에서는 현재 시장을 지배하는 세 종류의 병렬 컴퓨터 구조들, 즉 대칭 멀티 프로세서 구조(SMP), 클러스터 구조, 그리고 ccNUMA 구조(NUMA로 더 잘 알려져 있음)에 대한 오해에 관해 이야기하고자 한다. 각각의 구조들이 가진 특성들이 OLTP환경, 의사 결정 지원 작업 부하량, 고효용성, 그리고 시스템 관리 측면에 어떠한 영향을 끼치는가 하는 문제에 토론의 초점을 맞추고자 한다.
PDF

CC-NUMA 시스템에서의 동기화 기법에 대한 성능 비교 (Performance Comparison of Synchronization Methods for CC-NUMA Systems)

문의선;장성태;전주식
- 한국정보과학회논문지:시스템및이론
- /
- 제27권4호
- /
- pp.394-400
- /
- 2000
동기화는 병렬 프로그램의 수행이 정확하게 이루어지도록 하기 위해 공유 데이타나 프로그램상의 임계구간(critical section)에 대해 배타적인 수행을 보장하는 것을 목적으로 한다. 배타적인 프로그램의 수행은 병렬 프로그램의 병렬성을 제한하므로 효율적인 동기화는 높은 성능의 병렬 프로그램 수행을 위해 반드시 필요하다. 이런 필요에 의해 응용 프로그램이나 시스템의 특성을 이용하여 동기화의 성능을 높이는 기법들이 고안되었다. 본 논문에서는 모의실험을 통해 캐시에 기반을 둔 NUMA(Non-Uniform Memory Access) 시스템에서 나타나는 기존 동기화의 비효율성을 분석하여 제시하고, 이 비효율성을 제거할 수 있는 Freeze&Melt 동기화 기법과의 성능을 비교한다. 제시된 결과를 통해 Test-and-Test&Set 동기화는 동기화 과정에서 발생하는 방송(broadcast) 작업에 의해 비효율이 발생하고, QOLB(Queue-On-Lock-Bit) 동기화는 공유 데이타나 임계구간을 수행할 프로세서의 순서가 미리 정해져 있다는 점에 의해 비효율이 발생함을 확인할 수 있다. 이와 같은 단점들을 극복하고자 제안된 Freeze&Melt 동기화를 이용하여 임계구간을 수행하기까지 대기하는 시간과 임계구간을 수행하는 시간을 줄이고, 클러스터간의 통신량(traffic)을 감소시킴으로써 성능의 향상을 이룰 수 있다.
PDF

검색결과 39건 처리시간 0.028초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)