통합 검색 | Korea Science

칩 멀티쓰레딩 서버에서 OpenMP 프로그램의 성능과 확장성 (Performance and Scalability of OpenMP Programs on Chip-MultiThreading Server)

이명호;김용규
- 정보처리학회논문지A
- /
- 제13A권2호
- /
- pp.137-146
- /
- 2006
최근 Chip-level MuitiThreading(CMT) 기술을 내장한 프로세서 들이 출시되면서 그들을 기반으로 하는 공유 메모리 다중 프로세서(SMP: Shared Memory Multiprocessor) 서버 또한 그 사용이 점점 더 보편화 되고있다. OpenMP는 그 사용의 효율성으로 인하여 SMP 시스템을 위한 응용 프로그램의 병렬화를 위한 표준이 되었다. 고성능 컴퓨팅(HPC: High Performance Computing) 응용프로그램 분야에서 더욱 더 빠른 컴퓨터의 처리 능력에 대한 요구가 증가함에 따라, OpenMP 지시어를 사용하여 병렬화된 HPC 응용 프로그램 들의 성능과 확장성을 높이는 일은 그 중요성이 점차 증대되고 있다. 본 논문에서는 CMT 기술을 내장한 대용량 SMP서버인 Sun Fire E25K에서 OpenMP 지시어를 사용하여 병렬화된 HPC 응용 프로그램 들의 suite인 SPEC OMPL(OpenMP를 위한 표준 벤치마크 suite)의 성능과 확장성에 관해 연구했다. 본 논문에서는 또한 SPEC OMPL에 대한 CMT 기술의 효능을 평가하였다.
https://doi.org/10.3745/KIPSTA.2006.13A.2.137 인용 PDF KSCI

슬롯링으로 연결된 다중처리기 시스템에서 최적화된 캐쉬일관성 프로토콜 (An Optimized Cache Coherence Protocol in Multiprocessor System Connected by Slotted Ring)

민준식;장태무
- 한국정보처리학회논문지
- /
- 제7권12호
- /
- pp.3964-3975
- /
- 2000
다중처리기 시스템에서 여러 처리기 캐쉬들 간에 일고나성을 유지하기 위한 정책에는 기록무효화 정책과 기록갱신 정책이 있다. 기록 무효와 정책은 처리기사 캐쉬 블록에 기록을 시도할 때마다 다른 캐쉬에 저장된 동일한 모든 복사본을 무효화한다. 이러한 빈번한 무효화로 인하여, 기록 무효화 정책은 캐쉬 적중률이 낮다. 반면에 기록 갱신정책은 동일한 블록을 무효화 시키는 것이 아니라 동시에 갱신하는 정책이다. 이러한 정책의 경우에 블록의 공유 여부에 상관없이 갱신된 내용을 상호 연결망ㅇ르 통하여 전송해야만 하며 이로 인하여 상호 연결망상에 교통량이 폭주하게 된다. 본 논문에서는 슬롯링으로 연결된 공유메모리 다중처리기 시스템에서 효율적인 캐쉬 일관성 정책을 제안한다. 제안된 프로오콜은 기록 갱신정책을 기반으로 하며 공유된 블록을 갱신할 경우에만 갱신된 내용을 전송한다. 반면 갱신된 블록이 공유되지 않은 블록이면 갱신된 내용을 전송하지 않는다. 본 논문에서는 제안된 프로토콜은 분석하고 시뮬레이션을 통하여 기존의 프로토콜과 성능을 비교한다.
PDF

연속 공정 자동화를 위한 라인 제어기에서의 실시간 작업 스케쥴링에 관한 연구 (Design of Real Time Task Scheduling for Line Controller of Continuous Manufacturing Process Automation)

이준수;조영조;임미섭;박정민;최익;임준홍;김광배
- 대한전기학회:학술대회논문집
- /
- 대한전기학회 1992년도 하계학술대회 논문집 A
- /
- pp.365-368
- /
- 1992
This paper presents an approach to the design of real time task scheduling for a line controller of continuous manufacturing process automation. The line controller has multiprocessor-based architecture with shared memory and is operated by firmware. This firmware contains menu-driven software supporting real-time database management and fuction-block control language. The multitasking line control processor performs the following three functions: 1) interprets the function block control language by virtue of shared memory in the database; 2) invokes an interupt service routine as required by external hardware; 3) detects errors and notifies the user. We propose real time task scheduling method.
PDF

PARSEC을 이용한 분산공유메모리 다중프로세서 시스템의 성능분석 (Performance Analysis of A Distributed Shared Memory Multiprocessor System Using PASEC)

박준석;전창호
- 한국정보처리학회논문지
- /
- 제7권10호
- /
- pp.3049-3054
- /
- 2000
본 논문에서는 분산공유메모리 다중프로세서 시스템에서 하드웨어 구성요소와 실행환경이 시스템의 전체 성능에 미치는 영향을 시뮬레이션을 통하여 분석한다. PARSEC[1,2]을 이용하여 분산공유메모리 다중프로세서 시스템을 실제 실행환경에 근접하게 모델링하고 그 모델링된 시스템상에 2D FFT를 가상 실행하는 방식의 시뮬레이션 결과, 일반적으로 성능분석을 할 때 성능요소로 고려하지 않느 군소 하드웨어 요소들이 시스템 구성에 따라 시스템의 전체 성능에 상당한 영향을 미침을 밝힌다. 또한 반복순환 구문의 오버헤드, 코드최적화 등 실행조건에 따른 성능의 변화도 정량적으로 분석한다.
PDF

OpenMP와 MPI 코드의 상대적, 혼합적 성능 고찰 (Comparative and Combined Performance Studies of OpenMP and MPI Codes)

이명호
- 정보처리학회논문지A
- /
- 제13A권2호
- /
- pp.157-162
- /
- 2006
최근의 고성능 컴퓨팅 플랫폼들은 공유 메모리 다중 프로세서(SMP: Shared Memory Multiprocessor) 시스템, 대규모 병렬 프로세서 (Massively Parallel Processor) 시스템, 여러 개의 컴퓨팅 노드들을 연결한 클러스터(Cluster) 시스템 등으로 분류된다. 이러한 고성능 컴퓨팅 시스템들은 높은 수준의 컴퓨팅 성능을 요구하는 과학 기술용 응용 프로그램들을 위하여 사용된다. 이러한 응용 프로그램들의 실행시 최적의 성능을 얻기 위해서는 적절한 컴퓨팅 플랫폼과 프로그래밍 방식의 선택이 중요하다. 본 연구 논문에서는 여러 방식의 병렬 프로그래밍 모델을 사용하여 개발된 SPEC HPC2002 벤치마크 suite을 위한 최적의 컴퓨팅 플랫폼과 프로그래밍 모델을 그들의 성능 분석 및 평가 작업을 통하여 찾아간다.
https://doi.org/10.3745/KIPSTA.2006.13A.2.157 인용 PDF KSCI

Modular MIN에 관한 연구 (A Study on Modular Min)

장창수;최창훈;유창하
- 한국콘텐츠학회논문지
- /
- 제2권2호
- /
- pp.103-111
- /
- 2002
비록 MIN이 짧은 직경을 갖고 있을지라도 지역화된 통신 형태를 갖는 병렬응용 프로그램에 있어서 hypercube와 fee구조를 비교했을 때 전체적인 시스템 성능은 떨어지게 된다. 그것은 MIN이 지역참조성의 활용할 수 있는 클러스터링 구조를 제공하는 것이 불가능하기 때문이다. 그러나 제안된 MIN은 잦은 데이터 통신 형태를 갖는 프로세서-메모리 클러스터의 내부에 짧은 경로 및 다중 경로를 제공하여 지역화된 통신 구조에 적합하도록 구성할 수 있다. 따라서 제안된 MIN은 지역화된 통신 형태를 갖는 병렬 응용 프로그램에 있어서 향상된 성능을 이룰 수 있게 된다.
PDF

쓰기 횟수 감소를 위한 하이브리드 캐시 구조에서의 캐시간 직접 전송 기법에 대한 연구 (A Study on Direct Cache-to-Cache Transfer for Hybrid Cache Architecture to Reduce Write Operations)

최주희
- 반도체디스플레이기술학회지
- /
- 제23권1호
- /
- pp.65-70
- /
- 2024
Direct cache-to-cache transfer has been studied to reduce the latency and bandwidth consumption related to the shared data in multiprocessor system. Even though these studies lead to meaningful results, they assume that caches consist of SRAM. For example, if the system employs the non-volatile memory, the one of the most important parts to consider is to decrease the number of write operations. This paper proposes a hybrid write avoidance cache coherence protocol that considers the hybrid cache architecture. A new state is added to finely control what is stored in the non-volatile memory area, and experimental results showed that the number of writes was reduced by about 36% compared to the existing schemes.
PDF

공유메모리 다중처리기에서 효율적인 프로세서 동기화 기법 (An Efficient Processor Synchronization Scheme on Shared Memory Multiprocessor)

윤석한;원철호;김덕진
- 전자공학회논문지B
- /
- 제32B권5호
- /
- pp.683-692
- /
- 1995
Many kinds of large scale multiprocessing and parallel-processing systems have recently been developed. The contention on the shared data caused by multiple processors may degrade system performance. So, processor synchronization has become one of the important issues in these systems. To solve the synchornization issues, a lot of software and hardware schemes based on spin lock have been proposed. Although software schemes are easy to implement, hardware schemes are preferred in many systems to gain optimized performance. This paper proposes an efficient processor synchronization scheme, called QCX,and describes its design considerations, hardware, algorithm, protocol. Also, in this paper, the performance of QCX has been evaluated with QOLB[5] and LBP[7] using a simulation. The simulation, with varying the number of processor and the contention on shared variables, measured the average execution times of a workload. The simulation results show that the performances of QCX is best when practicability is considered. QCX is more efficient than QOLB and LBP in two aspects. First, the hardware of QCX is more simple and cost-effective because the cache structure need not be changed. Secondly, QCX is more general because it uses a generic atomic instruction.
PDF

수 평형 이진트리를 이용한 디렉토리 캐쉬 일관성 유지 기법 (Directory Cache Coherence Scheme using the Number-Balanced Binary Tree)

서대화
- 한국정보처리학회논문지
- /
- 제4권3호
- /
- pp.821-830
- /
- 1997
디렉토리 기반의 캐쉬 일관성 유지 기법은 대규모 공유메모리 다중처리기에서 캐쉬 일관성 문제를 해결하기 위한 방법이다. 이제까지 기존 기법들은 디렉토리기 위해서 많은 메모리 요구와 긴 무효화 시간, 네트웍 통신량의 집중, 그리고 낮은 확장성 등의 문제점들을 가지고 있다. 본 논문에서는 이런 문제점을 해결하면서 확장성을 가진 새로운 디렉토리 기반의 캐쉬 일관성 유지 기법을 제안하였다. 이 기법에서는 새롭게 제안한 수 평형 이진 트리를 사용하였다. 수 평형 이진 트리는 디렉토리에 있는 노드 수에 따라모양이 일정하고, 최대 깊이가[log$_2$n]이며, 같은 노드 개수를 가진 이진 트리 중에서 가장 작은 단말 노드 수는 가지는 특성이 있다 이러한 특성은 캐쉬 디렉 토리의 메모리량, 무효화 시간 및 네트웍 통신량을 최소로 해 주고, 다중처리기의 높은 확정성을 보장해 준다.
PDF

단위 모듈을 이용한 MIN의 점증적 설계 (Incremental Design of MIN using Unit Module)

최창훈;김성천
- 한국정보과학회논문지:시스템및이론
- /
- 제27권2호
- /
- pp.149-159
- /
- 2000
본 논문에서는 적은 비용으로 효율적인 패킷 스위칭 상호연결 네트워크를 구성할수 있는 새로운 부류의 MIN (Multistage Interconnection Network)인 SCMIN(ShortCut MIN)을 제안한다. SCMIN은 기존 MIN에서의 스위칭 소자 갯수 보다 매우 적은 수인 2.5N-4 개의 스위칭 소자만을 사용할지라도 FAC(Full Access Capability)를 만족하고, 또한 프로세서-메모리 쌍에 대해 다수개의 중복 경로를 제공할 수 있게 된다. SCMIN은 통신이 빈번하게 발생되는 프로세서 메모리 클리스터에 보다 짧은 경로를 제공하고, 또한 이들에 대한 대체 경로를 제공하여 지역화된 통신 형태의 응용 분야에 적합하도록 설계되었다. 따라서 SCMIN은 공유 메모리 다중 프로세서 시스템에서 지역화된 통신 형태를 갖는 병렬 응용 분야에 적합한 MIN으로 활용될 수 있을 것이다.
PDF

검색결과 52건 처리시간 0.025초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)