• 제목/요약/키워드: Memory Bandwidth

검색결과 240건 처리시간 0.026초

인텔 차세대 매니코어 프로세서에서의 다중 병렬 프로그램 성능 향상기법 연구 (Enhancing the Performance of Multiple Parallel Applications using Heterogeneous Memory on the Intel's Next-Generation Many-core Processor)

  • 노승우;김서영;남덕윤;박근철;김직수
    • 정보과학회 논문지
    • /
    • 제44권9호
    • /
    • pp.878-886
    • /
    • 2017
  • 본 논문에서는 고성능컴퓨팅 분야에서 주로 활용되는 MPI 응용들을 인텔의 차세대 매니코어 프로세서인 Knights Landing(KNL)에서 실행할 때 발생할 수 있는 성능 병목 현상 및 이를 해결하기 위한 효율적인 자원 할당 방법에 대해서 논의하고자 한다. KNL은 기존의 가속기 형태의 매니코어 프로세서 형태뿐만 아니라 자체적으로 부팅이 가능한 형태의 호스트 프로세서로 구성되어 있으며, 기존의 DDR4 기반의 메모리와 함께 향상된 대역폭을 가진 새로운 형태의 온-패키지 메모리를 장착해서 출시되었다. 이러한 새로운 매니코어 프로세서 아키텍처에 최적화된 자원 할당 방법을 연구함으로써 다중 MPI 응용 실행 성능의 향상과 전체적인 시스템 활용률을 높일 수 있음을 실험적으로 검증하였다.

R2SDF FFT의 메모리 감소를 위한 회전인자 인덱스 생성방법 (Twiddle Factor Index Generate Method for Memory Reduction in R2SDF FFT)

  • 양승원;김용은;이종열
    • 대한전자공학회논문지SD
    • /
    • 제46권5호
    • /
    • pp.32-38
    • /
    • 2009
  • FFT(Fast Fourier Transform) 프로세서는 OFDM(Orthogonal Frequency Division Multiplexing) 시스템에서 사용된다. 근래에는 광대역과 이동성에 대한 요구가 높아짐에 따라 큰 포인트를 가지는 FFT 프로세서의 연구가 필요하다. FFT 포인트 수가 증가할수록 회전인자가 저장된 메모리가 차지하는 면적은 증가한다. 본 논문에서는 Radix-2, $2^2,\;2^3,\;2^4$ 알고리즘의 회전인자 인덱스 생성 방법을 제안한다. 제안한 회전인자 인덱스 생성기(Twiddle Factor Index Generator : TFIG)는 간단하게 카운터와 양수곱셈기로만 구성된다. 각각의 R2SDF(Radix-2 Single-Path Delay Feedback), $R2^2SDF,\;R2^3SDF,\;R2^4SDF$ 1024포인트 FFT 프로세서에 ROM 크기를 1/8N로 줄인 회전인자 계수 생성기(Twiddle Factor Coefficient Generator : TFCG)를 설계하여 제안한 알고리즘을 검증하였다. $R2^4SDF$의 TFCG 경우 면적, 전력에서 각 57.9%, 57.5%정도의 이득을 얻었다.

분산 공유 메모리 시스템에서 메모리 접근지연을 줄이기 위한 이중 슬롯링 구조 (A Dual Slotted Ring Organization for Reducing Memory Access Latency in Distributed Shared Memory System)

  • 민준식;장태무
    • 정보처리학회논문지A
    • /
    • 제8A권4호
    • /
    • pp.419-428
    • /
    • 2001
  • 집적회로 기술의 발달은 처리기의 속도를 계속적으로 증가시켜 왔다. 처리기 응용분야의 주요한 도전은 공유 메모리 다중 처리기 시스템에서 고성능 처리기들을 효과적으로 사용하고자 하는 것이다. 우리는 상호 연결망 문제가 소규모의 공유 메모리 다중처리기 시스템에서 조차 완전히 해결되었다고 생각하지 않는다. 그 이유는 공유버스의 속도는 새로운 강력한 처리기들의 대역폭 요구를 수용할 수 없기 때문이다. 지난 수년간 점대점 단방향 연결은 매우 가능성 있는 상호 연결망 기술로서 대두되었다. 단일 슬롯링은 점대점 상호 연결망의 가장 간단한 형태이다. 단일 슬롯링 구조의 단점은 링에서 처리기의 수가 증가함에 따라 메모리 접근지연 시간이 선형적으로 증가한다는 것이다. 이런 이유로 우리는 캐쉬 기반의 다중처리기 시스템에서 단일 슬롯링을 대체할 수 있는 이중 슬롯링 구조를 제안한다. 또한 본 논문에서 새로운 스누핑 프로토콜을 사용하는 이중 슬롯링 구조를 분석하고 분석적모델과 모의 실험을 통하여 기존의 단일 슬롯링과 성능을 비교한다.

  • PDF

H.264/AVC용 CAVLC 디코더의 설계 (Design of CAVLC Decoder for H.264/AVC)

  • 정덕영;손승일
    • 한국정보통신학회논문지
    • /
    • 제11권6호
    • /
    • pp.1104-1114
    • /
    • 2007
  • 디지털 비디오 압축 기술은 대역폭과 저장 공간이 제한되는 멀티미디어 데이터의 효율적인 전송과 저장을 가능하게 하는 중요한 역할을 해왔다. JVT가 제안한 새로운 비디오 코딩 표준인 H.264/AVC는 압축 성능에 있어서 이전의 표준들을 훨씬 능가하고 있다. 특히 비디오 및 이미지 압축 응용에서 가변길이 부호는 중요한 역할을 한다. H.264/AVC 표준은 엔트로피 코딩 방식으로서 CAVLC를 채택하였다. H.264/AVC의 CAVLC는 많은 메모리 액세스를 필요로 한다. 이는 메모리 액세스시에 상당한 전력을 소비하기 때문에 DMB와 비디오 폰 서비스와 같은 응용을 위해서는 심각한 문제가 될 수 있다. 본 논문에서는 이러한 문제점을 극복하기 위해, 산술연산에 근거한 메모리 사용없는 coeff_token, level 및 run_before 디코딩을 구현하고, total_zero 가변길이 디코딩시에만 필요한 메모리의 70%만 사용하여 구현하는 가변길이 디코딩 기법을 제안한다.

SRP 를 기반으로 하는 8K 프로그래머블 멀티미디어 플랫폼 (8K Programmable Multimedia Platform based on SRP)

  • 이원창;김민수;송준호;김재현;이시화
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2014년도 하계학술대회
    • /
    • pp.163-165
    • /
    • 2014
  • In this paper, we propose a world's first programmable video processing platform for video quality enhancement of 8K ($7680{\times}4320$) UHD (Ultra High Definition) TV at 60 frames per second. To support huge computation and memory bandwidth of video quality enhancement for 8K resolution, the proposed platform has unique features like symmetric multi-cluster architecture for data partitioning, ring data-path between clusters to support data pipelining, on-the-fly processing architecture to reduce DDR bandwidth, flexible hardware to accelerating common kernel in video enhancement algorithms. In addition to those features, general programmability of SRP (Samsung reconfigurable processor) as main core of the proposed platform makes it possible to upgrade continuously video enhancement algorithm even after the platform is fixed. This ability is very important because algorithms for 8K DTV is under development. The proposed sub-system has been embedded into SoC (System on Chip) and new 8K UHD TV using the programmable SoC is expected at CES2015 for the first time in the world.

  • PDF

A 0.25-$\mu\textrm{m}$ CMOS 1.6Gbps/pin 4-Level Transceiver Using Stub Series Terminated Logic Interface for High Bandwidth

  • Kim, Jin-Hyun;Kim, Woo-Seop;Kim, Suki
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(2)
    • /
    • pp.165-168
    • /
    • 2002
  • As the demand for higher data-rate chip-to-chip communication such as memory-to-controller, processor-to-processor increases, low cost high-speed serial links\ulcorner become more attractive. This paper describes a 0.25-fm CMOS 1.6Gbps/pin 4-level transceiver using Stub Series Terminated Logic for high Bandwidth. For multi-gigabit/second application, the data rate is limited by Inter-Symbol Interference (ISI) caused by channel low pass effects, process-limited on-chip clock frequency, and serial link distance. The proposed transceiver uses multi-level signaling (4-level Pulse Amplitude Modulation) using push-pull type, double data rate and flash sampling. To reduce Process-Voltage-Temperature Variation and ISI including data dependency skew, the proposed high-speed calibration circuits with voltage swing controller, data linearity controller and slew rate controller maintains desirable output waveform and makes less sensitive output. In order to detect successfully the transmitted 1.6Gbps/pin 4-level data, the receiver is designed as simultaneous type with a kick - back noise-isolated reference voltage line structure and a 3-stage Gate-Isolated sense amplifier. The transceiver, which was fabricated using a 0.25 fm CMOS process, performs data rate of 1.6 ~ 2.0 Gbps/pin with a 400MHB internal clock, Stub Series Terminated Logic ever in 2.25 ~ 2.75V supply voltage. and occupied 500 * 6001m of area.

  • PDF

복수의 작은 트리에 대한 바이너리 검색을 이용한 IP 주소 검색 구조 (Binary Search on Multiple Small Trees for IP Address Lookup)

  • 이보미;임혜숙;김원정
    • 한국통신학회논문지
    • /
    • 제29권12C호
    • /
    • pp.1642-1651
    • /
    • 2004
  • 인터넷 접근 기술의 발달은 보다 큰 인터넷 bandwidth를 필요로 하게 되었고 라우터에서의 빠른 패킷 처리를 요구하게 되었다. 라우터에서의 어드레스 경색은 일초에 수천만개 이상으로 입력되는 패킷에 대하여 실시간으로 처리되어야 하는 중요한 기능이다. 본 논문에서는 효율적인 어드레스 검색을 위한 소프트웨어에 기반한 새로운 검색 구조를 제안한다. 라우팅 테이블을 여러 개의 밸런스 트리들로 구성하여 하나의 SRAM에 저장하고 각각의 트리에 대해 순차적으로 바이너리 검색을 수행하는 방식이다. 본 논문에서 제안하는 구조는 약 40,000 여개의 프리픽스를 갖는 라우팅 테이블을 저장하기 위하여 301.7KByte의 작은 사이즈 SRAM을 사용하고 평균 11.3번의 메모리 접근으로 주소 검색이 가능한 구조이다.

MESI 캐쉬 코히어런스 프로토콜을 사용하는 Futurebus+ 기반 멀티프로세서 시스템의 성능 평가 (Performance Analysis of Futurebus+ based Multiprocessor Systems with MESI Cache Coherence Protocol)

  • 고석범;강인곤;박성우;김영천
    • 한국통신학회논문지
    • /
    • 제18권12호
    • /
    • pp.1815-1827
    • /
    • 1993
  • 본 논문에서는 MESI 캐쉬 코히어런스 프로토콜를 사용하는 Futurebus를 시스템 버스로 갖는 멀티프로세서 시스템에 대하여 4 종류의 버스 트랜잭션에 따라 시스템의 성능을 평가하였다. 성능 평가를 위한 모델링과 시뮬레이션은 SLAM II 그래픽 심볼과 컴파일러를 이용하였다. 정확한 시뮬레이션을 위하여 해석적 방법으로 MESI 프로토콜의 각 상태에 대한 확률을 구하였고, 구한 확률 값은 시뮬레이션의 입력으로 사용하였다. 시뮬레이션에서는 프로세서의 수, 캐쉬 메모리의 히트율, 읽기 명령을 수행할 확률, 메모리 엑세스 시간, 메모리 모듈의 수, 프로세서가 내부 동작을 수행할 확률, 버스의 밴드 폭에 따른 프로세서의 이용률, 메모리의 이용률, 버스의 이용률, 버수 중재 대기 시간 등을 구하였다.

  • PDF

낮은 복잡도의 준무손실 압축을 위한 향상된 예측 기법 (Enhanced Prediction for Low Complexity Near-lossless Compression)

  • 손지덕;송병철
    • 방송공학회논문지
    • /
    • 제19권2호
    • /
    • pp.227-239
    • /
    • 2014
  • 본 논문은 영상처리용 SoC에서 외부 메모리 대역폭을 효과적으로 낮추기 위한 near-lossless 이미지 코더의 압축 성능을 향상시키는 새로운 예측 기법을 제안한다. 먼저, RGB 간 correlation을 고려하여 이미 복원된 G 성분을 기반으로 R과 B 성분을 효과적으로 예측하는 inter-color prediction을 수행한다. 다음으로 가변 블록 예측을 통해 예측 성능을 향상시킨다. 마지막으로 이전 프레임에서 sampling된 템플릿 dictionary를 이용해 G 성분 예측 시 최소한의 내부 메모리만을 사용하여 시간 축 예측 성능을 개선시키는 방법을 제안한다. 실험 결과를 통해 자연 영상의 경우 기존 기법 대비 평균적으로 약 30%의 코딩 효율 향상을 보이고, CG 영상의 경우에는 평균 60% 정도의 성능 향상을 보임을 알 수 있다.

계층버스 다중처리기에서 캐시 일관성 프로토콜의 민감도 분석 (Sensitivity Analysis of Cache Coherence Protocol for Hierarchical-Bus Multiprocessor)

  • 이흥재;최진규;기장근;이규호
    • 전기전자학회논문지
    • /
    • 제8권2호
    • /
    • pp.207-215
    • /
    • 2004
  • 계층버스 다중처리기 시스템에서 캐시 일관성 프로토콜은 시스템 성능에 영향을 준다. 특정 캐시 일관성 프로토콜 하에서 시스템의 성능은 버스의 대역폭 및 메모리크기, 메모리 블록의 크기에 따라 영향을 받는다. 따라서 시스템 성능에 영향을 미치는 요소들에 대한 민감도 분석이 필요하다. 본 논문에서는 계층버스 다중처리기에 캐시 일관성 프로토콜을 적용하고, 프로토콜에서 정의된 상태가 나타날 확률을 구하였다. 구해진 확률값을 분석적 모델에 적용하여 시뮬레이션을 하였다. 그리고 시뮬레이션 결과를 기반으로 시스템의 성능에 영향을 미치는 요소에 대한 민감도 분석을 하였다.

  • PDF