• 제목/요약/키워드: embedded processors

검색결과 162건 처리시간 0.025초

멀티코어 시스템에서 TLB Lockdown에 의한 TLB Miss 영향 분석 (Investigation on TLB Miss Impact through TLB Lockdown in Multi-core Systems)

  • 송대영;박시형;김형신
    • 대한임베디드공학회논문지
    • /
    • 제17권1호
    • /
    • pp.59-65
    • /
    • 2022
  • Virtual memory is used as the method to ensure the safety of the system through memory protection in the real-time system. TLB miss caused by using virtual memory makes the real-time system WCET more pessimistically. TLB lockdown can be applied as a method to improve this problem. However, processors with limited TLB lockdown entries, a selection criterion is needed to efficiently utilize the TLB lockdown entry. In this paper, the most frequently accessed virtual pages in the process are applied to the TLB lockdown by analyzing memory profiling. The results showed that micro data TLB miss stall cycle and main data TLB miss stall cycle of the processor decreased by at least 4.7% and up to 29.7%.

멀티미디어 데이터 처리에 적합한 SIMD MAC 연산기의 설계 (SIMD MAC Unit Design for Multimedia Data Processing)

  • 홍인표;정우경;정재원;이용석
    • 대한전자공학회논문지SD
    • /
    • 제38권12호
    • /
    • pp.44-55
    • /
    • 2001
  • MAC(Multiply and ACcumulate) 연산은 DSP와 멀티미디어 데이터 처리의 핵심이 되는 연산이다. 기존의 DSP 혹은 내장형 프로세서의 MAC 연산기들은 주로 3사이클의 latency를 가지며, 한번에 하나씩의 데이터를 처리하므로 성능에 한계를 보인다. 따라서 고성능의 범용 프로세서들은 SIMD(Single Instruction Multiple Data) 연산을 지원하는 MAC 연산기를 실행 유닛으로 내장하는 추세이다. 하지만 이러한 고성능의 연산기는 고성능 범용 프로세서의 특성상 다양한 동작 모드를 지원해야 하고 clock 주파수가 높아야 하므로 파이프라인 기법을 사용하고 이에 따른 컨트롤이 복잡하여 하드웨어 설계가 까다롭고 면적이 큰 문제가 있다. 본 논문에서는 내장형 프로세서에 적합한 64비트 폭을 갖는 SIMD MAC 연산기를 설계하였다. 한 사이클에 누적연산까지 모두 완료하도록 하여 파이프라인 제어의 필요성을 없앴고, 기존의 Booth 곱셈기 구조에 기반하여 약간의 회로 추가로 SIMD 연산이 가능하도록 하였다.

  • PDF

저비용 내장형 멀티미디어 프로세서를 위한 분할 레지스터 접근 구조 (A Partial Access Mechanism on a Register for Low-cost Embedded Multimedia ASIP)

  • 조민영;정하영;이용석
    • 대한전자공학회논문지SD
    • /
    • 제45권9호
    • /
    • pp.50-56
    • /
    • 2008
  • 본 논문은 저비용 내장형 멀티미디어 프로세서를 위한 레지스터 분할 접근 구조를 제안한다. 저비용 내장형 시스템에서 SIMD 명령어 지원은 SIMD 지원 레지스터 파일과 실행유닛들의 추가에 따른 비용의 증가 때문에 적용이 어렵다. 제안한 구조는 하드웨어의 부담을 최소화하면서 SIMD 연산 수행을 지원하여 전체적인 성능을 향상 시킬 수 있는 구조다. ASIP을 설계하여 제안한 구조를 적용시켰으며 DSP 벤치마크에서 명령어 적용에 따른 실행 사이클의 변화를 비교하였다. 설계한 ASIP을 TSMC 0.25$\mu$m 공정으로 합성하여 제안한 구조 적용에 따른 면적 증가 및 전체적인 성능 향상을 분석하였다. 실험 결과 제안한 구조는 성능은 약 38% 향상되었고, 면적은 13.4% 증가하였다.

내장형 프로세서를 위한 IEEE-754 고성능 부동소수점 나눗셈기의 설계 (IEEE-754 Floating-Point Divider for Embedded Processors)

  • 정재원;홍인표;정우경;이용석
    • 대한전자공학회논문지SD
    • /
    • 제39권7호
    • /
    • pp.66-73
    • /
    • 2002
  • 최근 컴퓨터 그래픽이나 고급 DSP 등 부동소수점 연산의 활용 분야가 늘어나면서 나눗셈 연산의 필요성이 증대되었으나, 기존의 나눗셈 연산기는 큰 하드웨어 면적을 차지할 뿐만 아니라 전체 부동소수점 연산의 병목현상을 초래하는 중요한 요인이 되고 있다. 본 논문에서는 급수 전개 알고리즘을 이용한 내장형 프로세서에 적합하도록 소면적의 부동소수점 나눗셈기를 설계하였다. 나눗셈기는 SIMD-DSP 유닛의 두 개의 곱셈누적기를 공유하여 연산함으로써, 부동소수점 단정도 형식의 나눗셈 연산을 고속으로 수행함과 동시에 나눗셈 연산을 위한 추가 면적을 최소화하였다. 본 논문에서는 급수 전개 알고리즘 나눗셈 연산기를 설계함에 있어 고려되어야할 오차의 분석을 통해 정확한 라운딩을 위한 몫을 얻어낼 수 있는 구조를 선택하였으며, IEEE-754 표준에서 정의하고 있는 모든 라운딩 모드를 지원하도록 하였다.

도로 소음 저감을 위한 능동소음제어 시스템의 개발 및 기초실험 (Development and Basic Experiment of Active Noise Control System for Reduction of Road Noise)

  • 문학룡;강원평;임유진
    • 한국도로학회논문집
    • /
    • 제15권6호
    • /
    • pp.41-47
    • /
    • 2013
  • PURPOSES : The purpose of this study is about noise which is generated from roads and is consist of irregular frequency variation from low frequency to various band. The existing methods of noise reduction are sound barrier that uses insulation material and absorbing material or have applied passive technology of noise reduction by devices. The total frequency band is needed to apply active noise control. METHODS : In this study applies to the field of road traffic environment, signal processing controller and various analog signal input/output, the amplifier module is based on parallel-core embedded processor designed. DSP performs the control algorithm of the road traffic noise. Noise sources in the open space performance of evaluation were applied. In this study, controller of active signal processor was designed based on the module of audio input/output and main controller of embedded process. The controller of active signal processor operates noise reduction algorithm and performance tests of noise reduction in inside and outside environment were executed. RESULTS : The signal processing controller with OMAP-L137 parallel-core processors as the center, DSP processors in the active control operations dealt with quickly. To maximize the operation speed of an object and ARM processor is external function keys and display for functions and evaluating the performance management system was designed for the purpose of the interface. Therefore the reduction of road traffic noise has established an electronic controller-based noise reduction. CONCLUSIONS : It is shown that noise reduction is effective in the case of pour tonal sound and complex tonal sound below 500Hz by appling to Fx-LMS.

임베디드 DSP 기반 시스템을 위한 H.264 소프트웨어 부호기의 실시간 최적화 (Real-time Optimization of H.264 Software Encoder on Embedded DSP System)

  • 노시봉;안희준;이명진;오혁준
    • 한국통신학회논문지
    • /
    • 제34권10C호
    • /
    • pp.983-991
    • /
    • 2009
  • H.264 영상압축표준은 우수한 부호화 성능 때문에 현재 DMB와 IPTV 등에 다양한 응용에 활용되고 있으나, 높은 계산량으로 인하여 임베디드 환경에서의 실시간 부호화기로의 활용은 매우 제한적이다. 본 논문은 DSP 시스템이 제공하는 컴파일러 옵션 최적화, 인트린식과 어셈블코드 적용, 데이터 메모리 배치 최적화 과정을 H.264 부호화기 최적화의 입장에서, 비판적, 종합적으로 분석하고 반영한 결과를 소개한다. 특히, 대표적인 DSP인 TMS320DM64x를 사용하여 적용된 최적화 방식에 따른 연산이득을 구체적으로 제시하였으며, 그 결과 CIF급의 영상은 현재시장에 유통되는 DSP기반으로 실시간 구현이 가능함을 확인하였다.

Instruction Flow based Early Way Determination Technique for Low-power L1 Instruction Cache

  • Kim, Gwang Bok;Kim, Jong Myon;Kim, Cheol Hong
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권9호
    • /
    • pp.1-9
    • /
    • 2016
  • Recent embedded processors employ set-associative L1 instruction cache to improve the performance. The energy consumption in the set-associative L1 instruction cache accounts for considerable portion in the embedded processor. When an instruction is required from the processor, all ways in the set-associative instruction cache are accessed in parallel. In this paper, we propose the technique to reduce the energy consumption in the set-associative L1 instruction cache effectively by accessing only one way. Gshare branch predictor is employed to predict the instruction flow and determine the way to fetch the instruction. When the branch prediction is untaken, next instruction in a sequential order can be fetched from the instruction cache by accessing only one way. According to our simulations with SPEC2006 benchmarks, the proposed technique requires negligible hardware overhead and shows 20% energy reduction on average in 4-way L1 instruction cache.

Computing and Reducing Transient Error Propagation in Registers

  • Yan, Jun;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제5권2호
    • /
    • pp.121-130
    • /
    • 2011
  • Recent research indicates that transient errors will increasingly become a critical concern in microprocessor design. As embedded processors are widely used in reliability-critical or noisy environments, it is necessary to develop cost-effective fault-tolerant techniques to protect processors against transient errors. The register file is one of the critical components that can significantly affect microprocessor system reliability, since registers are typically accessed very frequently, and transient errors in registers can be easily propagated to functional units or the memory system, leading to silent data error (SDC) or system crash. This paper focuses on investigating the impact of register file soft errors on system reliability and developing cost-effective techniques to improve the register file immunity to soft errors. This paper proposes the register vulnerability factor (RVF) concept to characterize the probability that register transient errors can escape the register file and thus potentially affect system reliability. We propose an approach to compute the RVF based on register access patterns. In this paper, we also propose two compiler-directed techniques and a hybrid approach to improve register file reliability cost-effectively by lowering the RVF value. Our experiments indicate that on average, RVF can be reduced to 9.1% and 9.5% by the hyperblock-based instruction re-scheduling and the reliability-oriented register assignment respectively, which can potentially lower the reliability cost significantly, without sacrificing the register value integrity.

On-Chip Debug Architecture for Multicore Processor

  • Park, Hyeong-Bae;Xu, Jing-Zhe;Kim, Kil-Hyun;Park, Ju-Sung
    • ETRI Journal
    • /
    • 제34권1호
    • /
    • pp.44-54
    • /
    • 2012
  • Because of the intrinsic lack of internal-system observability and controllability in highly integrated multicore processors, very restricted access is allowed for the debugging of erroneous chip behavior. Therefore, the building of an efficient debug function is an important consideration in the design of multicore processors. In this paper, we propose a flexible on-chip debug architecture that embeds a special logic supporting the debug functionality in the multicore processor. It is designed to support run-stop-type debug functions that can halt and control the execution of the multicore processor at breakpoint events and inspect the possible causes of any errors. The debug architecture consists of the following three functional components: the core debug support block, the multicore debug support block, and the debug interface and control block. By embedding this debug infrastructure, the embedded processor cores within the multicore processor can be debugged simultaneously as well as independently. The debug control is performed by employing a JTAG-based scanning operation. We apply this on-chip debug architecture to build a debugger for a prototype multicore processor and demonstrate the validity and scalability of our approach.

효율적인 H.264/AVC 엔트로피 복호기 설계 (An Efficient H.264/AVC Entropy Decoder Design)

  • 문전학;이성수
    • 대한전자공학회논문지SD
    • /
    • 제44권12호
    • /
    • pp.102-107
    • /
    • 2007
  • 본 논문에서는 메모리 공정이 필요 없고 내장 프로세서를 사용하지 않는 H.264/AVC 엔트로피 복호기를 제안한다. 기존에 발표된 H.264/AVC 엔트로피 복호기의 경우 상당수의 연구가 내부의 ROM 또는 RAM이 필요하기 때문에 일반적인 디지털 로직 공정에서 구현이 어렵다. 또한 상당수의 연구가 비트열 처리를 위하여 내장 프로세서를 사용하기 때문에 면적이 크고 전력소모가 많은 단점을 가지고 있다. 본 논문에서는 내장 프로세서를 사용하지 않는 H.264/AVC Hardwired 엔트로피 복호기를 제안함으로써 데이터 처리 속도를 증가시키고 전력 소모를 줄인다. 또한 CAVLC 복호기에서 복호 시에 이용되는 룩업 테이블 및 저장 공간을 최적화하고 내장 메모리를 사용하지 않는 구조를 제안함으로써, 기존 연구에 비해 하드웨어 크기를 줄이고 ROM 또는 RAM이 지원되지 않는 디지털 로직 제조 공정에서도 쉽게 구현이 가능하다. 설계된 엔트로피 복호기는 H.264/AVC 비디오 복호기의 일부로 내장되어 전체 시스템에서 동작하는 것을 검증하였다. TSMC 90nm 공정으로 합성한 결과 최대동작주파수는 125MHz이며, QCIF, CIF, QVGA 영상을 지원할 뿐만 아니라 nC 레지스터 등 약간의 수정을 통해서 VGA 영상도 지원이 가능하다.