• 제목/요약/키워드: Low-power instruction access

검색결과 8건 처리시간 0.027초

저전력 마이크로컨트롤러를 위한 명령어 레벨의 소모전류 모델링 및 최적화에 대한 연구 (Study of Instruction-level Current Consumption Modeling and Optimization for Low Power Microcontroller)

  • 엄흥식;김건욱
    • 전자공학회논문지CI
    • /
    • 제43권5호
    • /
    • pp.1-7
    • /
    • 2006
  • 본 논문에서는 임베디드 시스템에서 사용되는 대표적 저전력 마이크로컨트롤러인 ATmega128을 대상으로 명령어 레벨의 소모전류를 측정, 모델링하였다. 마이크로컨트롤러가 소모하는 전류는 메모리의 접근 유무에 의해 차이가 나며, 메모리 접근 명령어가 메모리 비접근 명령어에 비해 내부 메모리 기준으로 17% 더 높은 전류소모를 나타낸다. 프로그램의 메모리 접근 명령어 사용빈도가 높을수록, 메모리 계층구조에서 낮은 계층의 정보를 접근할수록 프로그램의 전력소모는 비례한다고 관찰된다. 본 논문에서는 명령어 레벨의 소모전류모델화를 통하여 실제 프로그램의 전력소모를 예측, 분석하고 메모리 접근 명령어의 비율을 줄이는 방향으로 프로그램의 전력소모를 최적화한다. 또한 마이크로컨트롤러 기반 시스템에서 프로그램 실행 전력을 최적화할 수 있는 기법을 하드웨어와 소프트웨어 측면에서 다양하게 제안한다.

핫스팟 접근영역 인식에 기반한 바이너리 코드 역전 기법을 사용한 저전력 IoT MCU 코드 메모리 인터페이스 구조 연구 (Low-Power IoT Microcontroller Code Memory Interface using Binary Code Inversion Technique Based on Hot-Spot Access Region Detection)

  • 박대진
    • 대한임베디드공학회논문지
    • /
    • 제11권2호
    • /
    • pp.97-105
    • /
    • 2016
  • Microcontrollers (MCUs) for endpoint smart sensor devices of internet-of-thing (IoT) are being implemented as system-on-chip (SoC) with on-chip instruction flash memory, in which user firmware is embedded. MCUs directly fetch binary code-based instructions through bit-line sense amplifier (S/A) integrated with on-chip flash memory. The S/A compares bit cell current with reference current to identify which data are programmed. The S/A in reading '0' (erased) cell data consumes a large sink current, which is greater than off-current for '1' (programmed) cell data. The main motivation of our approach is to reduce the number of accesses of erased cells by binary code level transformation. This paper proposes a built-in write/read path architecture using binary code inversion method based on hot-spot region detection of instruction code access to reduce sensing current in S/A. From the profiling result of instruction access patterns, hot-spot region of an original compiled binary code is conditionally inverted with the proposed bit-inversion techniques. The de-inversion hardware only consumes small logic current instead of analog sink current in S/A and it is integrated with the conventional S/A to restore original binary instructions. The proposed techniques are applied to the fully-custom designed MCU with ARM Cortex-M0$^{TM}$ using 0.18um Magnachip Flash-embedded CMOS process and the benefits in terms of power consumption reduction are evaluated for Dhrystone$^{TM}$ benchmark. The profiling environment of instruction code executions is implemented by extending commercial ARM KEIL$^{TM}$ MDK (MCU Development Kit) with our custom-designed access analyzer.

A Low Power Design of H.264 Codec Based on Hardware and Software Co-design

  • Park, Seong-Mo;Lee, Suk-Ho;Shin, Kyoung-Seon;Lee, Jae-Jin;Chung, Moo-Kyoung;Lee, Jun-Young;Eum, Nak-Woong
    • 정보와 통신
    • /
    • 제25권12호
    • /
    • pp.10-18
    • /
    • 2008
  • In this paper, we present a low-power design of H.264 codec based on dedicated hardware and software solution on EMP(ETRI Multi-core platform). The dedicated hardware scheme has reducing computation using motion estimation skip and reducing memory access for motion estimation. The design reduces data transfer load to 66% compared to conventional method. The gate count of H.264 encoder and the performance is about 455k and 43Mhz@30fps with D1(720x480) for H.264 encoder. The software solution is with ASIP(Application Specific Instruction Processor) that it is SIMD(Single Instruction Multiple Data), Dual Issue VLIW(Very Long Instruction Word) core, specified register file for SIMD, internal memory and data memory access for memory controller, 6 step pipeline, and 32 bits bus width. Performance and gate count is 400MHz@30fps with CIF(Common Intermediated format) and about 100k per core for H.264 decoder.

Low Power Trace Cache for Embedded Processor

  • Moon Je-Gil;Jeong Ha-Young;Lee Yong-Surk
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.204-208
    • /
    • 2004
  • Embedded business will be expanded market more and more since customers seek more wearable and ubiquitous systems. Cellular telephones, PDAs, notebooks and portable multimedia devices could bring higher microprocessor revenues and more rewarding improvements in performance and functions. Increasing battery capacity is still creeping along the roadmap. Until a small practical fuel cell becomes available, microprocessor developers must come up with power-reduction methods. According to MPR 2003, the instruction and data caches of ARM920T processor consume $44\%$ of total processor power. The rest of it is split into the power consumptions of the integer core, memory management units, bus interface unit and other essential CPU circuitry. And the relationships among CPU, peripherals and caches may change in the future. The processor working on higher operating frequency will exact larger cache RAM and consume more energy. In this paper, we propose advanced low power trace cache which caches traces of the dynamic instruction stream, and reduces cache access times. And we evaluate the performance of the trace cache and estimate the power of the trace cache, which is compared with conventional cache.

  • PDF

실시간 H.264/AVC 처리를 위한 ASIP설계 (ASIP Design for Real-Time Processing of H.264)

  • 김진수;선우명훈
    • 전자공학회논문지CI
    • /
    • 제44권5호
    • /
    • pp.12-19
    • /
    • 2007
  • 본 논문에서는 ASIP(Application Specific Instruction-set Processor) 기반의 실시간 H.264/AVC 구현 가능한 VSIP(Video Specific Instruction-set Processor) 을 제안한다. 제안한 VSIP은 H.264/AVC의 화면 내 예측, 디블록킹 필터, 정수 변환 등 새로운 기능들을 효율적으로 지원하기 위한 전용의 하드웨어 구조와 명령어를 가지고 있다. 또한 화면 간 예측 및 엔트로피 코딩과 같이 연산량이 많은 부분은 하드웨어 가속기로 만들어 연산 처리 속도 및 효율을 높였다. VSIP은 H.264/AVC에 적합한 하드웨어 구조와 명령어를 통해 기존의 디지털 신호처리 프로세서보다 작은 크기를 가지며, 메모리 접근 횟수를 줄여 전력 소비를 감소시켰다. 제안한 VSIP을 이용하여 실시간 영상 신호처리를 할 수 있으며, 다양한 프로파일과 표준을 지원할 수 있다.

임베디드 시스템에서 후방 분기 명령어 정보를 이용한 저전력 명령어 캐쉬 설계 기법 (Energy-aware Instruction Cache Design using Backward Branch Information for Embedded Processors)

  • 양나라;김종면;김철홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권6호
    • /
    • pp.33-39
    • /
    • 2008
  • 반도체 기술의 급속한 발달과 함께 임베디드 프로세서의 성능이 점차 강력해지면서 몇 가지 문제점이 발생하게 되었다. 그 중에서도 프로세서 내에서 소비되는 에너지의 급격한 증가는 심각한 문제이다. 이러한 이유로 인해 최신의 임베디드 프로세서를 설계할 때에는 성능과 함께 에너지 효율성이 반드시 고려되어야 한다. 본 논문에서는 프로세서에서 소비되는 에너지의 상당 부분을 차지하고 있는 명령어 캐쉬의 에너지 효율성을 향상시키기 위해 후방 분기 명령어 정보를 이용하는 기법을 제안하고자 한다. 큰 크기의 주 명령어 캐쉬와 작은 크기의 순환문 캐쉬로 구성되는 제안된 기법을 통해 프로세서의 요청이 올 때 주 명령어 캐쉬와 순환문 캐쉬 중에서 하나의 캐쉬만이 선택적으로 접근되도록 하여 주 명령어 캐쉬의 접근 횟수를 크게 감소시킴으로써 우수한 에너지 효율성을 얻을 수 있다. 실험 결과, 제안하는 저전력 명령어 캐쉬는 기존의 명령어 캐쉬와 비교하여 평균 20%의 에너지 소비를 감소시킨다는 사실을 확인하였다.

  • PDF

확장 버퍼 캐쉬의 설계 및 성능 평가 (Design and Performance Evaluation of Expansion Buffer Cache)

  • 홍원기
    • 정보처리학회논문지A
    • /
    • 제11A권7호
    • /
    • pp.489-498
    • /
    • 2004
  • VLIW 프로세서는 간단한 하드웨어 구조로 인해 저전력 및 고성능을 제공하여 임베디드 시스템에 매우 적합한 프로세서 구조로 인식되고 있다. 그러나 VLIW 프로세서는 동시에 수행 가능한 명령어들의 집합인 명령어 패킷 길이가 일정하지 않기 때문에 메모리 접근 지연 시간이 늘어나는 문제점을 안고 있다. 이는 가변 길이의 명령어 패킷으로 인해 일부 명령어 패킷이 두개의 캐쉬 블록에 걸쳐 있게 되고(스트래들 명령어 패킷), 이러한 명령어 패킷을 읽어 오기 위해 두 번의 캐쉬 접근이 요구되기 때문이다. 본 논문에서는 명령어 인출 대역폭을 높여줄 뿐만 아니라 명령어 캐쉬의 전력 소모를 낮춰주는 확장 버퍼 캐쉬를 제안한다. 확장 버퍼 캐쉬는 메인 캐쉬와 함께 스트래들 명령어 패킷의 일부를 저장하기 위한 소량의 확장 버퍼 캐쉬를 갖고 있으며 스트래들 명령어 패킷으로 인해 추가적으로 발생하는 캐쉬 접근을 줄여준다. 실험 결과 스트래들 명령어 패킷으로 인한 캐쉬 접근을 줄여 줌으로써 확장 버퍼 캐쉬는 기존 명령어 캐쉬에 비해 약 $5{\~}9{\%}$의 성능 전력${\cdot}$비용 향상을 가져옴을 확인할 수 있었다.

명령어 플래시 메모리를 위한 고성능 이중 버퍼 시스템 설계 (The Instruction Flash memory system with the high performance dual buffer system)

  • 정보성;이정훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.1-8
    • /
    • 2011
  • NAND형 플래시 메모리는저전력, 저렴한 가격, 그리고 대용량 저장매체로 하드디스크 대용을 위하여 많은 연구가 이루어지고 있다. 특히 기존의 캐쉬 구조인 버퍼 시스템을 이용한 플래시 메모리의 성능향상 연구가 이루어지지만 대부분이 데이터 관련 연구이다. 따라서 본 연구에서는 기존의 캐쉬 구조의 버퍼를 이용한 고성능 명령어 플래시 메모리를 구현하였다. 제안된 명령어 플래시 메모리 시스템은 분기 명령어를 위한 시간적 버퍼(victim buffer), 명령어의 대표적인 특징인 순차적 인출을 위한 공간적 버퍼(spatial buffer)로 이루어져 있다. 즉, 제안된 명령어 플래시 메모리의 공간적 버퍼는 큰 페칭 크기를 가지므로 명령어의 순차적 인출에 효과적이며, 작은 페칭 크기를 가지는 시간적 버퍼는 공간적 버퍼에 참조된 명령어를 저장하게 되므로 다시 참조를 위한 분기 명령어에 효과적이다. 시뮬레이션 결과 평균 접근 실패율의 경우 미디어 응용군에 대해 4배 크기의 2-웨이 버퍼, 희생 버퍼, 그리고 2배 크기의 완전연관 버퍼에 비해 평균 77% 감소 효과를 얻을 수 있었다.