• 제목/요약/키워드: Embedded CPU

검색결과 221건 처리시간 0.028초

CPU-GPU간 긴밀성을 위한 효율적인 공유메모리 접근 방법과 검증 시스템 구현 (Implementation of Integrated CPU-GPU for Efficient Uniform Memory Access Method and Verification System)

  • 박현문;권진산;황태호;김동순
    • 대한임베디드공학회논문지
    • /
    • 제11권2호
    • /
    • pp.57-65
    • /
    • 2016
  • In this paper, we propose a system for efficient use of shared memory between CPU and GPU. The system, called Fusion Architecture, assures consistency of the shared memory and minimizes cache misses that frequently occurs on Heterogeneous System Architecture or Unified Virtual Memory based systems. It also maximizes the performance for memory intensive jobs by efficient allocation of GPU cores. To test between architectures on various scenarios, we introduce the Fusion Architecture Analyzer, which compares OpenMP, OpenCL, CUDA, and the proposed architecture in terms of memory overhead and process time. As a result, Proposed fusion architectures show that the Fusion Architecture runs benchmarks 55% faster and reduces memory overheads by 220% in average.

임베디드 플렛폼 기반 미국향 모바일방송 다중화기 설계 및 구현 (Implementation of An Embedded Platform-Based ATSC Mobile Broadcasting Multiplexer)

  • 권기원;박경원;김현식;이연성
    • 대한임베디드공학회논문지
    • /
    • 제6권2호
    • /
    • pp.93-99
    • /
    • 2011
  • In this paper, an ATSC(Advanced Television Standard Committee)-M/H(Mobile/Handheld) multiplexer is designed and implemented using an embedded Linux based hardware platform. The ATSC-M/H multiplexer is composed of a CPU(Central Processor Unit), an FPGA(Field-Programmable Gate Array), ASI(Asynchronous Serial Interface)/SMPTE310(Society of Motion Picture and Television Engineers310) interface board, and a GPS(Global Position System) clock processing block. The main functions of the ATSC-M/H multiplexer executed in the CPU and FPGA are described. The operation of the ATSC-M/H multiplexer is verified by processing its broadcast signal on a commercial receiver analyzer.

On-Chip SRAM을 이용한 임베디드 시스템 메모리 계층 최적화 (Memory Hierarchy Optimization in Embedded Systems using On-Chip SRAM)

  • 김정원;김승균;이재진;정창희;우덕균
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제36권2호
    • /
    • pp.102-110
    • /
    • 2009
  • 컴퓨터 시스템 분야의 대표적인 문제 중 하나는 메모리의 처리 속도가 CPU의 처리 속도보다 매우 느리기 때문에 생기는 CPU 휴면 시간의 증가, 즉 메모리 장벽 문제이다. CPU와 메모리의 속도 차이를 줄이기 위해서는 레지스터, 캐시 메모리, 메인 메모리, 디스크로 대표되는 메모리 계층을 이용하여 자주 쓰이는 데이터를 메모리 계층 상위, 즉 CPU 가까이 위치시켜야 한다. 본 논문에서는 On-Chip SRAM을 이용한 임베디드 시스템 메모리 계층 최적화 기법을 리눅스 기반 시스템에서 최초로 제안한다. 본 기법은 시스템의 가상 메모리를 이용하여 프로그래머가 원하는 코드나 데이터를 On-Chip SRAM에 적재한다. 제안된 기법의 실험 결과 총 9개의 어플리케이션에 대하여 최대 35%, 평균 14%의 시스템 성능 향상과 최대 40% 평균 15%의 에너지 소비 감소를 보였다.

원격 모니터링 시스템을 위한 Linux 실장 지능형 제어기 구현 (Implementation of Embedded Linux Intelligent Controller for Remote Monitoring System)

  • 송근영;박세현
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 춘계종합학술대회
    • /
    • pp.233-236
    • /
    • 2003
  • 원격 모니터링 시스템 위한 실장형 리눅스 지능형 제어기를 구현한다. 실장형 리눅스 지능형 제어기의 하드 코어는 32비트 cpu로서 구성되었고 실시간 모니터링과 FFT을 수행 할 수 있도록 설계되었다. 그리고 모니터링 시스템은 자바에 의한 인터넷과 GUI 환경에서 수행되도록 설계되었다. 상세설계와 기능적 해석을 시스템 기반에서 수행되었다.

  • PDF

교량진단을 위한 새로운 Linux 실장 지능형 제어기 및 원격 모니터링 시스템 개발 (Development of New Linux Embedded Intelligent Controller and Remote Monitoring System for Bridge Diagnosis)

  • 박세현;송근영
    • 한국정보통신학회논문지
    • /
    • 제7권3호
    • /
    • pp.526-531
    • /
    • 2003
  • 교량 진단을 위한 새로운 Linux 실장 지능형 제어기 및 원격 모니터링 시스템을 구현한다. Linux 실장 지능형 제어기의 하드 코어는 32비트 CPU로서 구성되었고 교량 진단을 위해 실시간 모니터링과 FFT를 수행 할 수 있도록 설계되었다. 그리고 모니터링 시스템은 Java에 의한 인터넷 환경 및 GUI 환경에서 수행되도록 설계되었다. 상세 설계와 기능적 해석을 시스템 기반에서 수행되었다.

상용 TV 시스템상에 리눅스 커널 탑재 (Embedded Linux Porting on TV System)

  • 김주원;서대화;최명희;하영호
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(4)
    • /
    • pp.231-234
    • /
    • 2002
  • As control programs are becoming larger and more complex, the capacity of a microprocessor in a TV set needs to have a CPU with 32 bits or more. Also the embedded system such like a digital TV set uses RTOS (Real Time Operating System)[1]. LGE Co. has developed a digital TV system that displays HD (High definition) signal with the AR7TDMI CPU and the commercial RTOS[2]. This thesis made improvements on problems caused by porting embedded LiNUX in limited size memory (2 mega byte) instead of RTOS[3]. The advantages of changing to embedded LiNUX take away running OS royalty that needed to make TV sets[4].

  • PDF

낮은 복잡도의 Deeply Embedded 중앙처리장치 및 시스템온칩 구현 (Low-Complexity Deeply Embedded CPU and SoC Implementation)

  • 박성정;박성경
    • 한국산학기술학회논문지
    • /
    • 제17권3호
    • /
    • pp.699-707
    • /
    • 2016
  • 중앙처리장치를 중심으로 하는 각종 내장형 시스템은 현재 각종 산업에 매우 광범위하게 쓰이고 있다. 특히 사물인터넷 등의 deeply embedded (심층 내장형) 시스템은 저비용, 소면적, 저전력, 빠른 시장 출시, 높은 코드 밀도 등을 요구한다. 본 논문에서는 이러한 요구 조건을 만족시키는 중앙처리장치를 제안하고, 이를 중심으로 한 시스템온칩 플랫폼을 소개한다. 제안하는 중앙처리장치는 16 비트라는 짧은 명령어로만 이루어진 확장형 명령어 집합 구조를 갖고 있어 코드 밀도를 높일 수 있다. 그리고, 다중사이클 아키텍처, 카운터 기반 제어 장치, 가산기 공유 등을 통하여 로직 게이트가 차지하는 면적을 줄였다. 이 코어를 중심으로, 코프로세서, 명령어 캐시, 버스, 내부 메모리, 외장 메모리, 온칩디버거 및 주변 입출력 장치들로 이루어진 시스템온칩 플랫폼을 개발하였다. 개발된 시스템온칩 플랫폼은 변형된 하버드 구조를 갖고 있어, 메모리 접근 시 필요한 클락 사이클 수를 감소시킬 수 있었다. 코어를 포함한 시스템온칩 플랫폼은 상위 언어 수준과 어셈블리어 수준에서 모의실험 및 검증하였고, FPGA 프로토타이핑과 통합형 로직 분석 및 보드 수준 검증을 완료하였다. $0.18{\mu}m$ 디지털 CMOS 공정과 1.8V 공급 전압 하에서 ASIC 프론트-엔드 게이트 수준 로직 합성 결과, 50MHz 동작 주파수에서 중앙처리장치 코어의 논리 게이트 개수는 7700 수준이었다. 개발된 시스템온칩 플랫폼은 초소형 보드의 FPGA에 내장되어 사물인터넷 분야에 응용된다.

통합메모리를 이용한 임베디드 환경에서의 딥러닝 프레임워크 성능 개선과 평가 (Performance Enhancement and Evaluation of a Deep Learning Framework on Embedded Systems using Unified Memory)

  • 이민학;강우철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권7호
    • /
    • pp.417-423
    • /
    • 2017
  • 최근, 딥러닝을 사용 가능한 임베디드 디바이스가 상용화됨에 따라 임베디드 시스템 영역에서도 딥러닝 활용에 대한 다양한 연구가 진행되고 있다. 그러나 임베디드 시스템을 고성능 PC 환경과 비교하면 상대적으로 저사양의 CPU/GPU 프로세서와 메모리를 탑재하고 있으므로 딥러닝 기술의 적용에 있어서 많은 제약이 있다. 본 논문에서는 다양한 최신 딥러닝 네트워크들을 임베디드 디바이스에 적용했을때의 성능을 시간과 전력이라는 관점에서 실험적으로 평가한다. 또한, 호스트 CPU와 GPU 디바이스간의 메모리를 공유하는 임베디드 시스템들의 아키텍처적인 특성을 이용하여 메모리 복사를 줄임으로써 실시간 성능과 저전력성을 높이는 방법을 제시한다. 제안된 방법은 대표적인 공개 딥러닝 프레임워크인 Caffe를 수정하여 구현되었으며, 임베디드 GPU를 탑재한 NVIDIA Jetson TK1에서 성능평가 되었다. 실험결과, 대부분의 딥러닝 네트워크에서 뚜렷한 성능향상을 관찰할 수 있었다. 특히, 메모리 사용량이 높은 AlexNet에서 약 33%의 이미지 인식 속도 단축과 50%의 소비 전력량 감소를 관찰할 수 있었다.

CPU-FPGA 구조를 이용한 실시간 FCWS 구현 (Real-time FCWS implementation using CPU-FPGA architecture)

  • 한성우;정용진
    • 전기전자학회논문지
    • /
    • 제21권4호
    • /
    • pp.358-367
    • /
    • 2017
  • 최근 운전자의 편의와 안전을 위해 전방 차량 추돌 감지 시스템(Front Collision Warning System : FCWS)과 같은 다양한 운전자 보조 시스템(Advanced Driver Assistance System : ADAS)이 개발되고 있다. FCWS는 주행 중 실시간으로 동작해야 하기 때문에 높은 처리속도를 필요로 한다. 또한 자동차의 전장화에 따라 FCWS를 차량용 임베디드 시스템에서 동작시키기 위해 저전력 시스템이 필요하다. 본 논문에서는 FCWS를 CPU-FPGA 구조에서 실시간 처리가 가능하도록 구현하였다. 차선 검출은 Inverse Transform Perspective(IPM)와 슬라이딩 윈도우 방식을 이용하여 CPU에서도 빠른 속도로 동작할 수 있도록 하였다. 차량검출은 높은 인식률을 가지는 Convolutional Neural Network(CNN)을 이용하였고, FPGA에서 병렬처리로 가속하였다. 제안하는 구조는 저전력으로 동작하는 ARM-Core A9과 FPGA를 내장한 Intel FPGA Cyclone V SoC(System on Chip)에서 검증하였다. HD해상도에서 FCWS는 44FPS로 실시간으로 동작하며, 고성능 PC 환경보다 처리속도 대비 에너지 효율이 약 3.33배 높은 것을 확인했다.

헤테로지니어스 멀티코어 성능 최적화를 위한 하이브리드 병렬 프로그래밍 (Hybrid parallel programming for Heterogeneous Multi-core performance optimization)

  • 임주호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.7-9
    • /
    • 2012
  • CPU는 싱글 코어 구조에서 클록 속도를 높여 성능을 향상 시키려는 노력을 해왔으나 한계에 도달하자 하나의 칩에 코어를 여러 개 둔 멀티코어 형태로 발전하였다. CPU의 성능 향상을 위해 이제는 3D그래픽을 연산처리하기 위해 만들어진 GPU와 결합하기에 이르렀다. CPU와 GPU의 결합은 CPU간의 결합보다 훨씬 더 좋은 성능을 보였고 전력의 사용량도 더 적었으며 비용면에서도 경제적이라는 장점을 가지고 있다. 본 논문에서는 CPU와 GPU의 Heterogeneous multicore상에서 성능을 최적화하기 위해 기존의 병렬화 모델을 조합하고 최적화를 시도하였다. CPU상에서는 성능 향상을 위해 기존의 병렬 프로그램 모델인 SIMD와 공유메모리 병렬 프로그래밍 모델 그리고 메시지 패싱 병렬 프로그래밍 모델을 조합하는 실험을 했다. GPU에서는 CUDA를 최적화 하였다. 이렇게 CPU와 GPU를 최적화하고 조합하여 고성능 연산을 요구하는 어플리케이션을 위한 Heterogeneous multicore 성능 최적화 방법을 제안한다.