• 제목/요약/키워드: One-Chip Processor

검색결과 109건 처리시간 0.019초

CNN 가속기의 효율적인 데이터 전송을 위한 메모리 데이터 레이아웃 및 DMA 전송기법 연구 (Memory data layout and DMA transfer technique research For efficient data transfer of CNN accelerator)

  • 조석재;박성경;박성정
    • 전기전자학회논문지
    • /
    • 제24권2호
    • /
    • pp.559-569
    • /
    • 2020
  • 딥 러닝 알고리즘 중 하나인 CNN 인공지능 어플리케이션은 하드웨어 측면에서 컨벌루션 레이어의 많은 데이터들을 저장하기 위해 오프 칩 메모리를 사용 하고, DMA를 사용하여 매 데이터 전송 시 프로세서의 부하를 줄여 성능을 향상 시킬 수 있다. 또한 컨벌루션 레이어의 데이터를 가속기의 글로벌 버퍼에 전송되는 순서를 다르게 하여 어플리케이션의 성능의 저하를 줄일 수 있다. 불 연속된 메모리 주소를 가지고 있는 베이직 레이아웃의 경우 SG-DMA를 사용 할 때 ordinary DMA를 사용할 때보다 DMA를 사전 설정하는 부분에서 약 3.4배의 성능향상을 보였고 연속적인 메모리 주소를 가지고 있는 아이디얼 레이아웃의 경우 ordinary DMA 와 SG-DMA를 사용하는 두가지 경우 모두 1396 사이클 정도의 오버헤드를 가졌다. 가장 효율적인 메모리 데이터 레이아웃과 DMA의 조합은 프로세서의 DMA 사전 설정 부하를 약 86 퍼센트까지 감소할 수 있음을 실험을 통해 확인했다.

능동형 태그를 포함한 900MHz RFID 교육용 시스템의 설계 (System Design of 900MHz RFID Eucational System including the Active Tag)

  • 김휴찬;올자스;김종민;진효석;조동관;정중수;강오한;정광욱
    • 인터넷정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.51-59
    • /
    • 2007
  • 본 논문에서는 RFID 기술 중 리더와 태그간 900MHz 대역을 사용하여 교육용 시스템 설계를 제시하였다. 능동형 태그와 리더의 설계를 임베디드 환경에서 제시하였으며 리더와 접속 가능한 서버의 소프트웨어 개발은 PC 윈도우 운영체제 환경에서 실현하였다. 개발 환경으로는 AT89C51ED2가 리더와 태그의 프로세서로, 개발 언어는 C 언어로, 이를 제어하기 위하여 케일 C 컴파일러가 사용되었다. 서버인 PC에서는 비쥬얼 스튜디오상의 비주얼 C 언어가 사용되었다. 시스템의 기능 점검을 위하여 PC에서는 리더를 통해 태그 주소를 인지하고, 메모리에 데이터를 읽고 쓰는 기능을 첨가하여 900MHz 대역의 RFID 교육용 소프트웨어 시스템을 구성하였다.

  • PDF

CMOS 이미지 센서의 영상 개선을 위한 실시간 전처리 프로세서의 설계 (Design of Real-Time PreProcessor for Image Enhancement of CMOS Image Sensor)

  • 정윤호;이준환;김재석;임원배;허봉수;강문기
    • 대한전자공학회논문지SD
    • /
    • 제38권8호
    • /
    • pp.62-71
    • /
    • 2001
  • 본 논문은 CMOS 이미지 센서에서 획득한 영상의 품질을 개선하기 위한 실시간 전처리 프로세서의 설계를 제시한다. CMOS 이미지 센서는 기존 IC와의 통합, 저전력소모, 저가격화등의 다양한 이점을 갖지만, 기존의 CCD 소자로부터 획득한 영상에 비해 열등한 품질의 영상을 제공하는 단점이 있다. CMOS 이미지 센서의 이러한 물리적 한계를 극복하기 위해 본 논문에서 제안하는 전처리 프로세서에는 색상 보간, 색상 보정, 감마 보정, 자동 노출 조정 등의 기본적인 전처리 알고리즘 외에 공간 가변적 대비 향상 알고리즘이 포함되었다. 여기에서 제안하는 전처리 프로세서는 이러한 알고리즘을 효율적으로 구현하기 위한 하드웨어 구조를 가지며, VHDL 언어를 이용하여 설계 및 검증되었다. 설계된 전처리 프로세서는 합성 결과 약 19K의 논리 게이트를 포함하였으며, 이는 저가격의 PC 카메라 구현에 적합하다. 제안된 전처리 프로세서의 실시간 동작 여부를 검증하기 위해 설계된 전처리 프로세서는 Altera사의 Flex EPF10KGC503-3 FPGA 칩으로 구현되었으며, 성공적으로 동작함을 확인하였다.

  • PDF

열전 냉각방식을 이용한 극미광 영상장비 개발 (DEVELOPMENT OF CCD IMAGING SYSTEM USING THERMOELECTRIC COOLING METHOD)

  • 박영식;이청우;진호;한원용;남욱원;이용삼
    • Journal of Astronomy and Space Sciences
    • /
    • 제17권1호
    • /
    • pp.53-66
    • /
    • 2000
  • 한국 천문연구원은 국내 관련 기업과 함께 열전냉각방식 (thermoelectric cooler, 이하 TEC)을 이용한 실용화 극미광 영상장비를 개발하였다. 개발한 모델을 구성하는 부품들은 Kodak사의 KAF-0401E($768{\times}512$ pixels, blue plus version) CCD 센서를 사용하였고, 국내 업체인 Thermotek의 TEC 모듈을 사용하여 $-25^{\circ}C$까지 냉각이 가능하다. 셔터는 Uniblitz사의 VS25S를 사용하여 최소 80ms의 노출을 할 수 있다. PC와의 인터페이스는 현재 한국 천문연구원에서 개발하여 사용중인 ISA 버스의 컨트롤러 보드를 사용하고 12bit 비디오 프로세서인 AD9816을 사용하여 영상을 얻는다. 암잡음은 $-10^{\circ}C$에서 $0.4e^-$/pixel/s이며 직선성은 $99.9{\pm}0.1%$, gain은 4.24e^-/ADU이고 전체 시스템 잡음은 $25.3e^-(rms)$이다. 실험한 모델은 측광이 가능할 정도 ($\pm$0.01등급)의 정밀도를 가지고 천문관측 뿐만 아니라 다른 분야의 영상획득에 유용하게 사용 할 수 있을 것이다.

  • PDF

가상 동기화 기법을 이용한 SystemC 통합시뮬레이션의 병렬 수행 (Parallel SystemC Cosimulation using Virtual Synchronization)

  • 이영민;권성남;하순회
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권12호
    • /
    • pp.867-879
    • /
    • 2006
  • 이 논문에서는 여러 개의 소프트웨어 혹은 하드웨어 컴포넌트가 존재하는 MPSoC(Multiprocessor-System-on-a-chip) 아키텍처를 빠르면서도 정확하게 통합시뮬레이션 하는 내용을 다룬다. 복잡한 시스템을 설계하기 위해서 MPSoC 아키텍처가 점점 일반화되고 있는데, 이러한 아키텍처를 통합시뮬레이션 할 때는 시뮬레이터의 개수가 증가하고 그에 따라 시뮬레이터들 간의 시간 동기화 비용도 증가하므로 전체적인 통합시뮬레이션 성능이 감소된다. 최근의 통합시뮬레이션 연구들에 의해서 등장한 SystemC 통합시뮬레이션 환경이 빠른 성능을 보이고 있으나, 시뮬레이터의 개수가 증가할수록 성능은 반비례한다. 본 논문에서는 효율적인 시간동기를 통해 통합시뮬레이션의 성능을 증가시키는 기법인 가상동기화 기법을 확장하여, (1) SystemC 커널을 수정하지 않고도 가상 동기화 기법을 적용한 SystemC 통합시뮬레이션을 수행할 수 있고, (2) 병렬적으로 가상동기화 기법을 수행할 수 있게 하였다. 이를 통해 SystemC 통합시뮬레이션의 병렬적인 수행이 가능해졌는데, 널리 알려진 상용 SystemC 통합시뮬레이션 도구인 MaxSim과 비교하였을 때, H.263 디코더 예제의 경우 11배 이상의 성능 증가를 얻었고 정확도는 5% 이내로 유지되었다.

칩의 크기가 제한된 단일칩 프로세서를 위한 레벨 1 캐시구조 (A Level One Cache Organization for Chip-Size Limited Single Processor)

  • 주영관;김석일
    • 정보처리학회논문지A
    • /
    • 제12A권2호
    • /
    • pp.127-136
    • /
    • 2005
  • 이 논문에서는 단일 칩 프로세서에서 제한된 공간의 레벨 1 캐시를 구성하고 있는 선인출 캐시 $L_P$와 요구인출 캐시 $L_1$의 합이 일정한 때, $L_1$$L_P$의 크기의 적정한 비율을 실험을 통하여 분석하였다. 실험 결과, $L_1$$L_P$의 합이 16KB일 경우에는 $L_1$을 12KB, $L_P$를 4KB로 구성하고 $L_P$의 선인출 기법과 캐시교체정책은 각각 OBL과 FEO을 적용시키는 레벨 1 캐시 구조가 가장 성능이 우수함을 보였다. 또한 이 분석은 $L_1$$L_P$의 합이 32KB 이상인 경우에는 $L_P$의 선인출 기법으로는 동적필터 기법을 사용하는 것이 유리함을 보였고 32KB의 공간이 가용한 경우에는 $L_1$을 28KB, $L_P$를 4KB로, 64KB가 가용한 경우에는 $L_1$을 48KB, $L_P$를 16KB로 레벨 1 캐시를 분할하는 것이 가장 좋은 성능을 발휘함을 보였다.

광디스크 디지털 서보의 저전력 구현 아키텍쳐 (Low Power Digital Servo Architecture for Optical Disc)

  • 허준호;김수원
    • 전자공학회논문지SC
    • /
    • 제38권2호
    • /
    • pp.31-37
    • /
    • 2001
  • 광디스크 재생기에서 사용되는 디지털 서보는 주변 블록과의 집적화가 유리하고, 온도변화에 따른 열화가 적으며, 각종 픽업에 대한 유연한 대응이 가능한 장점 때문에 이용도가 점점 높아지고 있는 추세이다.[6] 그러나 디지털 시그널 프로세서를 내장한 디지털 서보는 전력 소비량이 매우 큰 단점을 가지고 있다. 본 논문에서는 광디스크 재생기의 특성 상 초기화 시간에 대부분의 기능이 몰려 있으므로 DSP의 사이클 수는 많이 차지 하나, 실제로 전력 소비에 주된 영향을 끼치는 시간은 초기화 시간이 아닌 재생 모드 시간 임에 착안하여 디지털 서보의 소비 전류를 획기적으로 줄일 수 있는 방안을 제시하였다. 재생 모드에서의 필터 처리 사이클 수를 최대한 줄일 수 있도록 아키텍쳐를 변환함과 동시에 디지털 서보의 재생 모드를 병렬 처리함으로써, 전체 시스템의 소비 전력을 크게 줄이는 효과를 얻을 수 있도록 하였다. 즉, 광디스크 재생기의 디지털 서보에 포함되는 DSP 코아의 리소스 공유를 통해DSP의 동작 속도와 부하를 크게 줄임으로써 소비 전류를 획기적으로 줄이는 효과를 얻어낸 것이다. 이러한 개념은 DSP-코아 뿐만 아니라, ROM, RAM에도 모두 적용되어 기존 아키텍쳐의 디지털 서보에 비해 소비 전류를 83% 가까이 줄일 수 있는 효과를 얻을 수 있었다.

  • PDF

실시간 모바일 GIS 응용 구축을 위한 주기억장치 데이터베이스 시스템 설계 및 구현 (Design and Implementation of a Main-Memory Database System for Real-time Mobile GIS Application)

  • 강은호;윤석우;김경창
    • 정보처리학회논문지D
    • /
    • 제11D권1호
    • /
    • pp.11-22
    • /
    • 2004
  • 최근 들어 계속되는 램 가격 하락으로 인해 대용량의 램을 사용하는 주기억장치 데이터베이스 시스템의 구축이 실현 가능하게 되었다. 주기억장치 데이터베이스는 여러 다양한 실시간 응용 분야를 위해 사용되며, 매년 CPU 속도가 60% 정도 증가되고, 메모리 속도가 10% 증가되는 현실에서, 케쉬 미스(Cache miss)를 얼마나 줄이느냐 하는 문제가 주기억장치 데이터베이스의 검색 성능 측면에서 가장 중요한 문제로 대두되고 있다. 본 논문에서는 이러한 환경을 고려한 실시간 모바일 GIS응용을 위한 주기억장치 데이터베이스 시스템을 설계 및 구현한다. 본 시스템은 크게 PDA를 사용하는 모바일 사용자를 위한 인터페이스 관리기와 가상 메모리 기법을 사용해 전체 데이터를 주기억장치에 상주시키며 관리하는 주기억 데이터 관리기, 공간 및 비 공간 질의를 처리하는 질의처리기, 새롭게 제시하는 공간 데이터를 위한 MR-트리 인덱스와 비 공간 데이터를 위한 T-트리 인덱스 구조를 관리하는 인덱스 관리기, 데이터를 디스크에 저장하기 위한 GIS 서버 인터페이스로 구성된다. 새롭게 제시하는 공간 인덱싱을 위한 MR-트리는 노트 분할이 발생될 경우, 입력 경로 상에 하나 이상의 빈 엔트리를 지니는 노드가 존재할 경우에만, 노드 분할을 상위로 전송한다. 그러므로 중간 노드들은 항상 100%에 가깝게 채워져 있게 된다. 본 논문의 실험 결과, 2차원의 MR-트리는 기존의 R-트리에 비해 2.4배 이상의 빠른 검색 속도를 나타냈다. 한편, 주 기억 데이터 관리기는 가상 메모리 제공을 위해 전체 벡터 데이터 및 MR-트리, T-트리, 데이터 객체 텍스트 정보를 페이지 단위로 분할하여 관리하고, 간접 주소 기법을 사용하여 디스크로부터의 재 로딩시 발생할 수 있는 문제점을 제거하였다.

CIM(Combined Integer Mapping)을 이용한 OFDM 송신기의 IFFT 메모리 감소 (Memory Reduction of IFFT Using Combined Integer Mapping for OFDM Transmitters)

  • 이재경;장인걸;정진균;이철동
    • 대한전자공학회논문지TC
    • /
    • 제47권10호
    • /
    • pp.36-42
    • /
    • 2010
  • FFT(Fast Fourier Transform)는 IEEE 802.22와 같은 여러 무선표준에서 사용되는 OFDM 시스템의 주요 블록 중 하나이다. FFT의 전력소모 감소, 면적감소, 고속동작을 위해 새로운 FFT 아키텍처 개발, twiddle factor 곱셈을 위한 곱셈기의 수나 면적감소, 제어회로의 단순화 등에 초점을 둔 FFT 프로세서의 구현에 관한 연구가 지속적으로 진행되어왔다. FFT의 입력포인트 수 N이 증가함에 따라 $log_2N$ 개의 각 FFT 스테이지 구현에 사용되는 시프트레지스터(또는, 페모리)가 차지하는 비중이 전체 FFT회로의 70%이상이 되며 이러한 메모리들은 FFT의 처음 두 스테이지에 집중되어 두 스테이지의 메모리가 전체 메모리의 75%를 차지한다. 본 논문에서는 OFDM 송신부의 IFFT(Inverse Fast Fourier Transform)에서 요구되는 메모리 사이즈를 감소시키기 위해 입력변조신호, 파일럿(pilot)신호, 널(null) 신호의 mapping을 IFFT와 결합하는 새로운 기법을 제안한다. Cognitive radio 시스템에 적용하기 위한 2048포인트 IFFT를 제안한 방법으로 설계하고 메모리가 차지하는 면적에서 기존의 방법과 비교하여 38.5%이상의 이득을 가짐을 보인다.