• 제목/요약/키워드: Instruction set design

검색결과 120건 처리시간 0.024초

대규모 신경망 시뮬레이션을 위한 칩상 학습가능한 단일칩 다중 프로세서의 구현 (Design of a Dingle-chip Multiprocessor with On-chip Learning for Large Scale Neural Network Simulation)

  • 김종문;송윤선;김명원
    • 전자공학회논문지B
    • /
    • 제33B권2호
    • /
    • pp.149-158
    • /
    • 1996
  • In this paper we describe designing and implementing a digital neural chip and a parallel neural machine for simulating large scale neural netsorks. The chip is a single-chip multiprocessor which has four digiral neural processors (DNP-II) of the same architecture. Each DNP-II has program memory and data memory, and the chip operates in MIMD (multi-instruction, multi-data) parallel processor. The DNP-II has the instruction set tailored to neural computation. Which can be sed to effectively simulate various neural network models including on-chip learning. The DNP-II facilitates four-way data-driven communication supporting the extensibility of parallel systems. The parallel neural machine consists of a host computer, processor boards, a buffer board and an interface board. Each processor board consists of 8*8 array of DNP-II(equivalently 2*2 neural chips). Each processor board acn be built including linear array, 2-D mesh and 2-D torus. This flexibility supports efficiency of mapping from neural network models into parallel strucgure. The neural system accomplishes the performance of maximum 40 GCPS(giga connection per second) with 16 processor boards.

  • PDF

Development of a Smart Device Utilization Education Program for Senior Citizens

  • Ahra CHO;Chan-Woo YOO
    • 4차산업연구
    • /
    • 제4권1호
    • /
    • pp.19-27
    • /
    • 2024
  • Purpose: This study is based on the results of the National Information Society Agency's the Report on the Digital Divide in 2022. This study sought to develop digital literacy education programs for senior citizens, a digitally disadvantaged group, and to utilize smart devices to enhance their digital capabilities. Research design, data and methodology: Based on Gagné's nine events of instruction, a total of 7-session educational programs using smart devices were developed, and teaching-learning goals were set at a level that older learners can realistically perform. In preparation for the era of digital transformation, AI utilization methods are introduced and utilized in some sessions of the educational program. Results: Among a total of 7 sessions of the educational program, 5 sessions using KakaoTalk and Naver App, and 2 sessions using other apps were developed. There are a total of three sessions using AI. Conclusions: This study presented a digital literacy education program that combined AI, addressing the insufficiency of AI-based education programs targeting senior citizens. It is expected that this educational program will be able to improve the digital literacy skills and provide a basis for fulfilling their responsibilities as digital citizens by suggesting a direction for AI utilization education for senior citizens.

임베디드 시스템에 적합한 듀얼 모드 의사 난수 생성 확장 모듈의 설계 (Dual-mode Pseudorandom Number Generator Extension for Embedded System)

  • 이석한;허원;이용석
    • 대한전자공학회논문지SD
    • /
    • 제46권8호
    • /
    • pp.95-101
    • /
    • 2009
  • 난수 생성 함수는 소프트웨어를 사용한 시뮬레이션 테스트나 통신 프로토콜 검증 등 수많은 어플리케이션에 사용되어진다. 이런 상황에서 난수의 randomness는 사용 어플리케이션에 따라서 다르게 필요할 수 있다. 반드시 randomness가 보장된 랜덤 함수를 통한 고품질의 난수를 생성해야 할 때가 있고, 단지 난수와 비슷한 형태를 가진, randomness가 보장되지 않은 난수가 필요할 때도 있다. 본 논문에서는 고속으로 동작하는 임베디드 시스템을 위한 듀얼 모드로 동작하는 하드웨어 난수 생성기를 제안하였다. 모드 1 에서는 높은 randomness를 가지는 난수를 6사이클마다 한 번씩 생성하게 되며, 모드 2 에서는 낮은 randomness를 가지는 난수를 매 사이클마다 생성할 수 있다. 테스트를 위해, ASIP(Application Specific Instruction set Processor)를 설계하였으며, 각 모드에 맞는 명령어 세트를 설계하였다. ASIP은 LISA언어를 사용하여, 5 stage MIPS architecture를 기반으로 설계되었고, CoWare 사의 Processor Generator를 통해서 HDL코드를 생성하였으며, HDL 모델은 동부 0.18um 공정으로 Synopsys사의 Design Compiler를 통해서 합성되었다. 설계되어진 ASIP으로 난수를 생성한 결과, 하드웨어 모듈을 추가하기 전에 비해 2.0%의 면적 증가 및 239%의 성능 향상을 보였다.

Core-A: A 32-bit Synthesizable Processor Core

  • Kim, Ji-Hoon;Lee, Jong-Yeol;Ki, Ando
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제4권2호
    • /
    • pp.83-88
    • /
    • 2015
  • Core-A is 32-bit synthesizable processor core with a unique instruction set architecture (ISA). In this paper, the Core-A ISA is introduced with discussion of useful features and the development environment, including the software tool chain and hardware on-chip debugger. Core-A is described using Verilog-HDL and can be customized for a given application and synthesized for an application-specific integrated circuit or field-programmable gate array target. Also, the GNU Compiler Collection has been ported to support Core-A, and various predesigned platforms are well equipped with the established design flow to speed up the hardware/software co-design for a Core-A-based system.

공업계열 전문계고등학교 '디지털 논리 회로' 수업에서 PSpice를 이용한 수업의 효과 (The Effect of the Instruction Using PSpice Simulation in 'Digital Logic Circuit' Subject at Industrial High School)

  • 최승우;우상호;김진수
    • 대한공업교육학회지
    • /
    • 제33권1호
    • /
    • pp.149-168
    • /
    • 2008
  • 이 연구의 목적은 공업계열 전문계고등학교의 디지털 논리 회로 과목에서 '조합 논리 회로'단원에 시뮬레이션 수업을 적용하여 학생들의 디지털 논리회로에 대한 학업성취도에 미치는 효과를 알아보는 데 있다. 이 연구를 위해 경상북도에 소재한 공업계열 전문계고등학교 3학년 2개 학급을 실험 집단과 통제 집단으로 선정하였고, 3개의 영가설을 설정하여 검증하였다. 실험 설계는 이질통제집단 전후검사 설계를 사용하였다. 실험은 총 6차시에 걸쳐 이루어 졌으며, 실험 집단에는 PSpice 시뮬레이션 수업을 적용한 후 브레드보드를 이용한 실습을 실시하였고, 통제 집단에는 전통적인 강의식 수업을 적용한 후 브레드보드를 이용한 실습을 실시하였다. 자료의 통계 처리는 SPSSWIN (ver 10.0) 프로그램을 사용하였고, 두 집단의 평균 차이가 통계적으로 유의미한지 알아보기 위해 유의수준 .05로 설정하여 독립표본 t-검증을 하였다. 이 연구에서 얻어진 결론은 다음과 같다. 첫째, 시뮬레이션 수업은 집단 유형에 따른 학업성취 전체 영역에 대해서는 효과적인 수업 방법이라고 할 수 없다. 그러나 심동적 영역에서는 학업 성취도 향상에 효과적이었다. 둘째, 시뮬레이션 수업은 학업 수준에 따른 학업성취 전체 영역에 대해서는 효과적인 수업 방법이라고 할 수 없다. 그러나 인지적 영역과 심동적 영역에서는 중 하위 집단에, 정의적 영역에서는 하위 집단에 효과적이었다. 셋째, 시뮬레이션 수업은 실습 소요 시간의 단축에 효과적인 수업 방법이라고 할 수 없다. 그러나 하위 집단의 실습 소요 시간의 단축에는 효과적이었다. 이상의 연구 결과 시뮬레이션 수업은 주로 심동적 영역에서 효과적이었고, 상위 집단보다는 하위 집단으로 갈수록 학업 성취에 있어서 효과적이라는 것을 알 수 있었다. 그러므로 다양한 교수 학습 방법을 활용함으로써 학습 효과를 높일 수 있다는 점을 시사해 준다.

데이터 전송을 위한 전용 명령어 및 I/O 포트를 탑재한 8051 마이크로콘트롤러의 설계 (Design of an 8051 Microcontroller With Application-Specific Instructions and I/O Ports for Data Transmission)

  • 김지혜;이성수
    • 전기전자학회논문지
    • /
    • 제19권4호
    • /
    • pp.625-631
    • /
    • 2015
  • 본 논문에서는 데이터 전송을 위한 전용 명령어 및 I/O 포트를 탑재한 8051 마이크로콘트롤러를 설계하였다. 설계된 8051마이크로콘트롤러는 외부 디바이스를 제어하고 데이터를 주고받기 위해 2개의 UART 포트와 1개의 SMBus 포트를 탑재하였으며, 이들 포트를 운용하기 위한 전용 명령어를 개발하여 명령어 집합에 추가하였다. 이에 따라 여러 디바이스를 동시에 제어하고 데이터를 전송할 수 있으며, 응용 프로그램의 코드 크기도 줄일 수 있다. 특히, 다수의 디바이스와 데이터를 주고받는 동안에도 마이크로콘트롤러가 멈추지 않고 다른 프로그램을 수행할 수 있어서 동작 효율을 크게 향상할 수 있다. 0.18 um 공정에서 합성한 결과, 전용 명령어 추가로 인한 하드웨어 크기 증가는 무시할만하며, 모든 명령어 및 I/O 포트가 정상적으로 동작하는 것을 FPGA 보드에서 확인하였다.

Homogeneous Transformation Matrix의 곱셈을 위한 병렬구조 프로세서의 설계 (A Parallel-Architecture Processor Design for the Fast Multiplication of Homogeneous Transformation Matrices)

  • 권두올;정태상
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제54권12호
    • /
    • pp.723-731
    • /
    • 2005
  • The $4{\times}4$ homogeneous transformation matrix is a compact representation of orientation and position of an object in robotics and computer graphics. A coordinate transformation is accomplished through the successive multiplications of homogeneous matrices, each of which represents the orientation and position of each corresponding link. Thus, for real time control applications in robotics or animation in computer graphics, the fast multiplication of homogeneous matrices is quite demanding. In this paper, a parallel-architecture vector processor is designed for this purpose. The processor has several key features. For the accuracy of computation for real application, the operands of the processors are floating point numbers based on the IEEE Standard 754. For the parallelism and reduction of hardware redundancy, the processor takes column vectors of homogeneous matrices as multiplication unit. To further improve the throughput, the processor structure and its control is based on a pipe-lined structure. Since the designed processor can be used as a special purpose coprocessor in robotics and computer graphics, additionally to special matrix/matrix or matrix/vector multiplication, several other useful instructions for various transformation algorithms are included for wide application of the new design. The suggested instruction set will serve as standard in future processor design for Robotics and Computer Graphics. The design is verified using FPGA implementation. Also a comparative performance improvement of the proposed design is studied compared to a uni-processor approach for possibilities of its real time application.

RISC-V 프로세서의 FPGA 구현 및 검증 (FPGA Implementation and Verification of RISC-V Processor)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권5호
    • /
    • pp.115-121
    • /
    • 2023
  • RISC-V는 오픈소스 명령어집합 아키텍처로, 누구나 자유롭게 RISC-V 마이크로프로세서를 설계하고 구현할 수 있다. 본 논문에서는 RISC-V 아키텍처를 설계하고 시뮬레이션한 후, FPGA에 구현 및 합성하고 로직아날라이저(ILA)를 이용하여 검증하였다. RISC-V 코어는 SystemVerilog로 작성되어 효율적인 설계와 높은 재사용성을 나타내며, 다양한 응용 분야에서 사용 가능하다. Vivado를 사용하여 Ultra96-V2 FPGA보드에 합성함으로써 RISC-V 코어를 하드웨어로 구현하였고, 통합로직아날라이저(ILA)를 통해 설계의 정확성과 동작을 검증하였다. 실험 결과, 설계된 RISC-V 코어는 기대한 동작을 수행함을 확인하였으며, 이러한 연구 결과는 RISC-V 기반 시스템 설계와 검증에 중요한 기여를 할 수 있다.

Content-Addressable Memory를 이용한 확장 가능한 범용 병렬 Associative Processor 설계 (Design of a scalable general-purpose parallel associative processor using content-addressable memory)

  • 박태근
    • 대한전자공학회논문지SD
    • /
    • 제43권2호
    • /
    • pp.51-59
    • /
    • 2006
  • 일반 컴퓨터에서 중앙처리장치와 메모리 사이의 병목현상인 "Von Neumann Bottleneck"을 보이는데 본 논문에서는 이러한 문제점을 해소하고 검색위주의 응용분야에서 우수한 성능을 보이는 Content-addressable memory(CAM) 기반의 확장 가능한 범용 Associative Processor(AP) 구조를 제안하였다. 본 연구에서는 Associative computing을 효율적으로 수행할 수 있는 명령어 세트를 제안하였으며 다양하고 대용량 응용분야에도 적용할 수 있도록 구조를 확장 가능하게 설계함으로써 유연한 구조를 갖는다. 12 가지의 명령어가 정의되었으며 프로그램이 효율적으로 수행될 수 있도록 명령어 셋을 구성하고 연속된 명령어를 하나의 명령어로 구현함으로써 처리시간을 단축하였다. 제안된 프로세서는 bit-serial, word-parallel로 동작하며 대용량 병렬 SIMD 구조를 갖는 32 비트 범용 병렬 프로세서로 동작한다. 포괄적인 검증을 위하여 명령어 단위의 검증 뿐 아니라 최대/최소 검색, 이상/이하 검색, 병렬 덧셈 등의 기본적인 병렬 알고리즘을 검증하였으며 알고리즘은 처리 데이터의 개수와는 무관한 상수의 복잡도 O(k)를 갖으며 데이터의 비트 수만큼의 이터레이션을 갖는다.

AE32000B: a Fully Synthesizable 32-Bit Embedded Microprocessor Core

  • Kim, Hyun-Gyu;Jung, Dae-Young;Jung, Hyun-Sup;Choi, Young-Min;Han, Jung-Su;Min, Byung-Gueon;Oh, Hyeong-Cheol
    • ETRI Journal
    • /
    • 제25권5호
    • /
    • pp.337-344
    • /
    • 2003
  • In this paper, we introduce a fully synthesizable 32-bit embedded microprocessor core called the AE32000B. The AE32000B core is based on the extendable instruction set computer architecture, so it has high code density and a low memory access rate. In order to improve the performance of the core, we developed and adopted various design options, including the load extension register instruction (LERI) folding unit, a high performance multiply and accumulate (MAC) unit, various DSP units, and an efficient coprocessor interface. The instructions per cycle count of the Dhrystone 2.1 benchmark for the designed core is about 0.86. We verified the synthesizability and the area and time performances of our design using two CMOS standard cell libraries: a 0.35-${\mu}m$ library and a 0.18-${\mu}m$ library. With the 0.35-${\mu}m$ library, the core can be synthesized with about 47,000 gates and operate at 70 MHz or higher, while it can be synthesized with about 53,000 gates and operate at 120 MHz or higher with the 0.18-${\mu}m$ library.

  • PDF