• 제목/요약/키워드: instruction set architecture

검색결과 88건 처리시간 0.021초

Hardware Approach to Fuzzy Inference―ASIC and RISC―

  • Watanabe, Hiroyuki
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1993년도 Fifth International Fuzzy Systems Association World Congress 93
    • /
    • pp.975-976
    • /
    • 1993
  • This talk presents the overview of the author's research and development activities on fuzzy inference hardware. We involved it with two distinct approaches. The first approach is to use application specific integrated circuits (ASIC) technology. The fuzzy inference method is directly implemented in silicon. The second approach, which is in its preliminary stage, is to use more conventional microprocessor architecture. Here, we use a quantitative technique used by designer of reduced instruction set computer (RISC) to modify an architecture of a microprocessor. In the ASIC approach, we implemented the most widely used fuzzy inference mechanism directly on silicon. The mechanism is beaded on a max-min compositional rule of inference, and Mandami's method of fuzzy implication. The two VLSI fuzzy inference chips are designed, fabricated, and fully tested. Both used a full-custom CMOS technology. The second and more claborate chip was designed at the University of North Carolina(U C) in cooperation with MCNC. Both VLSI chips had muliple datapaths for rule digital fuzzy inference chips had multiple datapaths for rule evaluation, and they executed multiple fuzzy if-then rules in parallel. The AT & T chip is the first digital fuzzy inference chip in the world. It ran with a 20 MHz clock cycle and achieved an approximately 80.000 Fuzzy Logical inferences Per Second (FLIPS). It stored and executed 16 fuzzy if-then rules. Since it was designed as a proof of concept prototype chip, it had minimal amount of peripheral logic for system integration. UNC/MCNC chip consists of 688,131 transistors of which 476,160 are used for RAM memory. It ran with a 10 MHz clock cycle. The chip has a 3-staged pipeline and initiates a computation of new inference every 64 cycle. This chip achieved an approximately 160,000 FLIPS. The new architecture have the following important improvements from the AT & T chip: Programmable rule set memory (RAM). On-chip fuzzification operation by a table lookup method. On-chip defuzzification operation by a centroid method. Reconfigurable architecture for processing two rule formats. RAM/datapath redundancy for higher yield It can store and execute 51 if-then rule of the following format: IF A and B and C and D Then Do E, and Then Do F. With this format, the chip takes four inputs and produces two outputs. By software reconfiguration, it can store and execute 102 if-then rules of the following simpler format using the same datapath: IF A and B Then Do E. With this format the chip takes two inputs and produces one outputs. We have built two VME-bus board systems based on this chip for Oak Ridge National Laboratory (ORNL). The board is now installed in a robot at ORNL. Researchers uses this board for experiment in autonomous robot navigation. The Fuzzy Logic system board places the Fuzzy chip into a VMEbus environment. High level C language functions hide the operational details of the board from the applications programme . The programmer treats rule memories and fuzzification function memories as local structures passed as parameters to the C functions. ASIC fuzzy inference hardware is extremely fast, but they are limited in generality. Many aspects of the design are limited or fixed. We have proposed to designing a are limited or fixed. We have proposed to designing a fuzzy information processor as an application specific processor using a quantitative approach. The quantitative approach was developed by RISC designers. In effect, we are interested in evaluating the effectiveness of a specialized RISC processor for fuzzy information processing. As the first step, we measured the possible speed-up of a fuzzy inference program based on if-then rules by an introduction of specialized instructions, i.e., min and max instructions. The minimum and maximum operations are heavily used in fuzzy logic applications as fuzzy intersection and union. We performed measurements using a MIPS R3000 as a base micropro essor. The initial result is encouraging. We can achieve as high as a 2.5 increase in inference speed if the R3000 had min and max instructions. Also, they are useful for speeding up other fuzzy operations such as bounded product and bounded sum. The embedded processor's main task is to control some device or process. It usually runs a single or a embedded processer to create an embedded processor for fuzzy control is very effective. Table I shows the measured speed of the inference by a MIPS R3000 microprocessor, a fictitious MIPS R3000 microprocessor with min and max instructions, and a UNC/MCNC ASIC fuzzy inference chip. The software that used on microprocessors is a simulator of the ASIC chip. The first row is the computation time in seconds of 6000 inferences using 51 rules where each fuzzy set is represented by an array of 64 elements. The second row is the time required to perform a single inference. The last row is the fuzzy logical inferences per second (FLIPS) measured for ach device. There is a large gap in run time between the ASIC and software approaches even if we resort to a specialized fuzzy microprocessor. As for design time and cost, these two approaches represent two extremes. An ASIC approach is extremely expensive. It is, therefore, an important research topic to design a specialized computing architecture for fuzzy applications that falls between these two extremes both in run time and design time/cost. TABLEI INFERENCE TIME BY 51 RULES {{{{Time }}{{MIPS R3000 }}{{ASIC }}{{Regular }}{{With min/mix }}{{6000 inference 1 inference FLIPS }}{{125s 20.8ms 48 }}{{49s 8.2ms 122 }}{{0.0038s 6.4㎲ 156,250 }} }}

  • PDF

프로젝트 기반 수업으로서의 조경설계 교과목 수업계획서 분석과 개선방안 (Analysis of Syllabi for Landscape Architectural Design Courses as Project-Based Classes and Improvement Strategies)

  • 김아연
    • 한국조경학회지
    • /
    • 제44권1호
    • /
    • pp.51-65
    • /
    • 2016
  • 조경교육의 핵심인 설계 교과목의 설계도라고 볼 수 있는 수업계획서는 교육의 목표와 내용, 방법과 효과를 진단할 수 있는 중요한 매체이다. 본 연구는 국내 4년제 대학의 2, 3학년 수준 조경설계 교과목의 수업계획서를 분석하여 설계교육의 현 실태를 진단하고 이를 기반으로 개선방향을 제시하였다. 첫째, 교수와 학생 사이의 계약서이자 학습활동 과정의 설계도와 학습 도구로서의 수업계획서 기능 제고가 절실하다. 둘째, 수업계획서에서 담아야하는 정보의 양을 늘리고 서술의 구체성을 높여 학습자의 수업에 대한 이해도를 증진시켜야 한다. 셋째, 스튜디오 수업의 특수성을 반영할 수 있는 수업계획서의 세부 항목 개발과 상세한 서술이 필요하며 타 과목과의 관련성 속에서 설계스튜디오의 통합적 측면을 조망해줄 필요가 있다. 넷째, 설계수업의 특수성을 고려하여 전통적인 텍스트 중심 외의 다양한 수업 매체와 온라인 방식의 도입을 통해 쌍방향 소통 수업에 대한 고민이 필요하다. 다섯째, 수업계획서 구성 요소들 간의 상호 연관성을 강화해야 한다. 특히 수업목표와 평가기준간의 관련성, 교재 및 참고문헌과 주차별 수업활동과의 관련성이 구체적으로 제시될 필요가 있다. 마지막으로, 학생들이 공감할 수 있는 평가 기준을 상세하게 제시하고, 다양한 평가 방법을 도입하여 평가의 공정성과 투명성을 제고해야 한다.

16개의 처리기를 가진 다중접근기억장치를 위한 영상처리 알고리즘의 구현에 대한 성능평가 (Performance Analysis of Implementation on Image Processing Algorithm for Multi-Access Memory System Including 16 Processing Elements)

  • 이유진;김재희;박종원
    • 전자공학회논문지CI
    • /
    • 제49권3호
    • /
    • pp.8-14
    • /
    • 2012
  • 최근 3D TV나 영화, 증강현실과 같은 대용량 고화질의 영상 응용분야가 확산됨에 따라 빠른속도로 영상을 처리하는 것이 요구되고 있다. 여러개의 프로세서로 구성되어 병렬처리 성능을 극대화 시킬 수 있는 SIMD구조의 컴퓨터는 다양하고 많은 양의 데이터들을 처리하는 것을 가속화한다. 다중접근기억장치인 MAMS는 여러개의 PE와 고성능 SIMD 구조에 최적화된 시스템으로 MAMS는 메모리 모듈을 $M{\times}N$의 2-D array 개념을 적용하여 X, Y 좌표 및 임의의 간격으로 pq개의 데이터 각각에 수평, 수직, 대각선, 역대각선, 블록의 다양한 방식으로 충돌없이 접근하며, 이 메모리모듈(MM)의 개수 m은 pq 개수보다 큰 소수이다. MAMS-PP4는 4개의 PE와 5개의 MM로 구성되어 기존에 구현된 바 있다. 이 논문에서는 MAMS-PP4의 확장으로 16개의 PE와 17개의 MM으로 구성된 MAMS-PP16에 대한 영상처리 알고리즘의 구현과 그에 따른 성능평가에 대해 소개한다. MAMS-PP16의 인스트럭션 포맷은 64비트로 확장되어 새로 설계 되었으며 특정 어플리케이션의 추가와 새로운 인스트럭션이 포함되어 있다. 본 논문에서는 구현된 알고리즘이 수행될 수 있도록 MAMS-PP16의 시뮬레이터를 개발하였다. 이 시뮬레이터를 통해 구현된 영상처리 알고리즘을 수행함으로서 MAMS-PP16의 성능이 향상되었음을 확인하였다. 영상처리 알고리즘 중 피라미드 기법을 적용하여 수행한 결과, 캐시를 사용하는 Serial processor에서는 랜덤한 응답인 반면, 캐시를 사용하지 않는 MAMS-PP16에서 일정한 응답을 확인하였다.

$Nios^{(R)}$ II 임베디드 프로세서를 사용한 병렬처리 시스템의 설계 및 구현 (The Design and implementation of parallel processing system using the $Nios^{(R)}$ II embedded processor)

  • 이시현
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권11호
    • /
    • pp.97-103
    • /
    • 2009
  • 본 논문에서는 시스템의 변경이 많고 적은 비용으로 고성능 데이터 처리가 요구되는 응용분야에서 시스템의 유연성, 가격, 크기 및 성능을 개선하기 위한 목적으로 알테라(Altera)의 $Nios^{(R)}$ II 임베디드 프로세서(embedded processor) 4개를 사용하여 주종(master-slave)과 공유메모리(shared memory) 구조를 가지는 병렬처리 시스템을 설계하고 구현하였다. 설계한 병렬처리 시스템은 $Nios^{(R)}$ II 32bit RISC 프로세서. $SOPC^{(R)}$ Builder, $Quartus^{(R)}$ II, $ModelSim^{(R)}$으로 개발되었으며 설계한 병렬처리 시스템의 성능 평가는 $Terasic^{(R)}$사의 $DE2-70^{(R)}$ 레퍼런스 보드($Cyclone^{(R)}$ II(EP2C70F896C6N) FPGA)에서 검증하고 구현하였다. 설계한 병렬처리 시스템의 성능을 평가하기 위해서 1개, 2개, 4개의 프로세서로 512, 1,024, 2,048, 4,096, 8,192 N-point FFT(fast fourier transform) 연산을 수행하여 속도향상(Sp)과 시스템의 효율(Ep)을 평가하였다. 성능평가 결과 Sp는 1개의 프로세서를 사용한 경우에 비해서 2개의 프로세서를 사용한 경우 평균 1,8배, 4개의 프로세서를 사용한 경우에는 평균 2.4배의 속도향상을 보였다. 또한 Ep는 1개의 프로세서를 사용한 경우에는 1, 2개의 프로세서를 사용한 경우에는 평균 0.90, 4개의 프로세서를 사용한 경우에 평균 0.59를 보였다. 결과적으로 논문에서 구현된 병렬처리 시스템은 단일 프로세서를 사용하는 경우에 비해서 고성능 데이터 처리가 요구되는 분야에서 경제적인 시스템으로 구현할 수 있음을 보였다.

하드웨어 소프트웨어 통합 설계에 의한 H.263 동영상 코덱 구현 (An Efficient Hardware-Software Co-Implementation of an H.263 Video Codec)

  • 장성규;김성득;이재헌;정의철;최건영;김종대;나종범
    • 한국통신학회논문지
    • /
    • 제25권4B호
    • /
    • pp.771-782
    • /
    • 2000
  • 이 논문에서는 하드웨어와 소프트웨어의 통합 설계에 의한 H.263 동영상 코덱을 구현한다. 동영상의 부호화와 복호화를 실시간으로 수행하기 위해 동작 속도 및 응용성을 동시에 고려하여 H.263 코덱의 각 부분 중 어느 부분이 하드웨어 또는 소프트웨어로 구현된는 것이 바람직한지 결정하였다. 하드웨어로 구현하는 부분은 움직임 추정부 및 보상부와 메모리 제어부이고, 나머지 부분은 RISC (reduced instruction set computer) 프로세서를 사용하여 소프트웨어로 처리한다. 이 논문에서는 하드웨어 및 소프트웨어 모듈의 효과적인 구현 방법을 소개한다. 특히 하드웨어로 구현되는 움직임 추정부를 위해서 주변 움직임 변위의 상관성 및 계층적 탐색을 이용한 다수의 움직임 후보를 가지고 알고리즘을 사용하였으며, 이 알고리즘에 기반한 소면적 구조를 제안한다. 소프트웨어로 처리되는 DCT (discrete cosine transform) 부분의 최적화를 위해서 움직임 추정부에서 얻어진 SAD (sum of absolute difference) 값에 근거하여 DCT 이후 양자화된 계수들의 통계적 특성을 분류하는 기법을 사용한다. 제안된 방법을 실제 RISC 프로세서와 gate array를 이용하여 구\ulcorner하고, 그 성능이 우수함을 확인하였다.

  • PDF

이중 포트 메모리를 위한 효율적인 프로그램 가능한 메모리 BIST (An Efficient Programmable Memory BIST for Dual-Port Memories)

  • 박영규;한태우;강성호
    • 대한전자공학회논문지SD
    • /
    • 제49권8호
    • /
    • pp.55-62
    • /
    • 2012
  • 메모리 설계 기술과 공정 기술의 발달은 고집적 메모리의 생산을 가능하게 하였다. 전체 Systems-On-Chips(SoC)에서 내장 메모리가 차지하는 비중은 점점 증가하여 전체 트랜지스터 수의 80%~90%를 차지하고 있어, SoC에서 내장된 이중 포트 메모리에 대한 테스트 중요성이 점점 증가하고 있다. 본 논문에서는 이중 포트 메모리를 위한 다양한 테스트 알고리즘을 지원하는 새로운 micro-code 기반의 programmable memory Built-In Self-Test(PMBIST) 구조를 제안한다. 또한 제안하는 알고리즘 명령어 구조는 March 기반 알고리즘과 이중 포트 메모리 테스트 알고리즘 등의 다양한 알고리즘을 효과적으로 구현한다. PMBIST는 테스트 알고리즘을 최적화된 알고리즘 명령어를 사용하여 최소의 bit으로 구현할 수 있어 최적의 하드웨어 오버헤드를 가진다.

복수의 메모리 접근 명령어의 효율적인 이용을 통한 코드 크기의 감소 (Code Size Reduction Through Efficient use of Multiple Load/store Instructions)

  • 안민욱;조두산;백윤흥;조정훈
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권8호
    • /
    • pp.819-833
    • /
    • 2005
  • 하나의 instruction으로 여러 메모리 블록을 읽거나 쓰는 MLS(Multiple Load/store) 명령어를 사용하면 전체 코드에서 메모리 명령어의 수를 최소화해서 코드 사이즈를 축소할 수 있다. 이러한 장점 때문에 많은 마이크로 프로세서에서 이 명령어를 지원하고 있으나 현재까지 개발되어 있는 컴파일러들은 MLS 명령어의 장점을 효과적으로 이용하고 있지 못하고 있고 오직 제한적인 용도로 MLS 명령어를 사용하고 있다. 기존의 컴파일러에서 MLS 명령어를 효율적으로 지원하지 못하는 것은 일반적으로 MLS 명령어를 효과적으로 이용하기 위해서 해결해야 할 문제가 NP-hard의 범주에 속하기 때문이다. 이것은 stack frame에서 변수들에 대한 최적의 메모리 옵셋을 찾는 문제와 레지스터 할당에 관련된 복합적인 문제이다. 본 논문에서는 heuristic 기법을 효율적으로 이용하여 위에 언급된 문제를 polynomial time bound에 해결할 수 있는 기법을 제안한다.

IEEE 1500 표준 기반의 효율적인 프로그램 가능한 메모리 BIST (IEEE std. 1500 based an Efficient Programmable Memory BIST)

  • 박영규;최인혁;강성호
    • 전자공학회논문지
    • /
    • 제50권2호
    • /
    • pp.114-121
    • /
    • 2013
  • Systems-On-Chips(SoC)에서 내장 메모리가 차지하는 비중은 비약적으로 증가하여 전체 트랜지스터 수의 80%~90%를 차지하고 있어, SoC에서 내장된 메모리에 대한 테스트 중요성이 증가하고 있다. 본 논문은 다양한 테스트 알고리즘을 지원하는 IEEE 1500 래퍼 기반의 프로그램 가능한 메모리 내장 자체 테스트(PMBIST) 구조를 제안한다. 제안하는 PMBIST는 March 알고리즘 및 Walking, Galloping과 같은 non-March 알고리즘을 지원하여 높은 flexibility, programmability 및 고장 검출률을 보장한다. PMBIST는 최적화된 프로그램 명령어와 작은 프로그램 메모리에 의해 최적의 하드웨어 오버헤드를 가진다. 또한 제안된 고장 정보 처리 기술은 수리와 고장 진단을 위해 2개의 진단 방법을 효과적으로 지원하여 메모리의 수율 향상을 보장한다.