• Title/Summary/Keyword: 프로세서 구조

Search Result 1,042, Processing Time 0.03 seconds

Unfolding Nested Loops of Functional Languages for Multithreaded Architectures (다중스레드 구조를 위한 함수형 언어의 중첩루프 펼침)

  • 하상호
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.11
    • /
    • pp.826-836
    • /
    • 2002
  • We need an enormous amount of memories for name spaces as well as additional processors if we are to effectively exploit a massively parallelism in nested loops of functional languages such as Id. If there is no sufficient amount of memories enough to exploit that parallelism, the execution of programs can be aborted during the unfolding of loops. Additionally, if loops are overunfolded, compared with the number of processors available, the system performance can be degraded severely due to the overhead of loop unfolding. This paper suggests and analyzes an algorithm which can be used to effectively unfold nested loops of functional languages on multithreaded architectures. This algorithm has a feature to unfold a given nested loop safely and near optimally, considering the system resources of processors and memories available when the loop is to be unfolded.

Fast Fourier Transform Processor based on Low-power and Area-efficient Algorithm (저 전력 및 면적 효율적인 알고리즘 기반 고속 퓨리어 변환 프로세서)

  • Oh Jung-yeol;Lim Myoung-seob
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.42 no.2 s.302
    • /
    • pp.143-150
    • /
    • 2005
  • This paper proposes a new $radix-2^4$ FFT algorithm and an efficient pipeline architecture based on this new algorithm for OFDM systems. The pipeline architecture based on the new algorithm has the same number of multipliers as that of the $radix-2^2$ algorithm. However, the multiplier complexity could be reduced by more than $30\%$ by replacing one half of the programmable complex multipliers by the newly proposed CSD constant complex multipliers. From synthesis simulations of a standard 0.35um CMOS Samsung process, a proposed CSD constant complex multiplier achieved more than $60\%$ area efficiency when compared with the conventional programmable complex multiplier. This promoted efficiency can be used for the design of a long length FFT processor in wireless OFDM applications which needs more power and area efficiency.

Efficient Scheduling Schemes for Low-Area Mixed-radix MDC FFT Processor (저면적 Mixed-radix MDC FFT 프로세서를 위한 효율적인 스케줄링 기법)

  • Jang, Jeong Keun;Sunwoo, Myung Hoon
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.54 no.7
    • /
    • pp.29-35
    • /
    • 2017
  • This paper presents a high-throughput area-efficient mixed-radix fast Fourier transform (FFT) processor using the efficient scheduling schemes. The proposed FFT processor can support 64, 128, 256, and 512-point FFTs for orthogonal frequency division multiplexing (OFDM) systems, and can achieve a high throughput using mixed-radix algorithm and eight-parallel multipath delay commutator (MDC) architecture. This paper proposes new scheduling schemes to reduce the size of read-only memories (ROMs) and complex constant multipliers without increasing delay elements and computation cycles; thus, reducing the hardware complexity further. The proposed mixed-radix MDC FFT processor is designed and implemented using the Samsung 65nm complementary metal-oxide semiconductor (CMOS) technology. The experimental result shows that the area of the proposed FFT processor is 0.36 mm2. Furthermore, the proposed processor can achieve high throughput rates of up to 2.64 GSample/s at 330 MHz.

Performance Comparison of DCT Algorithm Implementations Based on Hardware Architecture (프로세서 구조에 따른 DCT 알고리즘의 구현 성능 비교)

  • Lee Jae-Seong;Pack Young-Cheol;Youn Dae-Hee
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.31 no.6C
    • /
    • pp.637-644
    • /
    • 2006
  • This paper presents performance and implementation comparisons of standard and fast DCT algorithms that are commonly used for subband filter bank in MPEG audio coders. The comparison is made according to the architectural difference of the implementation hardware. Fast DCT algorithms are known to have much less computational complexity than the standard method that involves computing a vector dot product of cosine coefficient. But, due to structural irregularity, fast DCT algorithms require extra cycles to generate the addresses for operands and to realign interim data. When algorithms are implemented using DSP processors that provide special operations such as single-cycle MAC (multiply-accumulate), zero-overhead nested loop, the standard algorithm is more advantageous than the fast algorithms. Also, in case of the finite-precision processing, the error performance of the standard method is far superior to that of the fast algorithms. In this paper, truncation errors and algorithmic suitability are analyzed and implementation results are provided to support the analysis.

An Energy Efficient and High Performance Data Cache Structure Utilizing Tag History of Cache Addresses (캐시 주소의 태그 이력을 활용한 에너지 효율적 고성능 데이터 캐시 구조)

  • Moon, Hyun-Ju;Jee, Sung-Hyun
    • The KIPS Transactions:PartA
    • /
    • v.14A no.1 s.105
    • /
    • pp.55-62
    • /
    • 2007
  • Uptime of embedded processors for mobile devices are dependent on battery consumption. Especially the large portion of power consumption is known to be due to cache management in embedded processors. This paper proposes an energy efficient data cache structure for high performance embedded processors. High performance prefetching data cache issues prefetching instructions before issuing demand-fetch instructions based on reference predictions. These prefetching instruction bring reduction on memory delay by improving cache hit ratio, but on the other hand those increase energy consumption in proportion to the number of prefetching instructions. In this paper, we adopt tag history table on prefetching data cache for reducing energy consumption by minimizing parallel tag comparison. Experimental results show the proposed data cache improves performance on energy consumption as well as memory delay.

Realization of the Pulse Doppler Radar Signal Processor with an Expandable Feature using the Multi-DSP Based Morocco-2 Board (다중 DSP 구조의 Morocco-2 보드를 이용한 확장성을 갖는 펄스 도플러 레이다 신호처리기 구현)

  • 조명제;임중수
    • The Journal of Korean Institute of Electromagnetic Engineering and Science
    • /
    • v.12 no.7
    • /
    • pp.1147-1156
    • /
    • 2001
  • In this paper, a new design architecture of radar signal processor in real time is proposed. It has been designed and implemented under the consideration to minimize the inter-processor communication overhead and to maintain the coherence in Doppler pulse domain and in range domain. Its structure can be easily reconfigured and reprogrammed in accordance with an addition of function algorithm or a modification of operational scenario. As we designed a task configuration for parallel processing from measures of computation time for function algorithms and transmission time for results by signal processing, data exchange between processors for performing of function algorithms could be fully removed. Morocco-2 board equipped ADSP-21060 processor of Analog Devices inc. and APEX-3.2 developed for SHARC DSP were used to construct the radar signal processor.

  • PDF

A Study Context Aware Middle for Decision of Human Behavior Pattern (인간 행동패턴 결정을 위한 상황인식 미들웨어에 대한 연구)

  • 최순용;최종화;신동일;신동규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.538-540
    • /
    • 2004
  • 이 논문에서 제안된 인간행동패턴 결정을 위한 상황인식 미들웨어는 Intelligent Home환경에서 인간과 Home환경과의 지능적인 Agent로써의 역할을 담당한다. 우리는 제시된 논문에서 인간행동패턴 결정을 위한 상황인식 미들웨어의 아키텍처를 제안하고 상황인식 미들웨어 내에서 동작하는 인간행동패턴 학습 및 결정 프로세서에 대한 구조와 구현내용에 대한 설명을 한다. 인간행동패턴을 결정하기 위한 기본 컨텍스트들을 환경 컨텍스트와 생체 컨텍스트로 크게 두 그룹으로 분리하였고 각 그룹은 세 개의 컨텍스트를 포함하고 있다. 환경과 생체로 나뉘어진 총 6개의 컨텍스트들을 정의하고 그 구성에 대하여 설명한다. 또한 컨텍스트는 9단계로 정규화 되어 상황인식 미들웨어에서의 다음 단계인 인간행동패턴 학습 및 결정 프로세서로 정규화 된 값을 전달된다. 인간행동패턴 학습 및 결정 프로세서에서는 패턴인식에 대한 세부사항을 설명한다.

  • PDF

Interconnection Network Interfaces in Parallel Computer Systems (병렬 컴퓨터 시스템에서의 상호연결망 인터페이스)

  • Mo, Sang-Man;Sin, Sang-Seok;Han, U-Jong;Yun, Seok-Han
    • Electronics and Telecommunications Trends
    • /
    • v.12 no.5 s.47
    • /
    • pp.62-72
    • /
    • 1997
  • 상호연결망 인터페이스는 병렬 컴퓨터 시스템에서 노드 또는 프로세서를 상호연결망에 연결하는 다리 역할을 수행하는 정합 장치로서, 상호연결망으로 메시지를 송수신하는 기능을 수행한다. 본 논문에서는 상호연결망 인터페이스의 구조와 동작, 프로세서와의 인터페이스, 여러 종류의 상호 연결망 인터페이스에 대한 사례조사 결과, 상호연결망 인터페이스의 성능 및 설계 고려사항 등을 기술 한다. 상호연결망 인터페이스 설계의 초점은 상호연결망 인터페이스가 시스템의 병목지점이 되지 않도록 하는데 맞추어져야 하며, 이를 위하여 응용 분야를 충분히 고려하고 전송 대역폭을 극대화하고 지연 시간을 최소화하도록 구현되어야 한다. 또한, 오류 제어를 통하여 높은 전송 신뢰도를 제공하고, 효율적인 프로세서 인터페이스 및 프로그래밍 인터페이스를 제공해야 한다.

Heterogeneous Multi-Core Processor and Software Technology Trend for Embedded Devices (임베디드 기기를 위한 이기종 멀티코어 프로세서 및 소프트웨어 기술 동향)

  • Na, G.J.;Baek, W.K.;Jung, Y.J.
    • Electronics and Telecommunications Trends
    • /
    • v.28 no.2
    • /
    • pp.1-10
    • /
    • 2013
  • 1980년대와 1990년대가 서버와 데스크톱 중심 컴퓨팅의 시대였다고 한다면 2000년대 들어 모바일 분야를 포함하는 임베디드 프로세서 시장이 급격히 확장되며 임베디드 중심 시대로 산업구조가 재편되고 있다. 그리고, 2010년대에는 임베디드 프로세서 시장이 더욱 확대되고 기술도 더불어 발전되고 있는데, 최근 기술을 주도하고 있는 뜨거운 용어 중의 하나가 이기종 멀티코어 컴퓨팅이라 할 수 있다. 시장이 요구하는 고성능 컴퓨팅을 수용하고 임베디드 기기의 특성상 저전력을 실현해야 하는 현실적 문제를 해결하기 위한 이기종 멀티코어 하드웨어가 임베디드 기기에도 적용을 앞다투고 있는 상황이며, 적절한 응용 콘텐츠에 맞춰 이기종 멀티코어 하드웨어를 활용하기 위한 소프트웨어에 대한 관심과 발전도 발 맞춰 진행되고 있다. 이에 본고에서는 임베디드 기기 분야에 한정하여 이기종 멀티코어 하드웨어와 소프트웨어의 기술 동향을 살펴보고자 한다.

  • PDF

Microserver Market and Technology Trends (마이크로서버 기술동향)

  • Kwon, W.O.;Kim, H.Y.;Kim, Y.U.;Choi, Y.S.;Jung, Y.U.;Jung, B.K.;Oh, M.H.;Park, C.H.;Kwon, H.J.
    • Electronics and Telecommunications Trends
    • /
    • v.29 no.4
    • /
    • pp.49-58
    • /
    • 2014
  • 마이크로프로세서 기술의 발전으로 멀티코어 저전력 x86 및 ARM CPU 기반의 마이크로서버가 출현하였다. 초기 마이크로서버는 기존 서버보다 작은 크기에 단순 집적도를 높인 구조에서 내 외부 스위치와 스토리지, 관리, 내부 연결망까지 기존의 랙 시스템을 대체 할 마이크로서버가 시장에 출시되고 있다. 특히 마이크로서버 시장에 ARM 프로세서의 가세로 x86 프로세서와 치열한 경쟁이 예상되고 있다. 본고를 통하여 마이크로서버의 특징과 시장, 제품 등에 관해서 살펴보도록 한다.

  • PDF