• 제목/요약/키워드: many-core processor

검색결과 55건 처리시간 0.021초

임베디드 SoC를 위한 Bus-splitting 기법 적용 ECC 보안 프로세서의 구현 (An Implementation of ECC(Elliptic Curve Cryptographic)Processor with Bus-splitting method for Embedded SoC(System on a Chip))

  • 최선준;장우영;김영철
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.651-654
    • /
    • 2005
  • In this paper, we designed ECC(Elliptic Curve Cryptographic) Processor with Bus-splitting mothod for embedded SoC. ECC SIP is designed by VHDL RTL modeling, and implemented reusably through the procedure of logic synthesis, simulation and FPGA verification. To communicate with ARM9 core and SIP, we designed SIP bus functional model according to AMBA AHB specification. The design of ECC Processor for platform-based SoC is implemented using the design kit which is composed of many devices such as ARM9 RISC core, memory, UART, interrupt controller, FPGA and so on. We performed software design on the ARM9 core for SIP and peripherals control, memory address mapping and so on.

  • PDF

초음파 영상선호의 크기 변화에 따른 최적의 매니코어 프로세서 구조 (Optimal Many-core Processor Architecture for Different Ultrasonic Image Resolutions)

  • 강성모;김종면
    • 융합신호처리학회논문지
    • /
    • 제13권1호
    • /
    • pp.50-55
    • /
    • 2012
  • 본 논문은 휴대용 초음파 진단기기에서 초음파 영상 크기 변화에 따라 요구되어지는 저전력 및 고성능을 만족시키기 위한 최적의 매니코어 프로세서 구조를 제안한다. 이를 위해 본 논문에서는 매니코어 프로세서 코어의 구조를 데이터의 크기에 따라 최대 일곱 가지의 프로세싱 엘리먼트(Processing Element, PE) 모델에서 성능 변화 및 전력 소모를 측정하였다. 모의실험 결과, 에너지 효율은 $256{\times}256$, $320{\times}240$, $800{\times}480$ 해상도를 갖는 영상에서 PE 수가 각각 1,024개, 64개, 256개 일 때 가장 높았다. 또한 $256{\times}256$$800{\times}480$ 해상도의 영상에서는 PE 수가 256개, $320{\times}240$ 해상도의 영상에서는 64개에서 가장 높은 면적 효율을 보였다.

PARSEC을 이용한 TILE-Gx36 다중코어 프로세서의 성능 평가 및 분석 (Performance evaluation and analysis of TILE-Gx36 many-core processor with PARSEC benchmark)

  • 이보선;김한이;유헌창;서태원
    • 컴퓨터교육학회논문지
    • /
    • 제17권1호
    • /
    • pp.107-115
    • /
    • 2014
  • 본 논문은 다중코어의 성능을 평가하고 분석하기 위해 TILE-Gx36(Gx36) 다중코어 프로세서를 사례로 연구하였다. Gx36의 성능 평가는 비교적 최신 병렬 벤치마크인 PARSEC을 이용하였고, 성능 분석을 돕기 위한 비교 시스템으로 인텔의 Core i7 (i7)과 Atom을 사용하였다. 실험결과 2의 제곱으로 동시에 수행 가능한 스레드를 발생시켰을 때, Gx36은 i7보다 평균 2.73배 낮은 성능을 보였으며, Atom보다는 평균 1.93배 높은 성능을 보였다. Gx36은 비교 프로세서보다 상대적으로 큰 Last-Level Cache(LLC)를 갖고 있음에도 불구하고, 가장 많은 LLC miss를 발생시켰다. 이는 Gx36이 기대치 이하의 성능을 보이는 주된 이유로 판단되며, DDC가 일반적 고성능 컴퓨팅을 위한 캐시구조로 적절하지 않음을 보여준다. 다중코어 시스템의 실측을 통한 성능평가는 향후 다중코어 구조개선 및 올바른 방향 설정을 위한 객관적인 자료를 제공한다.

  • PDF

기타 음 합성을 위한 최적의 SIMD기반 매니코어 프로세서 구현 (Implementation of an Optimal SIMD-based Many-core Processor for Sound Synthesis of Guitar)

  • 최지원;강명수;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권1호
    • /
    • pp.1-10
    • /
    • 2012
  • 프로세서는 더 이상 동작 주파수를 높이는 방법이 아닌 다수의 프로세서를 집적하는 멀티프로세서로 기술 발전이 이루어지고 있다. 최근 2, 4, 8개의 프로세서 코어를 넘어 64, 128개 이상의 프로세서를 집적한 대규모 데이터 처리용 고성능 프로세서들이 개발되고 있다. 본 논문에서는 기타의 음 합성을 위한 최적의 매니코어 프로세서 구조를 제안한다. 기존의 연구에서는 하나의 기타 현에 하나의 프로세싱 엘리먼트(processing element, PE)를 할당하여 음을 합성하였으나, 본 논문은 하나의 기타 현에 여러 개의 PE를 할당하고 각각의 경우에 대해 시스템 성능, 시스템 면적 효율 및 에너지 효율을 평가하였다. 샘플링율이 44.1kHz, 양자화 비트 16인 기타 음을 사용하여 모의 실험한 결과, 시스템 면적 효율은 PE 수가 24개, 에너지 효율은 PE 수가 96개일 때 각각 최적의 효율을 보였다. 또한, 최적의 매니코어 프로세서를 이용하여 합성한 결과 합성음은 원음과 스펙트럼에서 매우 유사하였다. 더불어, 음 합성에 가장 많이 사용되는 TI TMS320C6416보다 시스템 면적에서 1,235배, 에너지 효율에서 22배의 향상을 보였다.

멀티코어 프로세서에서의 효율적인 메시지 스캐터링 지원 기법 (High Performance Message Scattering Algorithm in Multicore Processor)

  • 박종수
    • Journal of Platform Technology
    • /
    • 제10권2호
    • /
    • pp.3-9
    • /
    • 2022
  • 본 논문에서는 멀티코어 프로세서 및 매니코어 프로세서에서의 스캐터 통신 성능을 최대화 하기 위하여 프로세싱 노드의 통신채널 상태를 고려하는 기법을 32개 코어로 구성된 멀티코어 프로세서에 적용하였다. 기존의 스캐터 알고리즘은 프로세싱 노드들의 통신채널 상태를 확인할 수 없기 때문에 일반적으로 초기 셋팅 된 전송순서에 따라서 통신을 수행한다. 이 경우 프로세서 내부의 모든 프로세싱 노드에서 기존 수행 중인 통신이 종료된 후에야 스캐터 통신이 시작되는데, 이때 발생하는 전송 대기 시간을 줄임으로서 스캐터 통신 성능을 향상 시킬 수 있다. 본 기법에 의하여 스캐터 통신 성능이 향상되었고, BFM 시뮬레이션을 통하여 기존 알고리즘 대비 최대 78.93%의 성능 향상이 있음을 확인하였다.

통신 프로세스의 프로세서 친화도 결정을 위한 최적화 도구 (An Optimization Tool for Determining Processor Affinity of Networking Processes)

  • 조중연;진현욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.131-136
    • /
    • 2013
  • 멀티코어 프로세서는 다수의 컴퓨팅 코어를 제공해줌으로써 응용 프로세스들의 병렬성을 증대시키고 전체 시스템의 처리율을 크게 향상시켜주고 있다. 최근 멀티코어의 구조적인 특징에 의해서 프로세서 친화도에 따른 네트워크 I/O 성능 차이를 관찰하고, 많은 연구자들이 최적의 프로세서 친화도를 결정하기 위한 연구를 진행하고 있다. 기존의 동적 프로세서 친화도 결정 기법은 응용 프로그램의 수정과 시스템 사양 변경에 투명하게 대처할 수 있으나, 각 응용 프로그램의 고유 특성과 경험을 통해서 수집할 수 있는 정보를 충분히 얻을 수 없다는 제한사항이 있다. 따라서 최적의 프로세서 친화도를 제공하기 어렵다. 본 연구는 프로세서 친화도 결정을 위해서 의미 있는 시스템 변수를 획득하고 최적의 친화도 결정을 지원하기 위한 도구를 제안한다. 구현된 도구는 동적 친화도 결정에 활용되어 그 한계를 극복하고 더 높은 네트워크 대역폭을 제공할 수 있음을 보인다.

멀티코어 환경에서 비실시간 메시지의 응답시간 지연을 최소화하는 리눅스 기반 메시지 처리기의 설계 및 구현 (Design and Implementation of a Linux-based Message Processor to Minimize the Response-time Delay of Non-real-time Messages in Multi-core Environments)

  • 왕상호;박영훈;박성용;김승춘;김철회;김상준;진철
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.115-123
    • /
    • 2017
  • 메시지 처리기란 다양한 클라이언트로부터 오는 메시지를 받아 처리하는 서버 소프트웨어이며, 메시지의 종류에 따라 마감기한 이내에 처리해야 하는 실시간 메시지와 비실시간 메시지를 처리한다. 최근 마이크로프로세서 기술의 발전과 리눅스의 빠른 보급에 따라 메시지 처리기는 멀티코어 기반의 리눅스 서버에서 구현되고 있으며, 멀티코어 환경에서는 코어를 효율적으로 사용해야 시스템의 성능을 극대화 시킬 수 있다. 멀티코어를 효율적으로 사용하기 위한 다양한 실시간 스케줄러가 제안되어 있지만, 많은 연구들이 이론적 분석이나 시뮬레이션에 국한되어 있고, 리눅스를 위해 제안된 일부 알고리즘들도 커널을 수정하거나 특정 커널 버전에서만 동작된다는 단점이 있다. 본 논문에서는 멀티코어 환경에서 쓰레드를 사용자 수준에서 코어에 직접 매핑하는 리눅스 기반 메시지 처리기의 구조를 제안한다. 구현된 메시지 처리기에서는 기존의 RM(Rate Monotonic) 알고리즘을 수정하여 사용하였고, 특정 코어에 최대한 실시간 메시지를 몰아서 처리하도록 First fit 기반의 빈패킹(Bin-Packing) 알고리즘을 사용하여, 실시간 메시지의 위배율을 보장하면서 비실시간 메시지의 응답시간의 지연을 최소화하였다. 성능평가를 위하여 LITMUS 프레임 워크에서 제공하는 2가지 멀티코어 스케줄링 알고리즘(GSN-EDF, P-FP)을 이용하여 메시지 처리기를 구현한 후 제안된 시스템과 비교한 결과, 비실시간 메시지의 응답시간이 2가지 알고리즘 대비 최대 17~18%까지 향상되는 것을 확인하였다.

멀티 코어 시스템에서 통신 프로세스의 동적 스케줄링 (Dynamic Scheduling of Network Processes for Multi-Core Systems)

  • 장혜천;진현욱;김학영
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권12호
    • /
    • pp.968-972
    • /
    • 2009
  • 멀티 코어 프로세서는 현재 많은 고성능 서버에 적용되어 사용되고 있다. 최근 이들 서버는 점차 높은 네트워크 대역폭 활용을 요구하고 있다. 이러한 요구를 만족시키기 위해서는 멀티 코어를 효율적으로 활용하여 네트워크 처리율을 향상시키는 방안이 필요하다. 그러나 현재 운영체제들은 멀티 코어 시스템을 멀티 프로세서 환경과 거의 동일하게 다루고 있으며 아직 멀티 코어의 고유 특성을 고려한 성능 최적화 시도는 미흡한 상태이다. 이러한 문제를 해결하기 위해서 본 논문에서는 멀티 코어의 특성을 최대한으로 고려하여 프로세스 스케줄링을 결정함으로써 통신 성능을 향상시키는 방안에 대해서 연구한다. 제안되는 프로세스 스케줄링은 멀티 코어 프로세서의 캐쉬 구조, 프로세스의 통신 집중도, 그리고 각 코어의 부하를 기반으로 해당 프로세스에게 최적의 코어를 결정하고 스케줄링한다. 제안된 기법은 리눅스 커널에 구현되었으며 측정 결과는 최신 리눅스 커널의 네트워크 처리율을 20%까지 향상시켰으며 프로세서 자원은 55% 더 절약할 수 있음을 보인다.

임베디드 병렬 프로세서 상에서 MMX타입 명령어의 성능평가 및 검증 (Performance Evaluation and Verification of MMX-type Instructions on an Embedded Parallel Processor)

  • 정용범;김용민;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권10호
    • /
    • pp.11-21
    • /
    • 2011
  • 본 논문에서는 멀티미디어에 내재한 무수한 데이터를 효율적으로 처리할 수 있는 SIMD(Single Instruction Multiple Data) 기반 병렬 프로세서를 소개한다. 또한, 인텔사의 대표적인 멀티미디어 전용 명령어인 MMX (MultiMedia eXtension)타입 명령어를 병렬 프로세서에 구현하여 성능을 평가하고 결과를 분석한다. 16개의 32-비트 프로세서로 구성된 병렬프로세서를 이용하여 1280x1024픽셀 이미지의 JPEG 압축 애플리케이션을 구현하고 모의 실험한 결과, 동일한 병렬프로세서 기반에서 MMX타입 명령어는 베이스라인 명령어보다 약 50%의 성능 향상을 보였다. 또한, MMX타입 명령어는 베이스라인 명령어보다 에너지 효율에서 100%, 시스템 면적 효율에서 51%의 향상을 보였다. 이러한 결과는 MMX를 포함한 멀티미디어 전용 명령어들이 현재 널리 사용되고 있는 매니코어 GPU(Graphics Processing Unit) 및 다양한 형태의 병렬프로세서에서도 잠재 가능성이 있음을 보여준다.

실시간 화재 특징 추출을 위한 임베디드 매니코어 프로세서의 디자인 공간 탐색 (Design Space Exploration of Embedded Many-Core Processors for Real-Time Fire Feature Extraction)

  • 서준상;강명수;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권10호
    • /
    • pp.1-12
    • /
    • 2013
  • 본 논문에서는 많은 연산량이 요구되는 화재 특징 추출 알고리즘을 위한 최적의 매니코어 프로세서에 대한 디자인 공간을 탐색한다. 최적의 매니코어 디자인 공간을 선택하기 위해 매니코어를 구성하는 프로세서 엘리먼트 (PE)의 개수와 로컬 메모리 사이즈를 변화시키면서 시뮬레이션을 수행하여 성능, 에너지 효율 및 시스템 면적 효율에서 최적인 매니코어 구조를 결정한다. 본 논문에서는 $256{\times}256$ 해상도의 30 프레임으로 구성된 화재/비화재 비디오 영상을 대상으로 하여 움직임 검출, 색상 분할 및 이산 웨이블릿 변환으로 구성된 화재 특징 추출 알고리즘을 여섯가지 매니코어 구조(PEs=16, 64, 256, 1,024, 4,096, 16,384)를 사용하여 모의 실험한 결과, 모든 화재/비화재 비디오 영상에 대해1,024개와 4,096개의 PE를 갖는 매니코어 구조가 각각 최적의 시스템 면적 효율과 에너지 효율을 보였다. 또한, 실험에서 사용한 여섯가지 매니코어 구조 모두가 실시간 비디오 처리에서 요구되는 초당 30 프레임 처리 기준을 만족하였다.