• 제목/요약/키워드: CPU clock speed

검색결과 7건 처리시간 0.022초

CPU 주파수 속도에 대한 SPEC CPU2000 성능 변화 (Performance Scalability of SPEC CPU2000 Benchmark over CPU Clock Speed)

  • 이정수;김준성
    • 전자공학회논문지CI
    • /
    • 제42권5호
    • /
    • pp.1-8
    • /
    • 2005
  • SPEC CPU2000은 CPU의 성능 측정에 중점을 둔 벤치마크 프로그램으로서 표준화에 대한 노력을 바탕으로 산학계에 널리 사용되고 있으나, 하드웨어 측면에서의 특성 분석은 미비하였다. 본 논문에서는 컴퓨터 시스템의 중요한 구성 요소 중 하나인 CPU 주파수 속도의 변화에 따른 SPEC CPU2000 벤치마크의 성능 변화를 고찰하였다. x86 구조 기반의 단일 프로세서 시스템에서 CPU 주파수 속도를 제외한 다른 구성요소를 일정하게 유지하면서 SPEC CPU2000 벤치마크 프로그램의 성능을 측정함으로써 SPEC CPU2000 벤치마크 프로그램의 특성을 시스템적 측면에서 해석하였다. 실험을 통하여 SPEC CPU2000은 CPU 주파수 속도의 변화에 대하여 유연한 성능분석이 가능하도록 개별 벤치마크 프로그램의 CPU 주파수 의존도가 고르게 분포되어 있음을 알 수 있었으며, SPEC CPU2000에 대한 시스템적 측면의 해석을 제공함으로써 SPEC CPU2000을 사용하는 연구, 개발에 있어서 기반 자료로 사용될 것으로 기대된다.

CPU 주파수 속도의 증가에 따른 SPEC CPU2000 벤치마크의 성능 변화 (Performance scalability of SPEC CPU2000 benchmark over CPU clock speed)

  • 이정수;김준성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1351-1354
    • /
    • 2003
  • 본 논문에서는 시스템 성능 향상에 상대적으로 많은 영향을 미치는 CPU 주파수 속도의 변화에 따른 SPEC CPU2000 벤치마크 프로그램의 성능의 변화를 고찰한다. x86 기반의 단일 프로세서 시스템에서 서로 다른 주파수의 CPU를 사용하여 SPEC CPU2000 벤치마크 프로그램의 성능을 측정함으로써 SPEC CPU2000벤치마크 프로그램의 특성을 시스템 적 측면에서 해석하였다. 실험을 통하여 SPEC CPU2000 벤치마크 프로그램의 성능은 CPU 주파수 속도의 변화를 유연하게 반영할 수 있도록 그 의존도가 고르게 분포되어 있음을 알 수 있다.

  • PDF

낮은 복잡도의 Deeply Embedded 중앙처리장치 및 시스템온칩 구현 (Low-Complexity Deeply Embedded CPU and SoC Implementation)

  • 박성정;박성경
    • 한국산학기술학회논문지
    • /
    • 제17권3호
    • /
    • pp.699-707
    • /
    • 2016
  • 중앙처리장치를 중심으로 하는 각종 내장형 시스템은 현재 각종 산업에 매우 광범위하게 쓰이고 있다. 특히 사물인터넷 등의 deeply embedded (심층 내장형) 시스템은 저비용, 소면적, 저전력, 빠른 시장 출시, 높은 코드 밀도 등을 요구한다. 본 논문에서는 이러한 요구 조건을 만족시키는 중앙처리장치를 제안하고, 이를 중심으로 한 시스템온칩 플랫폼을 소개한다. 제안하는 중앙처리장치는 16 비트라는 짧은 명령어로만 이루어진 확장형 명령어 집합 구조를 갖고 있어 코드 밀도를 높일 수 있다. 그리고, 다중사이클 아키텍처, 카운터 기반 제어 장치, 가산기 공유 등을 통하여 로직 게이트가 차지하는 면적을 줄였다. 이 코어를 중심으로, 코프로세서, 명령어 캐시, 버스, 내부 메모리, 외장 메모리, 온칩디버거 및 주변 입출력 장치들로 이루어진 시스템온칩 플랫폼을 개발하였다. 개발된 시스템온칩 플랫폼은 변형된 하버드 구조를 갖고 있어, 메모리 접근 시 필요한 클락 사이클 수를 감소시킬 수 있었다. 코어를 포함한 시스템온칩 플랫폼은 상위 언어 수준과 어셈블리어 수준에서 모의실험 및 검증하였고, FPGA 프로토타이핑과 통합형 로직 분석 및 보드 수준 검증을 완료하였다. $0.18{\mu}m$ 디지털 CMOS 공정과 1.8V 공급 전압 하에서 ASIC 프론트-엔드 게이트 수준 로직 합성 결과, 50MHz 동작 주파수에서 중앙처리장치 코어의 논리 게이트 개수는 7700 수준이었다. 개발된 시스템온칩 플랫폼은 초소형 보드의 FPGA에 내장되어 사물인터넷 분야에 응용된다.

모바일 디바이스를 위한 소형 CNN 가속기의 마이크로코드 기반 컨트롤러 (Microcode based Controller for Compact CNN Accelerators Aimed at Mobile Devices)

  • 나용석;손현욱;김형원
    • 한국정보통신학회논문지
    • /
    • 제26권3호
    • /
    • pp.355-366
    • /
    • 2022
  • 본 논문은 프로그램 가능한 구조를 사용하여 재구성이 가능하고 저 전력 초소형의 장점을 모두 제공하는 인공지능 가속기를 위한 마이크로코드 기반 뉴럴 네트워크 가속기 컨트롤러를 제안한다. 대상 가속기가 다양한 뉴럴 네트워크 모델을 지원하도록 마이크로코드 컴파일러를 통해 뉴럴 네트워크 모델을 마이크로코드로 변환하여 가속기의 메모리 접근과 모든 연산기를 제어할 수 있다. 200MHz의 System Clock을 기준으로 설계하였으며, YOLOv2-Tiny CNN model을 구동하도록 컨트롤러를 구현하였다. 객체 감지를 위한 VOC 2012 dataset 추론용 컨트롤러를 구현할 경우 137.9ms/image, mask 착용 여부 감지를 위한 mask detection dataset 추론용으로 구현할 경우 99.5ms/image의 detection speed를 달성하였다. 제안된 컨트롤러를 탑재한 가속기를 실리콘칩으로 구현할 때 게이트 카운트는 618,388이며, 이는 CPU core로서 RISC-V (U5-MC2)를 탑재할 경우 대비 약 65.5% 감소한 칩 면적을 제공한다.

국가 대기질 예보 시스템의 모델링(기상 및 대기질) 계산속도 향상을 위한 전산환경 최적화 방안 (Optimization of the computing environment to improve the speed of the modeling (WRF and CMAQ) calculation of the National Air Quality Forecast System)

  • 명지수;김태희;이용희;서인석;장임석
    • 한국환경과학회지
    • /
    • 제27권8호
    • /
    • pp.723-735
    • /
    • 2018
  • In this study, to investigate an optimal configuration method for the modeling system, we performed an optimization experiment by controlling the types of compilers and libraries, and the number of CPU cores because it was important to provide reliable model data very quickly for the national air quality forecast. We were made up the optimization experiment of twelve according to compilers (PGI and Intel), MPIs (mvapich-2.0, mvapich-2.2, and mpich-3.2) and NetCDF (NetCDF-3.6.3 and NetCDF-4.1.3) and performed wall clock time measurement for the WRF and CMAQ models based on the built computing resources. In the result of the experiment according to the compiler and library type, the performance of the WRF (30 min 30 s) and CMAQ (47 min 22 s) was best when the combination of Intel complier, mavapich-2.0, and NetCDF-3.6.3 was applied. Additionally, in a result of optimization by the number of CPU cores, the WRF model was best performed with 140 cores (five calculation servers), and the CMAQ model with 120 cores (five calculation servers). While the WRF model demonstrated obvious differences depending on the number of CPU cores rather than the types of compilers and libraries, CMAQ model demonstrated the biggest differences on the combination of compilers and libraries.

Haskell Eval 모나드와 Cloud Haskell 간의 성능 비교 (Performance Comparison between Haskell Eval Monad and Cloud Haskell)

  • 김연어;안형준;변석우;우균
    • 정보과학회 논문지
    • /
    • 제44권8호
    • /
    • pp.791-802
    • /
    • 2017
  • 최근 CPU 시장은 단일 코어의 속도 상승에서 코어의 수를 늘려가는 방향으로 변하고 있다. 이러한 상황에서 매니코어 프로세서의 자원을 최대한 사용할 수 있는 병렬 프로그래밍에 관한 관심이 높아지고 있다. 이 논문에서는 병렬 프로그래밍에 적합한 Haskell을 이용하여 매니코어 환경에 적합한 병렬 프로그래밍 모델을 확인하고자 한다. 이를 위해 이 논문에서는 Eval 모나드와 Cloud Haskell을 이용하여 표절 검사 병렬 프로그램과 K-평균 병렬 프로그램을 개발하였다. 그리고 개발된 프로그램을 대상으로 32코어 환경, 120코어 환경에서 성능을 측정하였다. 측정 결과 적은 코어 수에서는 Eval 모나드가 유리한 것으로 나타났다. 하지만 코어 수가 늘어남에 따라 Cloud Haskell이 실행 시간 기준으로 37%, 확장성 기준으로 134% 더 우수한 것으로 나타났다.

대규모 AC/DC 전력 시스템 실시간 EMP 시뮬레이션의 부하 분산 연구 (Analysis of Distributed Computational Loads in Large-scale AC/DC Power System using Real-Time EMT Simulation)

  • 박인권;이종후;이장;구현근;권용한
    • KEPCO Journal on Electric Power and Energy
    • /
    • 제8권2호
    • /
    • pp.159-179
    • /
    • 2022
  • Often a network becomes complex, and multiple entities would get in charge of managing part of the whole network. An example is a utility grid. While the entire grid would go under a single utility company's responsibility, the network is often split into multiple subsections. Subsequently, each subsection would be given as the responsibility area to the corresponding sub-organization in the utility company. The issue of how to make subsystems of adequate size and minimum number of interconnections between subsystems becomes more critical, especially in real-time simulations. Because the computation capability limit of a single computation unit, regardless of whether it is a high-speed conventional CPU core or an FPGA computational engine, it comes with a maximum limit that can be completed within a given amount of execution time. The issue becomes worsened in real time simulation, in which the computation needs to be in precise synchronization with the real-world clock. When the subject of the computation allows for a longer execution time, i.e., a larger time step size, a larger portion of the network can be put on a computation unit. This translates into a larger margin of the difference between the worst and the best. In other words, even though the worst (or the largest) computational burden is orders of magnitude larger than the best (or the smallest) computational burden, all the necessary computation can still be completed within the given amount of time. However, the requirement of real-time makes the margin much smaller. In other words, the difference between the worst and the best should be as small as possible in order to ensure the even distribution of the computational load. Besides, data exchange/communication is essential in parallel computation, affecting the overall performance. However, the exchange of data takes time. Therefore, the corresponding consideration needs to be with the computational load distribution among multiple calculation units. If it turns out in a satisfactory way, such distribution will raise the possibility of completing the necessary computation in a given amount of time, which might come down in the level of microsecond order. This paper presents an effective way to split a given electrical network, according to multiple criteria, for the purpose of distributing the entire computational load into a set of even (or close to even) sized computational loads. Based on the proposed system splitting method, heavy computation burdens of large-scale electrical networks can be distributed to multiple calculation units, such as an RTDS real time simulator, achieving either more efficient usage of the calculation units, a reduction of the necessary size of the simulation time step, or both.