• 제목/요약/키워드: Computing-In-Memory

검색결과 764건 처리시간 0.025초

범용 그래픽 처리 장치의 메모리 설계를 위한 그래픽 처리 장치의 메모리 특성 분석 (Analysis on Memory Characteristics of Graphics Processing Units for Designing Memory System of General-Purpose Computing on Graphics Processing Units)

  • 최홍준;김철홍
    • 스마트미디어저널
    • /
    • 제3권1호
    • /
    • pp.33-38
    • /
    • 2014
  • 소비전력 증가와 같은 문제점들로 인하여, 마이크로프로세서만으로는 컴퓨팅 시스템의 성능을 향상시키기 점점 어려워지고 있다. 이와 같은 상황에서, 대용량 병렬 연산에 특화된 그래픽 처리 장치를 활용하여 중앙 처리 장치가 담당하던 범용 작업을 수행하게 하는 범용 그래픽 처리 장치 기술이 컴퓨터 시스템의 성능을 개선시킬 수 있는 방안으로 주목을 받고 있다. 하지만, 그래픽스 관련 응용프로그램과 범용 응용프로그램의 특징은 매우 상이하기 때문에, 그래픽 처리 장치가 범용 응용프로그램을 수행하는 경우에는 많은 제약 사항으로 인하여 자신의 뛰어난 연산 자원을 활용하지 못하는 실정이다. 일반적으로 그래픽스 관련 응용프로그램에 비해 범용 응용프로그램은 메모리를 매우 많이 요청하기 때문에 범용 그래픽 처리 장치 기술을 효율적으로 활용하기 위해서는 메모리 설계가 매우 중요하다. 특히, 긴 접근 시간을 요구하는 외부 메모리 요청은 성능에 큰 오버헤드이다. 그러므로 외부 메모리로의 접근 횟수를 줄일 수 있는 다중 레벨 캐쉬 구조를 효율적으로 활용할 수 있다면, GPU의 성능은 크게 향상 될 것이 분명하다. 본 논문에서는 다중 레벨 캐쉬 구조에 따른 그래픽 처리 장치의 성능을 다양한 벤치마크 프로그램을 통하여 정량적으로 분석하고자 한다.

내장 메모리 자가 복구를 위한 여분의 메모리 분석 알고리즘 (Built-In Redundancy Analysis Algorithm for Embedded Memory Built-In Self Repair with 2-D Redundancy)

  • 심은성;장훈
    • 대한전자공학회논문지SD
    • /
    • 제44권2호
    • /
    • pp.113-120
    • /
    • 2007
  • 최근 VLSI 회로 직접도가 급속도로 증가함에 따라 하나의 시스템 칩에 고밀도와 고용량의 내장 메모리가 구현되고 있다. 고장난 메모리를 여분의 메모리로 재배치함으로써 메모리 수율 향상과 사용자에게 메모리를 투명하게 사용할 수 있도록 제공 할 수 있다. 본 논문에서는 고장난 메모리 부분을 여분의 행과 열 메모리 사용으로 고장난 메모리를 고장이 없는 메모리처럼 사용할 수 있도록 여분의 메모리 재배치 알고리즘을 제안하고자 한다.

FPGA 상에서 OpenCL을 이용한 병렬 문자열 매칭 구현과 최적화 방향 (Parallel String Matching and Optimization Using OpenCL on FPGA)

  • 윤진명;최강일;김현진
    • 전기학회논문지
    • /
    • 제66권1호
    • /
    • pp.100-106
    • /
    • 2017
  • In this paper, we propose a parallel optimization method of Aho-Corasick (AC) algorithm and Parallel Failureless Aho-Corasick (PFAC) algorithm using Open Computing Language (OpenCL) on Field Programmable Gate Array (FPGA). The low throughput of string matching engine causes the performance degradation of network process. Recently, many researchers have studied the string matching engine using parallel computing. FPGA's vendors offer a parallel computing platform using OpenCL. In this paper, we apply the AC and PFAC algorithm on DE1-SoC board with Cyclone V FPGA, where the optimization that considers FPGA architecture is performed. Experiments are performed considering global id, local id, local memory, and loop unrolling optimizations using PFAC algorithm. The performance improvement using loop unrolling is 129 times greater than AC algorithm that not adopt loop unrolling. The performance improvements using loop unrolling are 1.1, 0.2, and 1.5 times greater than those using global id, local id, and local memory optimizations mentioned above.

Two-Level Scratchpad Memory Architectures to Achieve Time Predictability and High Performance

  • Liu, Yu;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제8권4호
    • /
    • pp.215-227
    • /
    • 2014
  • In modern computer architectures, caches are widely used to shorten the gap between processor speed and memory access time. However, caches are time-unpredictable, and thus can significantly increase the complexity of worst-case execution time (WCET) analysis, which is crucial for real-time systems. This paper proposes a time-predictable two-level scratchpad-based architecture and an ILP-based static memory objects assignment algorithm to support real-time computing. Moreover, to exploit the load/store latencies that are known statically in this architecture, we study a Scratch-pad Sensitive Scheduling method to further improve the performance. Our experimental results indicate that the performance and energy consumption of the two-level scratchpad-based architecture are superior to the similar cache based architecture for most of the benchmarks we studied.

OpenMP와 MPI 코드의 상대적, 혼합적 성능 고찰 (Comparative and Combined Performance Studies of OpenMP and MPI Codes)

  • 이명호
    • 정보처리학회논문지A
    • /
    • 제13A권2호
    • /
    • pp.157-162
    • /
    • 2006
  • 최근의 고성능 컴퓨팅 플랫폼들은 공유 메모리 다중 프로세서(SMP: Shared Memory Multiprocessor) 시스템, 대규모 병렬 프로세서 (Massively Parallel Processor) 시스템, 여러 개의 컴퓨팅 노드들을 연결한 클러스터(Cluster) 시스템 등으로 분류된다. 이러한 고성능 컴퓨팅 시스템들은 높은 수준의 컴퓨팅 성능을 요구하는 과학 기술용 응용 프로그램들을 위하여 사용된다. 이러한 응용 프로그램들의 실행시 최적의 성능을 얻기 위해서는 적절한 컴퓨팅 플랫폼과 프로그래밍 방식의 선택이 중요하다. 본 연구 논문에서는 여러 방식의 병렬 프로그래밍 모델을 사용하여 개발된 SPEC HPC2002 벤치마크 suite을 위한 최적의 컴퓨팅 플랫폼과 프로그래밍 모델을 그들의 성능 분석 및 평가 작업을 통하여 찾아간다.

비선형계획법에 의한 자동경제급전 알고리즘의 개발에 관한 연구 (Algorithm for Economic Load Dispatch by the Nonlinear Programming Method)

  • 박영문;김건중
    • 전기의세계
    • /
    • 제26권1호
    • /
    • pp.77-81
    • /
    • 1977
  • This paper aims to develope a new algorithm to overcome the disadvantages of the conventional E.L.D system based on the B-Constants and Penalty-Factors scheme. The main features of this paper are that the Variabiable Decoupled Method usually employed in the Load-Flow studies is introduced to the E.L.D. algorithm developed by Sasson, using the Powell's Nonlinear Programming Scheme. Besides this, other minor refinements are made to reduce memory spaces and computing time. Case studies show that the method suggested here has the remarkable advantages of computing efficiency and memory requirements over Sasson's.

  • PDF

Memory Design for Artificial Intelligence

  • Cho, Doosan
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제12권1호
    • /
    • pp.90-94
    • /
    • 2020
  • Artificial intelligence (AI) is software that learns large amounts of data and provides the desired results for certain patterns. In other words, learning a large amount of data is very important, and the role of memory in terms of computing systems is important. Massive data means wider bandwidth, and the design of the memory system that can provide it becomes even more important. Providing wide bandwidth in AI systems is also related to power consumption. AlphaGo, for example, consumes 170 kW of power using 1202 CPUs and 176 GPUs. Since more than 50% of the consumption of memory is usually used by system chips, a lot of investment is being made in memory technology for AI chips. MRAM, PRAM, ReRAM and Hybrid RAM are mainly studied. This study presents various memory technologies that are being studied in artificial intelligence chip design. Especially, MRAM and PRAM are commerciallized for the next generation memory. They have two significant advantages that are ultra low power consumption and nearly zero leakage power. This paper describes a comparative analysis of the four representative new memory technologies.

TLC NAND-형 플래시 메모리 내장 자체테스트 (TLC NAND-type Flash Memory Built-in Self Test)

  • 김진완;장훈
    • 전자공학회논문지
    • /
    • 제51권12호
    • /
    • pp.72-82
    • /
    • 2014
  • 최근 스마트폰, 태블릿 PC, SSD(Solid State Drive)의 보급률 증가로 메모리 반도체 산업시장의 규모는 지속적으로 증가하고 있다. 또한 최근 SSD시장에 TLC NAND-형 플래시 메모리 제품의 출시로 인해 TLC NAND-형 플래시 메모리의 수요가 점차 증가할 것으로 예상된다. SLC NAND 플래시 메모리는 많은 연구가 진행되었지만 TLC NAND 플래시 메모리는 연구가 진행되지 않고 있다. 또한 NAND-형 플래시 메모리는 고가의 외부장비에 의존하여 테스트를 하고 있다. 따라서 본 논문은 기존에 제안된 SLC NAND 플래시 메모리와 MLC NAND 플래시 메모리 테스트 알고리즘을 TLC NAND 플래시 메모리에 맞게 알고리즘과 패턴을 수정하여 적용하고 고가의 외부 테스트 장비 없이 자체 테스트 수행이 가능한 구조를 제안한다.

주파수영역에서 49점 가중평균을 이용한 scalar 파동방정식의 유한차분식 정확도 향상을 위한 연구 (An Accuracy Improvement in Solving Scalar Wave Equation by Finite Difference Method in Frequency Domain Using 49 Points Weighted Average Method)

  • 장성형;신창수;양동우;양승진
    • 자원환경지질
    • /
    • 제29권2호
    • /
    • pp.183-192
    • /
    • 1996
  • Much computing time and large computer memory are needed to solve the wave equation in a large complex subsurface layer using finite difference method. The time and memory can be reduced by decreasing the number of grid per minimun wave length. However, decrease of grid may cause numerical dispersion and poor accuracy. In this study, we present 49 points weighted average method which save the computing time and memory and improve the accuracy. This method applies a new weighted average to the coordinate determined by transforming the coordinate of conventional 5 points finite difference stars to $0^{\circ}$ and $45^{\circ}$, 25 points finite differenc stars to $0^{\circ}$, $26.56^{\circ}$, $45^{\circ}$, $63.44^{\circ}$ and 49 finite difference stars to $0^{\circ}$, $18.43^{\circ}$, $33.69^{\circ}$, $45^{\circ}$, $56.30^{\circ}$, $71.56^{\circ}$. By this method, the grid points per minimum wave length can be reduced to 2.5, the computing time to $(2.5/13)^3$, and the required core memory to $(2.5/13)^4$ computing with the conventional method.

  • PDF

Characterization Studies on Data Access Bias in Mobile Platforms

  • Bahn, Hyokyung
    • International journal of advanced smart convergence
    • /
    • 제10권4호
    • /
    • pp.52-58
    • /
    • 2021
  • Data access bias can be observed in various types of computing systems. In this paper, we characterize the data access bias in modern mobile computing platforms. In particular, we focus on the access bias of data observed at three different subsystems based on our experiences. First, we show the access bias of file data in mobile platforms. Second, we show the access bias of memory data in mobile platforms. Third, we show the access bias of web data and web servers. We expect that the characterization study in this paper will be helpful in the efficient management of mobile computing systems.