• 제목/요약/키워드: memory unit

검색결과 562건 처리시간 0.03초

다중처리기 시스템에서 거짓 공유 완화를 위한 메모리 할당 기법 (Memory Allocation Scheme for Reducing False Sharing on Multiprocessor Systems)

  • 한부형;조성제
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권4호
    • /
    • pp.383-393
    • /
    • 2000
  • 공유 메모리 다중처리기 시스템에서 거짓 공유는 서로 다른 처리기에 의해 참조되는 데이타객체들이 동일한 일관성 유지 블록에 공존하기 때문에 발생하는 현상으로 메모리 일관성 유지비용을 증가시키는 주요 원인이다. 본 논문에서는 주 처리기가 공유 데이타 객체를 총괄하여 할당하는 병렬 응용들을 대상으로 거짓 공유를 감소시켜 주는 새로운 메모리 할당 기법을 제시한다. 제시한 기법에서는 일단 공유객체를 임시 주소공간에 할당한 다음, 나중에 각 객체를 처음으로 참조한 처리기의 주소공간으로 정식 배치한다. 이렇게 함으로써 각 객체를 요청한 처리기별로 별도의 페이지에 각 객체가 할당되며, 서로 다른 처리기에서 요구한 데이타 객체들이 동일 공유 페이지에 섞이지 않게 된다. 본 기법의 효용성을 검증하기 위해 실제 병렬 응용을 사용하여 실행-기반 시뮬레이션을 수행하였다. 실험 결과 제시한 기법은 적은 오버헤드로 기존의 기법들에 비해 거짓 공유 현상을 적게 유발한다는 것을 확인하였다

  • PDF

하이브리드 플래시-디스크 저장장치용 Flash Translation Layer의 성능 개선을 위한 순차패턴 마이닝 기반 2단계 프리패칭 기법 (Improving Flash Translation Layer for Hybrid Flash-Disk Storage through Sequential Pattern Mining based 2-Level Prefetching Technique)

  • 장재영;윤언근;김한준
    • 한국전자거래학회지
    • /
    • 제15권4호
    • /
    • pp.101-121
    • /
    • 2010
  • 본 논문은 플래시 메모리와 하드디스크로 구성되는 하이브리드 저장장치의 성능을 높이기 위한 프리패칭 기법을 제안한다. 하이브리드 저장장치에 포함된 플래시 메모리는 하드디스크에 비해 쓰기/읽기 연산 속도가 상대적으로 빠르기 때문에 이를 캐시 공간처럼 활용하여 성능을 높일 수 있다. 프리패칭을 위한 기본 전략은 순차패턴 마이닝을 이용하는 것이며, 이를 이용하면 시간적 흐름을 가지는 과거 객체 참조열로부터 반복되는 객체 접근 패턴을 추출할 수 있다. 프리패칭 기법을 사용하여 하이브리드 저장장치의 성능을 최대화하기 위하여 본 논문은 두 가지 방법을 사용하였다. 첫 번째는 플래시 메모리 매핑을 위하여 기존의 FAST 알고리즘을 개선하였고, 두 번째는 제한된 플래시 메모리의 공간을 효율적으로 사용하기 위하여 프리패칭 단위로 파일 수준과 블록 수준을 동시에 고려하였다. 제안 기법의 효용성을 평가하기 위해 참조 지역성을 가지는 합성 데이터와 UCC 데이터를 활용하여 실험을 실시하여 제안된 방법의 우수성을 증명하였다.

RICS-based DSP의 효율적인 임베디드 메모리 인터페이스 (Efficient Interface circuits of Embedded Memory for RISC-based DSP Microprocessor)

  • 김유진;조경록;김성식;정의석
    • 전자공학회논문지C
    • /
    • 제36C권9호
    • /
    • pp.1-12
    • /
    • 1999
  • 본 논문에서는 GMS30C2132마이크로프로세서에 DSP연산을 위하여 128K bytes EPROM과 4K bytes SRAM을 내장하고, 이 과정에서 내/외부 메모리 인터페이스 부분이 프로세서와 1싸이클 엑세스가 이루어지도록 버스 제어 인터페이스 구조를 설계하였다. 내장된 128Kbytes EPROM은 메모리 구조 및 데이터 정렬에 따른 동작을 위해 새로운 데이터 확장 인터페이스 구조와 테스트를 위한 인터페이스 구조를 제안하였으며, 내장된 4K bytes SRAM은 프로세서와 인터페이스를 할 때 DSP 고속 연산에 활용하기 위해 메모리 스택으로써의 이용과 명령어 캐쉬와의 인터페이스, 가변 데이타 크기 제어, 모듈로 4Kb의 어드레싱이 가능한 구조를 채택하여 설계하였다. 본 논문의 새로운 구조 적용으로 내장EPROM, SRAM에서 평균 메모리 엑세스 속도가 종전의 40ns에서 20ns로 감소하였고, 가변 데이타 버스 인터페이스 제어로 프로그램 처리 속도가 2배로 개선되었다.

  • PDF

CPU-GPU 메모리 계층을 고려한 고처리율 병렬 KMP 알고리즘 (High Throughput Parallel KMP Algorithm Considering CPU-GPU Memory Hierarchy)

  • 박소은;김대희;이명호;박능수
    • 전기학회논문지
    • /
    • 제67권5호
    • /
    • pp.656-662
    • /
    • 2018
  • Pattern matching algorithm is widely used in many application fields such as bio-informatics, intrusion detection, etc. Among many string matching algorithms, KMP (Knuth-Morris-Pratt) algorithm is commonly used because of its fast execution time when using large texts. However, the processing speed of KMP algorithm is also limited when the text size increases significantly. In this paper, we propose a high throughput parallel KMP algorithm considering CPU-GPU memory hierarchy based on OpenCL in GPGPU (General Purpose computing on Graphic Processing Unit). We focus on the optimization for the allocation of work-times and work-groups, the local memory copy of the pattern data and the failure table, and the overlapping of the data transfer with the string matching operations. The experimental results show that the execution time of the optimized parallel KMP algorithm is about 3.6 times faster than that of the non-optimized parallel KMP algorithm.

단위 모듈을 이용한 MIN의 점증적 설계 (Incremental Design of MIN using Unit Module)

  • 최창훈;김성천
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권2호
    • /
    • pp.149-159
    • /
    • 2000
  • 본 논문에서는 적은 비용으로 효율적인 패킷 스위칭 상호연결 네트워크를 구성할수 있는 새로운 부류의 MIN (Multistage Interconnection Network)인 SCMIN(ShortCut MIN)을 제안한다. SCMIN은 기존 MIN에서의 스위칭 소자 갯수 보다 매우 적은 수인 2.5N-4 개의 스위칭 소자만을 사용할지라도 FAC(Full Access Capability)를 만족하고, 또한 프로세서-메모리 쌍에 대해 다수개의 중복 경로를 제공할 수 있게 된다. SCMIN은 통신이 빈번하게 발생되는 프로세서 메모리 클리스터에 보다 짧은 경로를 제공하고, 또한 이들에 대한 대체 경로를 제공하여 지역화된 통신 형태의 응용 분야에 적합하도록 설계되었다. 따라서 SCMIN은 공유 메모리 다중 프로세서 시스템에서 지역화된 통신 형태를 갖는 병렬 응용 분야에 적합한 MIN으로 활용될 수 있을 것이다.

  • PDF

GPU를 이용한 Gabor Texture 특징점 기반의 금속 패드 변색 분류 알고리즘 (Discolored Metal Pad Image Classification Based on Gabor Texture Features Using GPU)

  • 최학남;박은수;김준철;김학일
    • 제어로봇시스템학회논문지
    • /
    • 제15권8호
    • /
    • pp.778-785
    • /
    • 2009
  • This paper presents a Gabor texture feature extraction method for classification of discolored Metal pad images using GPU(Graphics Processing Unit). The proposed algorithm extracts the texture information using Gabor filters and constructs a pattern map using the extracted information. Finally, the golden pad images are classified by utilizing the feature vectors which are extracted from the constructed pattern map. In order to evaluate the performance of the Gabor texture feature extraction algorithm based on GPU, a sequential processing and parallel processing using OpenMP in CPU of this algorithm were adopted. Also, the proposed algorithm was implemented by using Global memory and Shared memory in GPU. The experimental results were demonstrated that the method using Shared memory in GPU provides the best performance. For evaluating the effectiveness of extracted Gabor texture features, an experimental validation has been conducted on a database of 20 Metal pad images and the experiment has shown no mis-classification.

Low-latency SAO Architecture and its SIMD Optimization for HEVC Decoder

  • Kim, Yong-Hwan;Kim, Dong-Hyeok;Yi, Joo-Young;Kim, Je-Woo
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제3권1호
    • /
    • pp.1-9
    • /
    • 2014
  • This paper proposes a low-latency Sample Adaptive Offset filter (SAO) architecture and its Single Instruction Multiple Data (SIMD) optimization scheme to achieve fast High Efficiency Video Coding (HEVC) decoding in a multi-core environment. According to the HEVC standard and its Test Model (HM), SAO operation is performed only at the picture level. Most realtime decoders, however, execute their sub-modules on a Coding Tree Unit (CTU) basis to reduce the latency and memory bandwidth. The proposed low-latency SAO architecture has the following advantages over picture-based SAO: 1) significantly less memory requirements, and 2) low-latency property enabling efficient pipelined multi-core decoding. In addition, SIMD optimization of SAO filtering can reduce the SAO filtering time significantly. The simulation results showed that the proposed low-latency SAO architecture with significantly less memory usage, produces a similar decoding time as a picture-based SAO in single-core decoding. Furthermore, the SIMD optimization scheme reduces the SAO filtering time by approximately 509% and increases the total decoding speed by approximately 7% compared to the existing look-up table approach of HM.

p채널 SONOS 전하트랩 플래시메모리의 제작 및 특성 (The Fabrication and Characteristics of p-channel SONOS Charge-Trap Flash Memory)

  • 김병철;김주연
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 추계종합학술대회 B
    • /
    • pp.604-607
    • /
    • 2008
  • 본 연구에서는 NAND 플래시메모리를 위한 기본 셀로서 p채널 SONOS (silicon-oxide-nitride-oxide-silicon) 트랜지스터를 제작하고 이것의 메모리특성을 조사하였다. SONOS 트랜지스터의 제작은 $0.13{\mu}m$ low power용 standard logic 공정기술을 사용하였다. 게이트 절연막의 두께는 터널 산화막 $20{\AA}$, 질화막 $14{\AA}$, 그리고 블로킹산화막의 두께는 $49{\AA}$이다. 제작된 SONOS 트랜지스터는 낮은 쓰기/지우기 전압, 빠른 지우기 속도, 그리고 비교적 우수한 기억유지특성과 endurance 특성을 나타내었다.

  • PDF

강제 대류를 이용한 형상기억합금 작동기 (SMA(SHAPE MEMORY ALLOY) ACTUATOR USING FORCED CONVECTION)

  • 전형열;김정훈;박응식
    • 한국전산유체공학회지
    • /
    • 제10권2호
    • /
    • pp.48-53
    • /
    • 2005
  • This work discusses the numerical analysis, the design and experimental test of the SMA actuator along with its capabilities and limitations. Convective heating and cooling using water actuate the SMA(Shape memory alloy) element of the actuator. The fuel such as propane, having a high energy density, is used as the energy source for the SMA actuator in order to increase power and energy density of the system, and thus in order to obviate the need for electrical power supplies such as batteries. The system is composed of a pump, valves, bellows, a heater(burner), control unit and a displacement amplification device. The experimental test of the SMA actuator system results in 150 MPa stress(force : 1560 N) with $3\%$ strain and 0.5 Hz. actuation frequency. The actuation frequency is compared with the prediction obtained from numerical analysis. For the designed SMA actuator system, the results of numerical analysis were utilized in determining design parameters and operating conditions.

테라비트급 나노 스케일 SONOS 플래시 메모리 제작 및 소자 특성 평가 (Fabrication and Device Performance of Tera Bit Level Nano-scaled SONOS Flash Memories)

  • 김주연;김문경;김병철;김정우;서광열
    • 한국전기전자재료학회논문지
    • /
    • 제20권12호
    • /
    • pp.1017-1021
    • /
    • 2007
  • To implement tera bit level non-volatile memories of low power and fast operation, proving statistical reproductivity and satisfying reliabilities at the nano-scale are a key challenge. We fabricate the charge trapping nano scaled SONOS unit memories and 64 bit flash arrays and evaluate reliability and performance of them. In case of the dielectric stack thickness of 4.5 /9.3 /6.5 nm with the channel width and length of 34 nm and 31nm respectively, the device has about 3.5 V threshold voltage shift with write voltage of $10\;{\mu}s$, 15 V and erase voltage of 10 ms, -15 V. And retention and endurance characteristics are above 10 years and $10^5$ cycle, respectively. The device with LDD(Lightly Doped Drain) process shows reduction of short channel effect and GIDL(Gate Induced Drain Leakage) current. Moreover we investigate three different types of flash memory arrays.