• Title/Summary/Keyword: embedded computing

검색결과 537건 처리시간 0.021초

O(1) 크래시 복구 수행시간을 갖는 FTL의 설계와 구현 (Design and Implementation of Flash Translation Layer with O(1) Crash Recovery Time)

  • 박준영;박현찬;유혁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권10호
    • /
    • pp.639-644
    • /
    • 2015
  • 최근 널리 사용되는 Solid State Drive(SSD), embedded Multi Media Card(eMMC) 등의 플래시 저장장치는 사용자 요구에 의해 점점 그 용량이 증대되고 있다. 플래시 저장장치 내부의 Flash Translation Layer(FTL)은 전원 유실 등의 크래시 상황에서 전체 플래시 영역을 대상으로 복구하는 동작을 하게 되는데, 저장장치의 고용량 화로 인해 그 시간이 길어지는 문제가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위하여 저장장치 용량에 비례하지 않도록 O(1) 크래시 복구 수행 시간을 갖는 O1FTL을 제안한다. 이를 위해 본 연구팀은 기존에 플래시 파일 시스템에서 제안된 작업 영역 기법을 FTL에 적용하고 실제 하드웨어 플랫폼에 구현하였다. 실험 결과, 다양한 용량에 대해 유사한 복구 시간을 달성함을 보였으며, I/O 성능, 수명에 대해서는 대단히 적은 오버헤드를 요구하는 것을 검증하였다.

계층적 실시간 시스템 스케줄링 검증을 위한 정형적 프레임워크 (A Framework Using UPPAAL to Verify Schedulability of Hierarchical Scheduling Systems)

  • 안소진;황대연;최진영
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권9호
    • /
    • pp.604-609
    • /
    • 2015
  • 하드웨어가 많이 발전하면서 안전성 확보가 필요한 실시간 임베디드 시스템에도 가상화 기술이 적용되고 있는 추세다. 그러나 가상화 기술 적용 시, 스케줄러가 여럿 존재하게 되고, 이 스케줄러들 사이에 계층이 존재하게 되어 스케줄링 중 오류가 발생할 수 있는 단점이 있다. 임베디드 시스템의 제어 소프트웨어 같은 경우, 작은 문제로도 인명적, 재산적 피해가 클 수 있어 반드시 안전성 확보 여부를 검증해야 한다. 실시간 임베디드 시스템에 스케줄러가 계층적으로 존재하는 경우, 안전성 확보를 위해 반드시 스케줄링 가능성을 확인해야 한다. 본 논문은 여러 수준의 계층적 스케줄링 시스템을 정형기법(formal methods)을 사용하여 스케줄링 가능성을 확인할 수 있는 프레임워크를 소개한다.

내장형 스트리밍 어플리케이션을 위한 매개변수 데이터플로우 모델 기반의 C++ 확장 (A C++ Extension based on a Parameterized Dataflow Model for Embedded Streaming Applications)

  • 최윤서
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권4호
    • /
    • pp.231-243
    • /
    • 2009
  • 내장형 신호처리 시스템의 상당 수는 스트리밍(streaming) 어플리케이션의 특성을 지니고 있다. 데이터플로우(dataflow) 계산모델을 이용하면 스트리밍 프로그래밍 패러다임을 손쉽게 표현할 수 있다. 데이터플로우 계산모델에서는 프로그램의 병렬성이 드러나므로 멀티코어를 위한 병렬 프로그램으로의 컴파일 과정 또한 용이해진다. 우리는 내장형 신호처리 시스템의 스트리밍 특성을 데이터플로우 계산모델에 기반하여 표현하기 위한 언어 확장으로서 SPEX(Signal Processing Extension)을 제안하고자 한다. SPEX는 기존의 명령형언어(imperative language)상에 스트리밍 프로그램밍 패러다임을 표현할 수 있게 한다. SPEX 언어 확장은 매개변수 데이터플로우 계산모델(parameterized dataflow)에 기반하고 있으며, 이를 위해 몇몇의 키워드를 기존의 C++ 언어 더하는 방식으로 이루어져 있다. 본 논문에서는 하나의 필터내에서의 스트리밍 계산 특성 및 필터 간의 스트리밍 데이터 전달을 표현하는 SPEX의 기능에 초점을 맞추고자 한다.

Higher-Order Masking Scheme against DPA Attack in Practice: McEliece Cryptosystem Based on QD-MDPC Code

  • Han, Mu;Wang, Yunwen;Ma, Shidian;Wan, Ailan;Liu, Shuai
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권2호
    • /
    • pp.1100-1123
    • /
    • 2019
  • A code-based cryptosystem can resist quantum-computing attacks. However, an original system based on the Goppa code has a large key size, which makes it unpractical in embedded devices with limited sources. Many special error-correcting codes have recently been developed to reduce the key size, and yet these systems are easily broken through side channel attacks, particularly differential power analysis (DPA) attacks, when they are applied to hardware devices. To address this problem, a higher-order masking scheme for a McEliece cryptosystem based on the quasi-dyadic moderate density parity check (QD-MDPC) code has been proposed. The proposed scheme has a small key size and is able to resist DPA attacks. In this paper, a novel McEliece cryptosystem based on the QD-MDPC code is demonstrated. The key size of this novel cryptosystem is reduced by 78 times, which meets the requirements of embedded devices. Further, based on the novel cryptosystem, a higher-order masking scheme was developed by constructing an extension Ishai-Sahai-Wagne (ISW) masking scheme. The authenticity and integrity analysis verify that the proposed scheme has higher security than conventional approaches. Finally, a side channel attack experiment was also conducted to verify that the novel masking system is able to defend against high-order DPA attacks on hardware devices. Based on the experimental validation, it can be concluded that the proposed higher-order masking scheme can be applied as an advanced protection solution for devices with limited resources.

ARM/NEON 프로세서를 활용한 NIST PQC SABER에서 Toom-Cook 알고리즘 최적화 구현 연구 (Optimization Study of Toom-Cook Algorithm in NIST PQC SABER Utilizing ARM/NEON Processor)

  • 송진교;김영범;서석충
    • 정보보호학회논문지
    • /
    • 제31권3호
    • /
    • pp.463-471
    • /
    • 2021
  • NIST(National Institute of Standards and Technology)에서는 2016년부터 양자컴퓨팅 환경을 대비하여 양자내성암호 표준화 사업을 진행하고 있다. 현재 3라운드가 진행 중이며, 대부분 후보자(5/7)는 격자기반 암호이다. 격자기반 암호는 효율적인 연산 처리와 적절한 키 길이를 제공하여 다른 기반의 양자내성 암호보다 리소스가 제한적인 임베디드 환경에서도 적용이 가능하다는 평가를 받고 있다. 그중 SABER KEM은 효율적인 모듈러스와 연산 부하가 큰 다항식 곱셈을 처리하기 위해 Toom-Cook 알고리즘을 제공한다. 본 논문에서는 ARMv8-A 환경에서 ARM/NEON을 활용하여 SABER의 Toom-Cook 알고리즘에서 평가와 보간 과정에 대한 최적화 구현 방법을 소개한다. 평가과정에서는 ARM/NEON의 효율적인 인터리빙 방법을 제안하며, 보간 과정에 서는 다양한 임베디드 환경에서 적용 가능한 최적화된 구현 방법론을 소개한다. 결과적으로 제안하는 구현은 이전 레퍼런스 구현보다 평가과정에서는 약 3.5배 보간과정에서는 약 5배 빠른 성능을 달성하였다.

구조적 압축을 통한 FPGA 기반 GRU 추론 가속기 설계 (Implementation of FPGA-based Accelerator for GRU Inference with Structured Compression)

  • 채병철
    • 한국정보통신학회논문지
    • /
    • 제26권6호
    • /
    • pp.850-858
    • /
    • 2022
  • 리소스가 제한된 임베디드 장치에 GRU를 배포하기 위해 이 논문은 구조적 압축을 가능하게 하는 재구성 가능한 FPGA 기반 GRU 가속기를 설계한다. 첫째, 조밀한 GRU 모델은 하이브리드 양자화 방식과 구조화된 top-k 프루닝에 의해 크기가 대폭 감소한다. 둘째, 본 연구에서 제시하는 재사용 컴퓨팅 패턴에 의해 외부 메모리 액세스에 대한 에너지 소비가 크게 감소한다. 마지막으로 가속기는 알고리즘-하드웨어 공동 설계 워크플로의 이점을 얻는 구조화된 희소 GRU 모델을 처리할 수 있다. 또한 모든 차원, 시퀀스 길이 및 레이어 수를 사용하여 GRU 모델에 대한 추론 작업을 유연하게 수행할 수 있다. Intel DE1-SoC FPGA 플랫폼에 구현된 제안된 가속기는 일괄 처리가 없는 구조화된 희소 GRU 네트워크에서 45.01 GOPs를 달성하였다. CPU 및 GPU의 구현과 비교할 때 저비용 FPGA 가속기는 대기 시간에서 각각 57배 및 30배, 에너지 효율성에서 300배 및 23.44배 향상을 달성한다. 따라서 제안된 가속기는 실시간 임베디드 애플리케이션에 대한 초기 연구로서 활용, 향후 더 발전될 수 있는 잠재력을 보여준다.

Parallel Implementations of Digital Focus Indices Based on Minimax Search Using Multi-Core Processors

  • HyungTae, Kim;Duk-Yeon, Lee;Dongwoon, Choi;Jaehyeon, Kang;Dong-Wook, Lee
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권2호
    • /
    • pp.542-558
    • /
    • 2023
  • A digital focus index (DFI) is a value used to determine image focus in scientific apparatus and smart devices. Automatic focus (AF) is an iterative and time-consuming procedure; however, its processing time can be reduced using a general processing unit (GPU) and a multi-core processor (MCP). In this study, parallel architectures of a minimax search algorithm (MSA) are applied to two DFIs: range algorithm (RA) and image contrast (CT). The DFIs are based on a histogram; however, the parallel computation of the histogram is conventionally inefficient because of the bank conflict in shared memory. The parallel architectures of RA and CT are constructed using parallel reduction for MSA, which is performed through parallel relative rating of the image pixel pairs and halved the rating in every step. The array size is then decreased to one, and the minimax is determined at the final reduction. Kernels for the architectures are constructed using open source software to make it relatively platform independent. The kernels are tested in a hexa-core PC and an embedded device using Lenna images of various sizes based on the resolutions of industrial cameras. The performance of the kernels for the DFIs was investigated in terms of processing speed and computational acceleration; the maximum acceleration was 32.6× in the best case and the MCP exhibited a higher performance.

연속학습을 활용한 경량 온-디바이스 AI 기반 실시간 기계 결함 진단 시스템 설계 및 구현 (Design and Implementation of a Lightweight On-Device AI-Based Real-time Fault Diagnosis System using Continual Learning)

  • 김영준;김태완;김수현;이성재;김태현
    • 대한임베디드공학회논문지
    • /
    • 제19권3호
    • /
    • pp.151-158
    • /
    • 2024
  • Although on-device artificial intelligence (AI) has gained attention to diagnosing machine faults in real time, most previous studies did not consider the model retraining and redeployment processes that must be performed in real-world industrial environments. Our study addresses this challenge by proposing an on-device AI-based real-time machine fault diagnosis system that utilizes continual learning. Our proposed system includes a lightweight convolutional neural network (CNN) model, a continual learning algorithm, and a real-time monitoring service. First, we developed a lightweight 1D CNN model to reduce the cost of model deployment and enable real-time inference on the target edge device with limited computing resources. We then compared the performance of five continual learning algorithms with three public bearing fault datasets and selected the most effective algorithm for our system. Finally, we implemented a real-time monitoring service using an open-source data visualization framework. In the performance comparison results between continual learning algorithms, we found that the replay-based algorithms outperformed the regularization-based algorithms, and the experience replay (ER) algorithm had the best diagnostic accuracy. We further tuned the number and length of data samples used for a memory buffer of the ER algorithm to maximize its performance. We confirmed that the performance of the ER algorithm becomes higher when a longer data length is used. Consequently, the proposed system showed an accuracy of 98.7%, while only 16.5% of the previous data was stored in memory buffer. Our lightweight CNN model was also able to diagnose a fault type of one data sample within 3.76 ms on the Raspberry Pi 4B device.

복소연산이 없는 Polynomial 변환을 이용한 2차원 고속 DCT (Two dimensional Fast DCT using Polynomial Transform without Complex Computations)

  • Park, Hwan-Serk;Kim, Won-Ha
    • 전자공학회논문지CI
    • /
    • 제40권6호
    • /
    • pp.127-140
    • /
    • 2003
  • 본 논문은 2차원 Discrete Cosine Transform (2D-DCT)의 계산을 새로운 Polynomial 변환을 통하여 1차원 DCT의 합으로 변환하여 계산하는 알고리즘을 개발한다. 기존의 2차원 계산방법인 row-column 으로는 N×M 크기의 2D-DCT에서 3/2NMlog₂(NM)-2NM+N+M의 합과 1/2NMlog₂(NM)의 곱셈이 필요한데 비하여 본 논문에서 제시한 알고리즘은 3/2NMlog₂M+NMlog₂N-M-N/2+2의 합과 1/2NMlog₂M의 곱셈 수를 필요로 한다. 또한 기존의 polynomial 변환에 의한 2D DCT는 Euler 공식을 적용하였기 때문에 복소 연산이 필요하지만 본 논문에서 제시한 polynomial 변환은 DCT의 modular 규칙을 이용하여 2D DCT를 ID DCT의 합으로 직접 변환하므로 복소 연산이 필요하지 않다.

파티션 비트맵을 이용한 메모리 효율적인 리눅스 파티션 스케줄러 (Linux-based Memory Efficient Partition Scheduler using Partition Bitmap)

  • 권철순;조현우;김덕수;김형신
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권9호
    • /
    • pp.519-524
    • /
    • 2014
  • 독립적인 전자 장비들을 모듈화하여 하나로 통합한 시스템에 탑재되는 운영체제는 안정성 보장을 위해 파티셔닝 기술을 갖추어야 한다. 기존 운영체제에 파티셔닝 기술을 접목하기 위해서는 기존 스케줄러를 파티션 스케줄러로 확장해야한다. 특히 낮은 성능과 적은 메모리를 사용하는 우주용 시스템과 같은 임베디드 시스템에 적용하기 위해서는 스케줄러 확장시 성능적인 측면뿐만 아니라 메모리적인 측면도 고려해야한다. 본 논문에서는 파티션 비트맵을 이용한 메모리 효율적인 리눅스 파티션 스케줄러를 제안한다. 제안한 파티션 스케줄러는 구현시 적은 양의 메모리 공간을 요구하며 적은 파티션 전환 오버헤드가 발생한다. 또한 프로토타입을 LEON 4 프로세서 보드에 구현하였다. 성능평가를 통해 결과 정확성과 파티션 전환 오버헤드, 그리고 구현시 요구되는 메모리 공간 및 추가되는 소스코드의 양을 확인하였다.