• 제목/요약/키워드: 연산지연

검색결과 451건 처리시간 0.031초

임베디드 기기를 위한 NAND 플래시 파일 시스템의 설계 (Design of a NAND Plash File System for Embedded Devices)

  • 박송화;이태훈;정기동
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.151-153
    • /
    • 2006
  • 본 논문은 NAND 플래시 메모리를 기반으로 한 임베디드 시스템에서 빠른 부팅을 지원하는 파일 시스템을 제안한다. 플래시 메모리는 비휘발성이며 기존의 하드디스크와 같은 자기 매체에 비해서 크기가 작고 전력소모도 적으며 내구성이 높은 장점을 지니고 있다. 그러나 제자리 덮어쓰기가 불가능하고 지움 연산단위가 쓰기 연산 단위보다 크다. 또한 지움 연산 획수가 제한되는 단점이 있다. 이러한 특성 때문에 기존의 파일 시스템들은 갱신 연산 발생 시, 갱신된 데이터를 다른 위치에 기록한다. 따라서 마운팅 시, 최신의 데이터를 얻기 위해 전체 플래시 메모리 공간을 읽어야만 한다. 이러한 파일 시스템의 마운팅 과정은 전체 시스템의 부팅 시간을 지연시킨다. 본 논문은 임베디드 시스템에서 빠른 부팅을 제공할 수 있는 NAND 플래시 메모리 파일 시스템의 구조를 제안한다. 제안된 시스템은 플래시 메모리 이미지 정보와 메타 데이터 블록만을 읽어 파일 시스템을 구축한다. 메타 데이터가 데이터 위치를 포함하기 때문에 마운팅 시, 전체 플래시 메모리 영역을 읽을 필요가 없으며 파일 데이터 위치 저장을 위한 별도의 자료 구조를 RAM 상에 유지할 필요가 없다. 실험 결과, YAFFS에 비해 $76%{\sim}85%$ 마운팅 시간은 감소시켰다. 또한 YAFFS에 비해 $64%{\sim}75%$ RAM 사용량을 감소시켰다.

  • PDF

디지털 신호처리 기능을 강화한 32비트 마이크로프로세서 (A 32-bit Microprocessor with enhanced digital signal process functionality)

  • 문상국
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.820-822
    • /
    • 2005
  • 본 논문에서는 16비트 혹은 32비트 고정 소수점 연산을 지원하는 디지털 신호처리 기능을 강화한 명령어 축소형 마이크로프로세서를 설계하였다. 설계한 마이크로프로세서는 명령어 축소형 마이크로 아키텍쳐의 표준에 따라서 범용 마이크로프로세서의 기능과 디지털 신호처리 프로세서의 기능을 함께 갖추고 있다. 산술연산기능 유닛, 디지털 신호처리 유닛, 메모리 제어 유닛으로 구성되어 있으며, 이 연산 유닛들이 병렬적으로 수행되어 디지털 신호처리 명령이나 로드/스토어 명령어의 지연된 시간을 보상할 수 있게 설계되었다. 이 연산유닛들을 병렬적으로 동작하게 함으로써 5단계 파이프라인의 구조로 고성능 마이크로프로세서를 구현하였다.

  • PDF

저면적 RSA를 위한 효율적인 Montgomery 곱셈기 하드웨어 설계 (Hardware Design of Efficient Montgomery Multiplier for Low Area RSA)

  • ;류광기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.575-577
    • /
    • 2017
  • 공개 키 암호화에서 RSA 알고리즘은 연산시간이 높은 modular 지수 연산을 사용한다. RSA의 modular 지수 연산은 반복되는 modular 곱셈을 통해 연산한다. 빠른 해독 및 암호화 속도를 가지는 높은 효율의 RSA 알고리즘을 위해 수년간 빠른 modular 곱셈 알고리즘이 연구되었다. 그러나, Montgomery 곱셈은 추가적인 피연산자(반복 루프가 있는 3개의 피연사자)에 의해 캐리 전파 지연이 발생되는 단점이 있다. 본 논문에서는 RSA 암호화 시스템의 가벼운 어플리케이션을 위한 Montgomery 곱셈의 면적을 줄이는 하드웨어 구조를 제안한다. 제안된 하드웨어 구조는 90nm 셀 라이브러리 공정에서 합성한 결과 884.9MHz에서 84k 게이트 수를 가지며, 250MHz에서 56k 게이트수를 가진다.

  • PDF

초기 임계값 설정에 의한 효율적인 터보 복호기 설계 (Design of an Efficient Turbo Decoder by Initial Threshold Setting)

  • 김동한;황선영
    • 한국통신학회논문지
    • /
    • 제26권5B호
    • /
    • pp.582-591
    • /
    • 2001
  • 터보 부호는 반복적인 복호 알고리즘을 사용함으로써 가산성 백색 가우시안 잡음(AWGN) 채널 환경에서 Shannon 한계에 가까운 성능을 보이는 오류정정 방식으로 제안되었으나, 반복 연산량에 따른 복호 지연과 인터리버에 따른 지연에 의해 실시간 처리의 어려움이라는 문제점을 안고 있다. 본 논문에서는 터보 부호의 성능을 저하시키지 않는 범위에서 적절한 초기 임계값 설정에 따라 불필요한 반복 복호 횟수를 줄일 수 있는 터보 복호기 구조를 제안한다. 적절한 초기 임계값 설정은 LLR(Log-Likelihood Ratio)값의 평균값과 분산, 복호기의 출력에 대한 BER에 근거하여 여러 번의 모의 실험을 통해서 최적의 값으로 결정된다. 제안한 방식은 초기 임계값을 적절히 선택하면 손실이 없는 범위 내에서 반복횟수를 감소시킴으로써 기존의 정해진 반복횟수로 인한 큰 복호 지연을 미연에 방지하고, 이에 따른 계산량 감소는 저전력의 효과도 가져온다. 성능 평가를 위해 BER = $10^{-6}$이내이고, 전송속도가 32kbps 이상인 IMT2000의 고속 데이터 전송 환경에서 모의 실험을 하였다. 실험 결과로 기존의 정해진 반복횟수를 갖는 터보 복호기에 비해 SNR 변동(0~3dB)에서 평균적으로 55~90% 정도의 감소된 반복횟수를 검증하였다.

  • PDF

MEC 환경에서 심층 강화학습을 이용한 오프로딩 기법의 성능비교 (Performance Comparison of Deep Reinforcement Learning based Computation Offloading in MEC)

  • 문성원;임유진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.52-55
    • /
    • 2022
  • 5G 시대에 스마트 모바일 기기가 기하급수적으로 증가하면서 멀티 액세스 엣지 컴퓨팅(MEC)이 유망한 기술로 부상했다. 낮은 지연시간 안에 계산 집약적인 서비스를 제공하기 위해 MEC 서버로 오프로딩하는 특히, 태스크 도착률과 무선 채널의 상태가 확률적인 MEC 시스템 환경에서의 오프로딩 연구가 주목받고 있다. 본 논문에서는 차량의 전력과 지연시간을 최소화하기 위해 로컬 실행을 위한 연산 자원과 오프로딩을 위한 전송 전력을 할당하는 심층 강화학습 기반의 오프로딩 기법을 제안하였다. Deep Deterministic Policy Gradient (DDPG) 기반 기법과 Deep Q-network (DQN) 기반 기법을 차량의 전력 소비량과 큐잉 지연시간 측면에서 성능을 비교 분석하였다.

마이크로파이프라인 회로를 위한 지연 고장 테스트 (Path Delay Testing for Micropipeline Circuits)

  • 강용석;허경회;강성호
    • 대한전자공학회논문지SD
    • /
    • 제38권8호
    • /
    • pp.72-84
    • /
    • 2001
  • 마이크로파이프라인 회로의 모든 연산 소자의 타이밍은 아주 중요하다. 스캔 플립플롭을 이용한 경로 지연고장 테스팅에 관한 기존 연구들은 두 개의 테스트 패턴 중 두 번째 패턴의 조절용이도가 높아야 한다는 점을 간과하였다. 본 논문에서는 작은 면적 오버헤드로 마이크로파이프라인 회로의 경로 지연고장을 테스트 할 수 있는 새로운 스캔 래치 및 테스트 방법을 제안하였다. 새로운 스캔 래치를 사용하여 마이크로파이프라인의 경로지연고장을 테스트한 결과에서 기존연구에 비해 높은 경성 경로 지연고장 검출율을 얻었다. 또한 제안된 스캔 래치는 마이크로파이프라인의 고착고장 검출을 위한 BIST로 응용을 확대하기 쉽다.

  • PDF

고속 비트-직렬 유한체 곱셈기 (Fast Bit-Serial Finite Field Multipliers)

  • 장남수;김태현;이옥석;김창한
    • 대한전자공학회논문지SD
    • /
    • 제45권2호
    • /
    • pp.49-54
    • /
    • 2008
  • 유한체 연산 기반의 암호시스템에서 곱셈 연산은 가장 주된 연산부로 구성된다. 또한 곱셈기 설계 환경의 자원이 제약적인 경우 비트-직렬 구조가 많이 고려된다. 본 논문은 기존의 비트-직렬 곱셈기에 비하여 작은 시간 복잡도를 가지는 삼항 기약 다항식 기반의 유한체 고속 비트-직렬 곱셈기를 제안한다. 제안하는 두 가지 타입의 곱셈기는 기존의 곱셈기에 비하여 시간 복잡도면에서는 모두 효율적이고, Interleaved 곱셈기의 $m{\cdot}MUL+2m{\cdot}ADD$ 시간지연 보다 작은 $(m+1){\cdot}MUL+(m+1){\cdot}ADD$ 시간 지연만으로 수행이 가능하다. 따라서 확장체의 표수가 작은 타원곡선 암호 시스템, 페어링 기반의 암호시스템에서 고속 동작가능하며, 표수가 2 또는 3인 경우 기존의 곱셈기 보다 대략 2배 빠르게 동작한다.

CNN 추론 연산 가속기를 위한 곱셈기 최적화 설계 (Design of Multipliers Optimized for CNN Inference Accelerators)

  • 이재우;이재성
    • 한국정보통신학회논문지
    • /
    • 제25권10호
    • /
    • pp.1403-1408
    • /
    • 2021
  • AI 프로세서를 FPGA 기반으로 구현하는 연구가 최근 활발하게 진행되고 있다. Deep Convolutional Neural Networks (CNN) 는 AI 프로세서가 수행하는 기본적인 연산 구조로서 매우 방대한 양의 곱셈을 필요로 한다. CNN 추론 연산에서 사용되는 곱셈 계수는 상수라는 점과 FPGA 은 특정 계수에 맞춰진 곱셈기 설계가 용이하다는 점에 착안하여 곱셈기를 최적화 구현할 수 있는 방법을 제안한다. 본 방법은 2의 보수와 분배법칙을 활용하여 곱셈 계수에서 값이 1인 비트의 개수를 최소화하여 필요한 적층 덧셈기의 개수를 절감한다. CNN 을 FPGA 에 구현한 실제 예제에 본 방법을 적용해본 결과 로직 사용량은 최대 30.2%까지, 신호 전달 지연은 최대 22%까지 줄어들었다. ASIC 전용 칩으로 구현할 경우에도 하드웨어 면적은 최대 35%까지, 신호 전달 지연은 최대 19.2%까지 줄어드는 것으로 나타났다.

NTT 기반의 효율적인 다항식 곱셈기 설계 (Design of Efficient NTT-based Polynomial Multiplier)

  • 이승호;이동찬;김영민
    • 전기전자학회논문지
    • /
    • 제25권1호
    • /
    • pp.88-94
    • /
    • 2021
  • 현재 사용되고 있는 RSA, ECC와 같은 공개키 암호화 기법은 소인수분해와 같은 현재의 컴퓨터로 계산이 오래 걸리는 수학적 문제를 암호화에 사용했다. 그러나 양자컴퓨터가 상용화된다면 Shor Algorithm에 의해 기존의 암호화 시스템은 쉽게 깨질 수 있다. 그로 인해 Quantum-resistant 한 암호화 알고리즘의 도입이 필요해졌고, 그중 하나로 Lattice-based Cryptography가 제안되고 있다. 이 암호화 알고리즘은 Polynomial Ring에서 연산이 행해지고, 그중 Polynomial Multiplication이 가장 큰 연산 시간을 차지한다. 그러므로 다항식 곱셈 계산을 빠르게 하는 하드웨어 모듈이 필요하고, 그중 Finite Field에서 연산 되는 FFT인 Number Theoretic Transform을 이용해서 다항식 곱셈을 계산하는 8-point NTT-based Polynomial Multiplier 모듈을 설계하고 시뮬레이션했다. HDL을 사용하여 로직검증을 수행하였고, Hspice를 사용하여 트랜지스터 수준에서 제안된 설계가 지연시간과 전력소모에서 얼마나 개선되는지를 비교 분석하였다. 제안된 설계에서 평균 지연속도 30%의 개선과 8% 이상의 전력소모 감소 효과를 볼 수 있었다.

방출단층촬영 시스템을 위한 GPU 기반 반복적 기댓값 최대화 재구성 알고리즘 연구 (A Study on GPU-based Iterative ML-EM Reconstruction Algorithm for Emission Computed Tomographic Imaging Systems)

  • 하우석;김수미;박민재;이동수;이재성
    • Nuclear Medicine and Molecular Imaging
    • /
    • 제43권5호
    • /
    • pp.459-467
    • /
    • 2009
  • 목적: ML-EM (The maximum likelihood-expectation maximization) 기법은 방출과 검출 과정에 대한 통계학적 모델에 기반한 재구성 알고리즘이다. ML-EM은 결과 영상의 정확성과 유용성에 있어 많은 이점이 있는 반면 반복적인 계산과 방대한 작업량 때문에 CPU(central processing unit)로 처리할 때 상당한 연산시간이 소요되었다. 본 연구에서는 GPU(graphic processing unit)의 병렬 처리 기술을 ML-EM 알고리즘에 적용하여 영상을 재구성하였다. 대상 및 방법: 엔비디아사(社)의 CUDA 기술을 이용하여 ML-EM 알고리즘의 투사 및 역투사 과정을 병렬화 전략을 구상하였으며 Geforce 9800 GTX+ 그래픽 카드를 이용하여 병렬화 연산을 수행하여 기존의 단일 CPU기반 연산법과 비교하였다. 각 반복횟수마다 투사 및 역투사 과정에 걸리는 총 지연 시간과 퍼센트 오차(percent error)를 측정하였다. 총 지연 시간에는 RAM과 GPU 메모리 간의 데이터 전송 지연 시간도 포함하였다. 결과: 모든 반복횟수에 대해 CPU 기반 ML-EM 알고리즘보다 GPU 기반 알고리즘이 더 빠른 성능을 나타내는 것을 확인하였다. 단일 CPU 및 GPU 기반 ML-EM의 32번 반복연산에 있어 각각 3.83초와 0.26초가 걸렸으며 GPU의 병렬연산의 경우 15배 정도의 개선된 성능을 보였다. 반복횟수가 1024까지 증가하였을 경우, CPU와 GPU 기반 알고리즘은 각각 18분과 8초의 연산시간이 걸렸다. GPU 기반 알고리즘이 약 135배 빠른 처리속도를 보였는데 이는 단일 CPU 계산이 특정 반복횟수 이후 나타나는 시간 지연에 따른 것이다. 결과적으로, GPU 기반 계산이 더 작은 편차와 빠른 속도를 보였다. 결론: ML-EM 알고리즘에 기초한 GPU기반 병렬 계산이 처리 속도와 안정성을 더 증진시킴을 확인하였으며 이를 활용해 다른 영상 재구성 알고리즘에도 적용시킬 수 있을 것으로 기대한다.