• 제목/요약/키워드: Arithmetic Operation Algorithm

검색결과 94건 처리시간 0.025초

H.264/AVC의 효율적인 파이프라인 구조를 적용한 CABAC 하드웨어 설계 (Efficient Pipeline Architecture of CABAC in H.264/AVC)

  • 최진하;오명석;김재석
    • 대한전자공학회논문지SD
    • /
    • 제45권7호
    • /
    • pp.61-68
    • /
    • 2008
  • 본 논문에서는 최신 동영상 압축 기술인 H.264/AVC (Advanced Video Coding)에서 엔트로피 코딩 방법 중 하나로 사용되는 CABAC (Context Adaptive Binary Arithmetic Coding)의 하드웨어 구현과 부호화 처리율을 높이기 위한 알고리즘 및 구조를 제안한다. CABAC는 CAVLC에 비해 쳐대 15%까지 더 나은 압축효율을 낼 수 있는 장점을 가지고 있지만 연산의 복잡도는 훨씬 높아진다. 특히 부호화 과정 중 데이터 사이의 의존도가 높기 때문에 연산과정의 복잡도가 더욱 증가하게 된다. 따라서 연산양을 줄이기 위한 다양한 구조가 제안되었으나, 여전히 데이터의 의존도에 의한 부호화에 latency가 존재하게 된다. 본 논문에서는 이진 산술 부호화의 첫 단계인 확률 값을 계산하는데 필요한 range의 7, 8번째 비트를 빠르게 계산하는 구조와 부호화할 심벌이 MPS인 경우 부호화 단계를 한 단계 줄일 수 있는 구조를 제안하였다. 제안된 구조를 적용하여, 6가지 시퀀스에 대하여 실험한 결과 기존의 구조에 비해 약 27-29%의 수행시간을 줄일 수 있었다. 또한 제안된 구조를 하드웨어로 구현한 결과 0.18um standard library에서 19K gate를 사용하였다.

Dither 신호를 이용한 DSE-MMA와 DQE-MMA 적응 등화 알고리즘의 성능 비교 (A Performance Comparison of DSE-MMA and DQE-MMA Adaptive Equalization Algorithm using Dither Signal)

  • 임승각;유정봉;강대수
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권1호
    • /
    • pp.45-50
    • /
    • 2022
  • 본 논문에서는 채널에서 발생되는 부호간 간섭을 줄이기 위한 적응 등화 알고리즘에서 dither 신호를 이용하는 DSE-MMA와 DQE-MMA 의 등화 성능을 비교하였다. 이들 알고리즘은 기존 MMA의 연산량을 줄이기 위하여 등장하였으며, 적응을 위한 오차 신호를 얻는 과정에서 dither 신호를 부가한 후 1 또는 N 비트의 양자화를 수행함으로서 양자화 오차 성분이 independent and identical 분포하도록 하여 적응 알고리즘의 robustness 성능을 개선할 수 있지만 정상 상태에서 MSE 성능이 열화된다. 논문에서는 동일한 채널과 신호대 잡음비에서 동일한 개념의 dithering에 의한 DSE-MMA와 DQE-MMA의 적응 등화 성능을 시뮬레이션을 통해 직접 비교하였다. 시뮬레이션 결과 DQE-MMA가 수렴 속도를 제외한 모든 성능 지수의 잔여량에서 DSE-MMA보다 우월함을 확인하였다.

CRT를 이용한 하이래딕스 RSA 모듈로 멱승 처리기의 구현 (Implementation of High-radix Modular Exponentiator for RSA using CRT)

  • 이석용;김성두;정용진
    • 정보보호학회논문지
    • /
    • 제10권4호
    • /
    • pp.81-93
    • /
    • 2000
  • 본 논문에서는 RSA 암호 시스템의 핵심 연산인 모듈로 멱승의 처리속도를 향상시키기 위한 방법으로 하이래딕스 (High-Radix) 연산 방식과 CRT(Chinese Remainder Theorem)를 적용한 새로운 하드웨어 구조를 제안한다. 모듈로 멱승의 기본 연산인 모듈로 곱셈은 16진 연산 방법을 사용하여 PE(Processing Element)의 개수를 1/4고 줄임으로써, 기존의 이 진 연산 방식에 비해 클럭 수차 파이프라이닝 플립플롭의 지연시간을 1/4로 줄였다. 복호화시에는 합성수인 계수 N 의 인수, p, q를 알고 있는 점을 이용하여 속도를 향상시키는 일반적인 방법인 CRT 알고리즘을 적용하였다. 즉, s비트 의 키에 대해, s/2비트 모듈로 곱셈기 두 개를 병렬로 동시 수행함으로써 처리 속도를 CRT를 사용하지 않을 때보다 4 배정도 향상시켰다. 암호화의 경우는 두 개의 s/2비트 모듈로 곱셈기를 직렬로 연결하여 s/비트에 대한 연산이 가능하도록 하였으며 공개키는 E는 17비트까지의 지수를 허용하여 빠른 속도를 유지하였다. 모듈로 곱셈은 몽고메리 알고리즘을 변형하여 사용하였으며, 그 내부 계산 구조를 보여주는 데이터 종속 그래프(Dependence Graph)를 수평으로 매핑하여 1차원 선형 어레이 구조로 구성하였다. 그 결과 삼성 0.5um CMOS 스탠다드 셀 라이브러리를 근거로 산출한 때, 1024 비트 RSA 연산에 대해서 160Mhz의 클럭 주파수로 암호화 시에 15Mbps, 복호화 시에 1.22Mbs의 성능을 가질 것으로 예측되며, 이러한 성능은 지금가지 발표된 국내의의 어느 논문보다도 빠른 RSA 처리 시간이다.

Efficient Hardware Architecture of SEED S-box for Smart Cards

  • Hwang, Joon-Ho
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제4권4호
    • /
    • pp.307-311
    • /
    • 2004
  • This paper presents an efficient architecture that optimizes the design of SEED S-box using composite field arithmetic. SEED is the Korean standard 128-bit block cipher algorithm developed by Korea Information Security Agency. The nonlinear function S-box is the most costly operation in terms. of size and power consumption, taking up more than 30% of the entire SEED circuit. Therefore the S-box design can become a crucial factor when implemented in systems where resources are limited such as smart cards. In this paper, we transform elements in $GF(2^8)$ to composite field $GF(((2^2)^2)^2)$ where more efficient computations can be implemented and transform the computed result back to $GF(2^8)$. This technique reduces the S-box portion to 15% and the entire SEED algorithm can be implemented at 8,700 gates using Samsung smart card CMOS technology.

A Study on Constructing Inverse Element Generator over $GF(3^{m})$

  • Park Chun Myoung;Song Hong Bok
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 학술대회지
    • /
    • pp.514-518
    • /
    • 2004
  • This paper presents an algorithm generating inverse element over finite fields $GF(3^{m})$, and constructing method of inverse element generator based on inverse element generating algorithm. A method computing inverse of an element over $GF(3^{m})$ which corresponds to a polynomial over $GF(3^{m})$ with order less than equal to m-l. Here, the computation is based on multiplication, square and cube method derived from the mathematics properties over finite fields.

  • PDF

ICSC(InCheon Silicon Compiler)를 위한 상태 합성알고리즘에 대한 연구 (A Study on State Synthesis Algorithm for ICSC(InCheon Silicon Compiler))

  • 조중휘
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1988년도 전기.전자공학 학술대회 논문집
    • /
    • pp.521-524
    • /
    • 1988
  • This paper describes BSDL(Behavioral/Structural Description Language), CDTF(Control Data Text File) and state synthesizer built for use in ICSC(InCheon Silicon Compiler). BSDL describes structral and behaviral specifications of an ASIC(Application Specific IC) for digital system design. ICSC's paser generates CDTF consists of if-then-else, arithmetic and data transfer statement according to each BSDL statement. State synthesizer generates CCG(Control Constraint Graph) in consideration of execution of statement and generates VCG (Variable Constraint Graph) in consideration use of variable generation and use of variable. Also, it involves allocating algorithm operation nodes in the data path and the control path to machine states with minimum state number and as small area as possible.

  • PDF

SDR 시스템에서 GPU를 사용한 Lattice Reduction-aided 검출기 구현 (Implementation of Lattice Reduction-aided Detector using GPU on SDR System)

  • 김태현;이현석;최승원
    • 디지털산업정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.55-61
    • /
    • 2011
  • This paper presents an implementation of Lattice Reduction (LR)-aided detector for Multiple-Input Multiple-Output (MIMO) system using Graphics Processing Unit (GPU). GPU is a parallel processor which has a number of Arithmetic Logic Units (ALUs), thus, it can minimize the operation time of LR algorithm through the parallelization using multiple threads in the GPU. Through the implemented LR-aided detector, we verify that the LR-aided detector operates a lot faster than Maximum Likelihood (ML) detector. The implemented LR-aided detector has been applied to WiMAX system to show the feasibility of its real-time processing. In addition, we demonstrate that the processing time can be reduced at the cost of 3dB SNR loss by limiting the repeating loop in Lenstra-Lenstra-Lovasz (LLL) algorithm which is frequently used in LR-aided detector.

다치 논리 함수의 ESOP 최소화 알고리즘에 관한 연구 (A Study on Minimization Algorithm for ESOP of Multiple - Valued Function)

  • 송홍복
    • 한국정보처리학회논문지
    • /
    • 제4권7호
    • /
    • pp.1851-1864
    • /
    • 1997
  • 본 논문에서는 몇가지 규칙에 의해 ESOP(Exclusive-OR Sum-Of-Products) 함수를 간단화 하는 알고리즘을 제시하였다. 알고리즘은 두 개의 함수에 대한 곱항 변형 연산을 각 항의 상태에 따라 선택적으로 반복수행하여 간단화를 행하였다. 다치 입력 2치 다출력 함수를 최소화함으로써 입력 디코더를 이용하여 EXOR PLA를 입력의 최적화를 하였다. 4치 연산회로 함수에 본 알고리즘을 적용하여 EXOR형 논리회로를 설계하였고, 2bit 입력 디코더를 EXOR-PLA의 설계에 적용하였다. 컴퓨터 시뮬레이션(IBM PC 486 상에서 실행)을 통해 제시된 알고리즘을 여러가지 연산 회로에 적용한 결과, 함수의 입력 변수의 수와 관계없이 최소화가 가능하였고, 출력함수의 곱항수를 줄일 수 있음을 알 수 있었다.

  • PDF

소프트웨어 구현에 적합한 고속 스트림 암호 AA32 (Fast Stream Cipher AA32 for Software Implementation)

  • 김길호;박창수;김종남;조경연
    • 한국통신학회논문지
    • /
    • 제35권6B호
    • /
    • pp.954-961
    • /
    • 2010
  • 스트림 암호는 블록 암호보다 안전성은 떨어지지만 수행 속도가 빠른 것이 큰 장점이었다. 그러나 최근까지 블록 암호의 수행 속도를 개선한 알고리즘 개발로 지금은 AES의 경우 스트림 암호와 수행 속도 차가 거의 없게 되어, 안전하면서 빠른 스트림 암호 개발이 절실히 요구된다. 본 논문에서는 ASR(Arithmetic Shift Register)과 간단한 논리연산으로 구성된 32비트 출력의 고속 스트림 암호 AA32를 제안한다. 제안한 알고리즘은 소프트웨어 구현이 쉽게 디자인된 스트림 암호 알고리즘으로 128비트 키를 지원하고 있으며, 워드와 바이트 단위로 연산을 수행한다. AA32의 전체 구성은 선형 궤환 순서기(Linear Feedback Sequencer)로 ASR 151비트를 적용하였고, 축소함수는 비선형(Non-Linear) 연산을 위한 S-박스를 사용하지 않고 간단한 논리연산을 사용한 크게 두 부분으로 구성되어 있는 매우 간결한 구조의 스트림 암호이다. 제안한 스트림 암호 AA32는 SSC2, Salsa20 보다 수행 속도 테스트결과 빠른 결과를 보여주고 있으며, 안전성 또한 현대 암호 알고리즘이 필요로 하는 안전성을 만족하고 있다. 제안한 암호 알고리즘은 휴대폰과 같은 무선 인터넷 환경과 DRM(Digital Right Management) 등과 같은 실시간 처리가 필요한 분야와 제한된 환경인 무선 센서 네트워크(Wireless Sensor Network)에 사용 가능한 고속 스트림 암호 알고리즘이다.

휴대용 임베디드 프로세서에서의 MPEG-4 오디오의 실시간 재생을 위한 정수 디코딩 기법 (MPEG-4 Audio Decoding Technique using Integer Operations for Real-time Playback on Embedded Processor)

  • 차경애
    • 방송공학회논문지
    • /
    • 제13권3호
    • /
    • pp.415-418
    • /
    • 2008
  • 소형의 휴대용 단말기는 회로복잡도나 소비전력 등의 문제로 부동소수점 연산 프로세서를 탑재하지 않는 경우가 있는데, 이로 인해 오디오 데이터의 디코딩 시간이 길어져, 끊김이나 잡음이 발생한다. 본 논문에서는 이를 해결하기 위해서 MPEG-4 오디오 디코딩 시 수행되는 실수형 연산과정을 정수형 연산과정으로의 변환을 통하여 디코딩 속도를 향상 시킬 수 있는 알고리즘을 제안하고 실험결과를 통해서 효율성을 보인다.