• 제목/요약/키워드: Multiplication operation

검색결과 309건 처리시간 0.032초

곱셈 지도에 관한 고찰 (The Study of Teaching Multiplication)

  • 강문봉;김정하
    • 한국초등수학교육학회지
    • /
    • 제22권4호
    • /
    • pp.369-384
    • /
    • 2018
  • 곱셈은 동수누가, 배, 곱집합을 포함한 여러 가지 의미를 가지고 있고 다양한 상황에서 사용된다. 초등학교에서 곱셈의 이러한 다양한 의미는 교과서에 구체화되어 있으며 지도 방법이나 지도 순서가 다른 개념이나 연산에 비해 매우 안정적으로 정착되어 있다. 그럼에도 불구하고 좀더 보완되고 개선될 여지가 있어 보인다. 이 연구는 곱셈의 여러 개념적 측면들이 어떤 유사점과 차이점이 있는지를 문헌을 통해 고찰해 보고 교과서 분석을 통해 그 지도 방법과 지도 순서가 적절한지를 분석해 보려는 것이다. 연구 결과, 배 개념이 너무 일찍 도입되었으며, 그 이후 곱셈 지도에서 배 개념을 제대로 반영하지 못하였음을 알 수 있었다. 또한 양과 양의 곱셈을 직사각형 넓이 개념을 이용하여 지도할 필요성도 있었다.

  • PDF

3-way Toom-Cook 곱셈 알고리듬과 고속 축약 알고리듬을 이용한 256-비트 모듈러 곱셈기 설계 (A Design of 256-bit Modular Multiplier using 3-way Toom-Cook Multiplication Algorithm and Fast Reduction Algorithm)

  • 양현준;신경욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.223-225
    • /
    • 2021
  • 모듈러 곱셈은 ECC의 점 스칼라 곱셈을 위한 핵심 연산이며, ECC 프로세서의 성능에 영향을 미치는 가장 중요한 요소이다. 본 논문에서는 3-way Toom-Cook 곱셈 알고리듬과 수정된 고속 축약 알고리듬을 적용한 256-비트 모듈러 곱셈기 설계에 대해 기술한다. 90-비트 곱셈기 1개와 264-비트 가산기 3개가 사용되었으며, 하드웨어 크기와 소요 클록 사이클 수 사이의 최적화를 이루었다. Zynq UltraScale+ MPSoC 디바이스에 구현하여 모듈러 곱셈기를 검증하였으며, 모듈러 곱셈 연산에 15 클록 사이클이 소요된다.

  • PDF

고속 알고리즘을 이용한 음장 효과 구현 (Sound Field Effect Implementation Using East Algorithm)

  • 손성용;서정일;한민수
    • 대한음성학회지:말소리
    • /
    • 제47호
    • /
    • pp.85-96
    • /
    • 2003
  • It is difficult to implement sound field effect on real time using linear convolution in time domain because linear convolution needs much multiply operations. In this paper three ways is introduced to reduce multiplication operations. Firstly, linear convolution in time domain is replaced with circular convolution in frequency domain. It means that it operates multiplication in place of convolution. Secondly, one frame will be divided into several frames. It will reduce the multiplication operation in processing that transforms time domain into frequency domain. Finally, QFT will be used in place of FFT. Three ways result much reduction in multiplication operations. The reduction of the multiplication operation makes the real time implementation possible.

  • PDF

The Novel Efficient Dual-field FIPS Modular Multiplication

  • Zhang, Tingting;Zhu, Junru;Liu, Yang;Chen, Fulong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권2호
    • /
    • pp.738-756
    • /
    • 2020
  • The modular multiplication is the key module of public-key cryptosystems such as RSA (Rivest-Shamir-Adleman) and ECC (Elliptic Curve Cryptography). However, the efficiency of the modular multiplication, especially the modular square, is very low. In order to reduce their operation cycles and power consumption, and improve the efficiency of the public-key cryptosystems, a dual-field efficient FIPS (Finely Integrated Product Scanning) modular multiplication algorithm is proposed. The algorithm makes a full use of the correlation of the data in the case of equal operands so as to avoid some redundant operations. The experimental results show that the operation speed of the modular square is increased by 23.8% compared to the traditional algorithm after the multiplication and addition operations are reduced about (s2 - s) / 2, and the read operations are reduced about s2 - s, where s = n / 32 for n-bit operands. In addition, since the algorithm supports the length scalable and dual-field modular multiplication, distinct applications focused on performance or cost could be satisfied by adjusting the relevant parameters.

ARM Cortex-M3 상에서 곱셈 연산 최적화 구현 (Compact Implementation of Multiplication on ARM Cortex-M3 Processors)

  • 서화정
    • 한국정보통신학회논문지
    • /
    • 제22권9호
    • /
    • pp.1257-1263
    • /
    • 2018
  • 경량 사물인터넷 디바이스 상에서의 암호화 구현은 정확하고 빠르게 연산을 수행하여 서비스의 가용성을 높이는 것이 중요하다. 특히 곱셈 연산은 RSA, ECC, 그리고 SIDH와 같은 공개키 암호화에 활용되는 핵심 연산으로 최적화된 구현이 요구된다. 하지만 최신 저전력 프로세서인 ARM Cortex-M3 프로세서의 경우에는 곱셈연산 입력 크기에 따라 수행속도가 달라지는 보안 취약점을 가지고 있다. 수행속도가 달라지게 될 경우 연산 시간의 차이점을 확인하여 비밀정보를 추출하는 것이 가능하다. 이를 보완하기 위해 최근 연구에서는 고정된 연산 시간 안에 곱셈 연산을 수행하는 기법이 제안되었다. 하지만 해당 구현에서는 여전히 속도가 완전히 최적화되어 있지 않다. 본 논문에서는 기존에 제안된 곱셈연산을 보다 효율적으로 연산하기 위한 기법을 제안한다. 제안된 기법은 기존 방식에 비해 연산 속도를 최대 25.7% 향상시킨다.

Consecutive Operand-Caching Method for Multiprecision Multiplication, Revisited

  • Seo, Hwajeong;Kim, Howon
    • Journal of information and communication convergence engineering
    • /
    • 제13권1호
    • /
    • pp.27-35
    • /
    • 2015
  • Multiprecision multiplication is the most expensive operation in public key-based cryptography. Therefore, many multiplication methods have been studied intensively for several decades. In Workshop on Cryptographic Hardware and Embedded Systems 2011 (CHES2011), a novel multiplication method called 'operand caching' was proposed. This method reduces the number of required load instructions by caching the operands. However, it does not provide full operand caching when changing the row of partial products. To overcome this problem, a novel method, that is, 'consecutive operand caching' was proposed in Workshop on Information Security Applications 2012 (WISA2012). It divides a multiplication structure into partial products and reconstructs them to share common operands between previous and next partial products. However, there is still room for improvement; therefore, we propose a finely designed operand-caching mode to minimize useless memory accesses when the first row is changed. Finally, we reduce the number of memory access instructions and boost the speed of the overall multiprecision multiplication for public key cryptography.

FPGA기반 뉴럴네트워크 가속기에서 2차 타일링 기반 행렬 곱셈 최적화 (Optimizing 2-stage Tiling-based Matrix Multiplication in FPGA-based Neural Network Accelerator)

  • 권진세;이제민;권용인;박제만;유미선;김태호;김형신
    • 대한임베디드공학회논문지
    • /
    • 제17권6호
    • /
    • pp.367-374
    • /
    • 2022
  • The acceleration of neural networks has become an important topic in the field of computer vision. An accelerator is absolutely necessary for accelerating the lightweight model. Most accelerator-supported operators focused on direct convolution operations. If the accelerator does not provide GEMM operation, it is mostly replaced by CPU operation. In this paper, we proposed an optimization technique for 2-stage tiling-based GEMM routines on VTA. We improved performance of the matrix multiplication routine by maximizing the reusability of the input matrix and optimizing the operation pipelining. In addition, we applied the proposed technique to the DarkNet framework to check the performance improvement of the matrix multiplication routine. The proposed GEMM method showed a performance improvement of more than 2.4 times compared to the non-optimized GEMM method. The inference performance of our DarkNet framework has also improved by at least 2.3 times.

타원곡선 암호를 위한 고성능 모듈러 곱셈기 (A High Performance Modular Multiplier for ECC)

  • 최준영;신경욱
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.961-968
    • /
    • 2020
  • 타원곡선 암호에 필수적으로 사용되는 모듈러 곱셈의 고성능 하드웨어 설계에 대해 기술한다. 본 논문의 모듈러 곱셈기는 NIST FIPS 186-2에 정의된 소수체 상의 5가지 체 크기(192, 224, 256, 384, 521 비트)의 모듈러 곱셈을 지원하며, 정수 곱셈과 축약의 두 단계 과정으로 모듈러 곱셈을 연산한다. 고속 정수 곱셈을 위해 카라추바-오프만 곱셈 알고리듬이 사용되었고, 축약 연산을 위해 Lazy 축약 알고리듬이 사용되었다. 또한, Lazy 축약에 포함된 나눗셈 연산을 위해 Nikhilam 나눗셈 알고리듬이 사용되었으며, 나눗셈 연산은 주어진 모듈러 값에 대해 처음 한 번만 연산되고, 모듈로 값이 고정된 상태로 연속적인 모듈러 곱셈이 수행되는 경우에는 나눗셈을 거치지 않도록 하였다. 설계된 모듈러 곱셈기는 32 MHz의 클록 주파수로 동작하는 경우에 초당 640만번의 모듈러 곱셈을 연산할 수 있는 것으로 평가되었으며, 180-nm CMOS 셀 라이브러리로 합성한 결과, 67 MHz의 클록 주파수로 동작이 가능하며, 456,400 등가 게이트로 구현되었다.

GPU-Based ECC Decode Unit for Efficient Massive Data Reception Acceleration

  • Kwon, Jisu;Seok, Moon Gi;Park, Daejin
    • Journal of Information Processing Systems
    • /
    • 제16권6호
    • /
    • pp.1359-1371
    • /
    • 2020
  • In transmitting and receiving such a large amount of data, reliable data communication is crucial for normal operation of a device and to prevent abnormal operations caused by errors. Therefore, in this paper, it is assumed that an error correction code (ECC) that can detect and correct errors by itself is used in an environment where massive data is sequentially received. Because an embedded system has limited resources, such as a low-performance processor or a small memory, it requires efficient operation of applications. In this paper, we propose using an accelerated ECC-decoding technique with a graphics processing unit (GPU) built into the embedded system when receiving a large amount of data. In the matrix-vector multiplication that forms the Hamming code used as a function of the ECC operation, the matrix is expressed in compressed sparse row (CSR) format, and a sparse matrix-vector product is used. The multiplication operation is performed in the kernel of the GPU, and we also accelerate the Hamming code computation so that the ECC operation can be performed in parallel. The proposed technique is implemented with CUDA on a GPU-embedded target board, NVIDIA Jetson TX2, and compared with execution time of the CPU.

A New Multiplication Architecture for DSP Applications

  • Son, Nguyen-Minh;Kim, Jong-Soo;Choi, Jae-Ha
    • 융합신호처리학회논문지
    • /
    • 제12권2호
    • /
    • pp.139-144
    • /
    • 2011
  • The modern digital logic technology does not yet satisfy the speed requirements of real-time DSP circuits due to synchronized operation of multiplication and accumulation. This operation degrades DSP performance. Therefore, the double-base number system (DBNS) has emerged in DSP system as an alternative methodology because of fast multiplication and hardware simplicity. In this paper, authors propose a novel multiplication architecture. One operand is an output of a flash analog-to-digital converter (ADC) in DBNS format, while the other operand is a coefficient in the IEEE standard floating-point number format. The DBNS digital output from ADC is produced through a new double base number encoder (DBNE). The multiplied output is in the format of the IEEE standard floating-point number (FPNS). The proposed circuits process multiplication and conversion together. Compared to a typical multiplier that uses the FPNS, the proposed multiplier also consumes 45% less gates, and 44% faster than the FPNS multiplier on Spartan-3 FPGA board. The design is verified with FIR filter applications.