An Efficient Adaptive Loop Filter Design for HEVC Encoder

HEVC 부호화기를 위한 효율적인 적응적 루프 필터 설계

  • Shin, Seung-yong (Dept. of Information Communication Eng., Hanbat National University) ;
  • Park, Seung-yong (Dept. of Information Communication Eng., Hanbat National University) ;
  • Ryoo, Kwang-ki (Dept. of Information Communication Eng., Hanbat National University)
  • 신승용 (한밭대학교 정보통신공학과) ;
  • 박승용 (한밭대학교 정보통신공학과) ;
  • 류광기 (한밭대학교 정보통신공학과)
  • Published : 2014.10.28

Abstract

In this paper, an efficient design of HEVC Adaptive Loop Filter(ALF) for filter coefficients estimation is proposed. The ALF performs Cholesky decomposition of $10{\times}10$ matrix iteratively to estimate filter coefficients. The Cholesky decomposition of the ALF consists of root and division operation which is difficult to implement in a hardware design because it needs to many computation rate and processing time due to floating-point unit operation of large values of the Maximum 30bit in a LCU($64{\times}64$). The proposed hardware architecture is implemented by designing a root operation based on Cholesky decomposition by using multiplexer, subtracter and comparator. In addition, The proposed hardware architecture of efficient and low computation rate is implemented by designing a pipeline architecture using characteristic operation steps of Cholesky decomposition. An implemented hardware is designed using Xilinx ISE 14.3 Vertex-6 XC6VCX240T FPGA device and can support a frame rate of 40 4K Ultra HD($4096{\times}2160$) frames per second at maximum operation frequency 150MHz.

본 논문에서는 필터 계수 추출을 위한 HEVC 적응적 루프 필터(ALF, Adaptive Loop Filter)의 효율적인 설계를 제안한다. ALF는 필터 계수를 추출하기 위해 $10{\times}10$ 행렬의 촐레스키 분해를 반복적으로 수행한다. ALF의 촐레스키 분해는 루트 연산 및 나눗셈 연산 등 하드웨어로 설계하기 어려운 연산들로 구성되어 있고, LCU($64{\times}64$) 한 개당 최대 30비트의 큰 값들을 소수점 단위로 연산하기 때문에 많은 연산량과 수행 시간을 필요로 한다. 본 논문에서 제안한 하드웨어 구조는 멀티플렉서와 뺄셈기, 비교기 등을 이용하여 촐레스키 분해에 사용되는 루트 연산을 구현하였다. 또한, 촐레스키 분해의 특징적인 연산 과정들을 파이프라인 구조로 설계함으로써 효율적이면서 적은 연산량을 갖는 하드웨어 구조로 구현하였다. 구현한 하드웨어는 Xilinx ISE 14.3 Vertex-6 XC6VCX240T FPGA 디바이스를 사용하여 설계하였으며, 최대 동작 주파수 150MHz에서 4K UHD($4096{\times}2160$) 영상을 초당 40프레임으로 실시간 처리할 수 있다.

Keywords