• Title/Summary/Keyword: compression coding

Search Result 828, Processing Time 0.028 seconds

Neural Image Compression using Block based Adaptive Resizing (적응적 크기 조정을 이용한 블록 기반 신경망 이미지 부호화)

  • Park, Min Jeong;Kim, Yeongwoong;Kim, Donghyun;Lim, Sung Chang;Kim, Hui Yong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.1199-1202
    • /
    • 2022
  • 본 논문에서는 최근 연구되고 있는 신경망 이미지 부호화(NNIC: Neural Network based Image Coding)를 위한 적응적 크기 조정을 이용한 블록 기반 신경망 이미지 부호화 알고리즘을 제안한다. 제안 방법은 이미지를 여러 개의 2N×2N 블록으로 분할한 후 분할된 각 블록에 대해 두 가지 크기 조정 모드 중 하나로 부호화를 수행한다. 첫번째 모드는 2N×2N 블록을 구성하는 4 개의 N×N 블록을 각각 NNIC 인코더의 입력으로 사용하는 모드 1(크기 미조정 모드)이며, 두번째 모드는 2N×2N 블록을 하나의 N×N 블록으로 다운 스케일링하여 NNIC 입력으로 사용하는 모드 2(크기 조정 모드)이다. 모드 결정은 비트율-왜곡 비용(Rate-distortion Cost)이 더 적도록 이루어진다. 블록 기반 부호화와 제안 알고리즘을 비교하면, BDBR 은 약 -1.75%, BDSNR 은 약 0.073dB 으로 제안 알고리즘에서 성능 향상이 나타났고, 픽처 부호화와 제안 알고리즘을을 비교하면 BDBR 은 약 0.57%, BDSNR 은 -0.029dB 로 픽처 부호화와 거의 유사한 성능을 보인다는 것을 확인할 수 있다.

  • PDF

A PCA-based feature map compression method applied to video coding for machines (VCM을 위한 PCA 기반 피처 맵 압축 방법)

  • Park, Seungjin;Lee, Minhun;Choi, Hansol;Kim, Minsub;Oh, Seoung-Jun;Kim, Younhee;Do, Jihoon;Jeong, Se Yoon;Sim, Donggyu
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.27-29
    • /
    • 2021
  • 인공지능 기반 머신 비전 응용이 증가함에 따라 사람이 아닌 기계에서 소비되는 영상 정보를 전송하는 요구가 발생하고 있다. 일반적으로 영상 정보를 전송할 때는 전송 비용을 고려하여 정보를 압축하며 기존 영상 압축 방법은 사람의 시각 인지적 특성을 반영하여 설계되었다. 따라서 기존 영상 압축 방법은 기계에서 소비되는 영상 정보를 압축하는 방법으로 적절하지 않다고 판단하여 2019년 7월, 기계를 위한 영상 부호화 기술의 표준화가 시작되었다. 본 논문에서는 머신 비전 태스크 중, 객체 탐지를 수행하는 네트워크의 피처 맵을 압축하는 방법을 제안한다. 제안하는 방법은 피처 맵의 채널 간 중복성을 제거하기 위해 PCA 기반의 변환을 적용하여 피처 맵의 차원을 축소하며 특히 해상도 계층 구조를 갖는 네트워크의 피처 맵을 압축하기 위해 각 해상도 계층간 변환 기저를 예측하여 추가로 압축률을 높인다. 제안하는 방법을 적용하여 객체 탐지 결과의 큰 성능 하락 없이 약 92.3%에 데이터양 감소를 달성하였다.

  • PDF

multi-scale feature compression for VCM (VCM 을 위한 다중 스케일 특징 압축 방법)

  • Han, Heeji;Choi, Minseok;Jung, Soon-heung;Kwak, Sangwoon;Choo, Hyon-Gon;Cheong, Won-Sik;Seo, Jeongil;Choi, Haechul
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.140-142
    • /
    • 2022
  • 최근 신경망 기반 기술들의 발달에 따라, 신경망 기술들은 충분히 높은 임무 수행 성능을 달성하고 있으며 사물인터넷, 스마트시티, 자율주행 등 다양한 환경을 고려한 응용 역시 활발히 연구되고 있다. 하지만 이러한 신경망의 임무 다양성과 복잡성은 더욱 많은 비디오 데이터가 요구되며 대역폭이 제한된 환경을 고려한 응용에서 이러한 비디오 데이터를 효과적으로 전송할 방법이 필요하다. 이에 따라 국제 표준화 단체인 MPEG 에서는 신경망 기계 소비에 적합한 비디오 부호화 표준 개발을 위해 Video Coding for Machines (VCM) 표준화를 진행하고 있다. 본 논문에서는 신경망의 특징 부호화 효율을 개선하기 위하여 VCM 을 위한 다중 스케일 특징 압축 방법을 제안한다. COCO2017 데이터셋의 검증 영상을 기반으로 제안방법을 평가한 결과, 압축된 특징의 크기는 원본 이미지의 0.03 배이며 6.8% 미만의 임무 정확도 손실을 보였다.

  • PDF

Joint Training of Neural Image Compression and Super Resolution Model (신경망 이미지 부호화 모델과 초해상화 모델의 합동훈련)

  • Cho, Hyun Dong;Kim, YeongWoong;Cha, Junyeong;Kim, DongHyun;Lim, Sung Chang;Kim, Hui Yong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.1191-1194
    • /
    • 2022
  • 인터넷의 발전으로 수많은 이미지와 비디오를 손쉽게 이용할 수 있게 되었다. 이미지와 비디오 데이터의 양이 기하급수적으로 증가함에 따라, JPEG, HEVC, VVC 등 이미지와 비디오를 효율적으로 저장하기 위한 부호화 기술들이 등장했다. 최근에는 인공신경망을 활용한 학습 기반 모델이 발전함에 따라, 이를 활용한 이미지 및 비디오 압축 기술에 관한 연구가 빠르게 진행되고 있다. NNIC (Neural Network based Image Coding)는 이러한 학습 가능한 인공신경망 기반 이미지 부호화 기술을 의미한다. 본 논문에서는 NNIC 모델과 인공신경망 기반의 초해상화(Super Resolution) 모델을 합동훈련하여 기존 NNIC 모델보다 더 높은 성능을 보일 수 있는 방법을 제시한다. 먼저 NNIC 인코더(Encoder)에 이미지를 입력하기 전 다운 스케일링(Down Scaling)으로 쌍삼차보간법을 사용하여 이미지의 화소를 줄인 후 부호화(Encoding)한다. NNIC 디코더(Decoder)를 통해 부호화된 이미지를 복호화(Decoding)하고 업 스케일링으로 초해상화를 통해 복호화된 이미지를 원본 이미지로 복원한다. 이때 NNIC 모델과 초해상화 모델을 합동훈련한다. 결과적으로 낮은 비트량에서 더 높은 성능을 볼 수 있는 가능성을 보았다. 또한 합동훈련을 함으로써 전체 성능의 향상을 보아 학습 시간을 늘리고, 압축 잡음을 위한 초해상화 모델을 사용한다면 기존의 NNIC 보다 나은 성능을 보일 수 있는 가능성을 시사한다.

  • PDF

Low-complexity Adaptive Loop Filters Depending on Transform-block Region (변환블럭의 영역에 따른 저복잡도 적응 루프 필터)

  • Lim, Woong;Nam, Jung-Hak;Sim, Dong-Gyu;Jung, Kwang-Soo;Cho, Dae-Sung;Choi, Byung-Doo
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.48 no.5
    • /
    • pp.46-54
    • /
    • 2011
  • In this paper, we propose a low-complexity loop filtering method depending on transform-block regions. Block adaptive loop filter (BALF) was developed to improve about 10% in compression performance for the next generation video coding. The BALF employs the Wiener filter that makes reconstructed frames close to the original ones and transmits filter-related information. However, the BALF requires high computational complexity, while it can achieve high compression performance because the block adaptive loop filter is applied to all the pixels in blocks. The proposed method is a new loop filter that classifies pixels in a block into inner and boundary regions based on the characteristics of the integer transform and derives optimum filters for each region. Then, it applies the selected filters for the inner and/or boundary regions. The decoder complexity can be adjusted by selecting region-dependent filter to be used in the decoder side. We found that the proposed algorithm can reduce 35.5% of computational complexity with 2.56% of compression loss, in case that only boundary filter is used.

Parallelization Method of Slice-based video CODEC (슬라이스 기반 비디오 코덱 병렬화 기법)

  • Nam, Jung-Hak;Ji, Bong-Il;Jo, Hyun-Ho;Sim, Dong-Gyu;Cho, Dae-Sung
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.47 no.6
    • /
    • pp.48-56
    • /
    • 2010
  • Recently, we need to dramatically speed up real-time video encoding and decoding on mobile devices because complexity of video CODEC is significantly increasing along with the demand for multimedia service of high-quality and high-definition videos by users. A variety of research is conducted for parallelism of video processing using newly developed multi-core platforms. In this paper, we propose a method of parallelism based on slice partition of video compression CODEC. We propose a novel concept of a parallel slice for parallelism and propose a new coding order to be adequate to the parallel slice which keeps high coding efficiency. To minimize synchronization time of multiple parallel slices, we also propose a synchronization method to determinate whether the parallel slice could be independently decoded or not. Experimental results shows that we achieved 27.5% (40.7%) speed-up by parallelism with bit-rate increase of 3.4% (2.7%) for CIF sequences (720p sequences) by implementing the proposed algorithm on the H.264/AVC.

Block-Based Transform-Domain Measurement Coding for Compressive Sensing of Images (영상 압축센싱을 위한 블록기반 변환영역 측정 부호화)

  • Nguyen, Quang Hong;Nguyen, Viet Anh;Trinh, Chien Van;Dinh, Khanh Quoc;Park, Younghyeon;Jeon, Byeungwoo
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.39A no.12
    • /
    • pp.746-755
    • /
    • 2014
  • Compressive sensing (CS) has drawn much interest as a new sampling technique that enables signals to be sampled at a much lower than the Nyquist rate. By noting that the block-based compressive sensing can still keep spatial correlation in measurement domain, in this paper, we propose a novel encoding technique for measurement data obtained in the block-based CS of natural image. We apply discrete wavelet transform (DWT) to decorrelate CS measurements and then assign a proper quantization scheme to those DWT coefficients. Thus, redundancy of CS measurements and bitrate of system are reduced remarkably. Experimental results show improvements in rate-distortion performance by the proposed method against two existing methods of scalar quantization (SQ) and differential pulse-code modulation (DPCM). In the best case, the proposed method gains up to 4 dB, 0.9 dB, and 2.5 dB compared with the Block-based CS-Smoothed Projected Landweber plus SQ, Block-based CS-Smoothed Projected Landweber plus DPCM, and Multihypothesis Block-based CS-Smoothed Projected Landweber plus DPCM, respectively.

Efficient Coding of Motion Vector and Mode Information for H.264/AVC (H.264/AVC에서 효율적인 움직임 벡터와 모드 정보의 압축)

  • Lee, Dong-Shik;Kim, Young-Mo
    • Journal of Korea Multimedia Society
    • /
    • v.11 no.10
    • /
    • pp.1359-1365
    • /
    • 2008
  • The portion of header in H.264 gets higher than those of previous standards instead of its better compression efficiency. Therefore, this paper proposes a new technique to compress the header of H.264. Unifying a sentence elementary in H.264, H.264 does not consider the distribution of element which be encoded and uses existing Exp-Golomb method, but it is uneffective for variable length coding. Most of the header are block type(s) and motion vector difference(s), and there are redundancies in the header of H.264. The redundancies in the header of H.264 which are analyzed in this paper are three. There are frequently appearing symbols and non-frequently appearing symbols in block types. And when mode 8 is selected in macroblock, all of four sub-macroblock types are transferred. At last, same values come in motion vector difference, especially '0.' This paper proposes the algorithm using type code and quadtree, and with them presents the redundant information of header in H.264. The type code indicates shape of the macroblock and the quadtree does the tree structured motion compensation. Experimental results show that proposed algorithm achieves lower total number of encoded bits over JM12.4 up to 32.51% bit reduction.

  • PDF

The Design of Optimal Filters in Vector-Quantized Subband Codecs (벡터양자화된 부대역 코덱에서 최적필터의 구현)

  • 지인호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.19 no.1
    • /
    • pp.97-102
    • /
    • 2000
  • Subband coding is to divide the signal frequency band into a set of uncorrelated frequency bands by filtering and then to encode each of these subbands using a bit allocation rationale matched to the signal energy in that subband. The actual coding of the subband signal can be done using waveform encoding techniques such as PCM, DPCM and vector quantizer(VQ) in order to obtain higher data compression. Most researchers have focused on the error in the quantizer, but not on the overall reconstruction error and its dependence on the filter bank. This paper provides a thorough analysis of subband codecs and further development of optimum filter bank design using vector quantizer. We compute the mean squared reconstruction error(MSE) which depends on N the number of entries in each code book, k the length of each code word, and on the filter bank coefficients. We form this MSE measure in terms of the equivalent quantization model and find the optimum FIR filter coefficients for each channel in the M-band structure for a given bit rate, given filter length, and given input signal correlation model. Specific design examples are worked out for 4-tap filter in 2-band paraunitary filter bank structure. These optimum paraunitary filter coefficients are obtained by using Monte Carlo simulation. We expect that the results of this work could be contributed to study on the optimum design of subband codecs using vector quantizer.

  • PDF

Evaluation of Video Codec AI-based Multiple tasks (인공지능 기반 멀티태스크를 위한 비디오 코덱의 성능평가 방법)

  • Kim, Shin;Lee, Yegi;Yoon, Kyoungro;Choo, Hyon-Gon;Lim, Hanshin;Seo, Jeongil
    • Journal of Broadcast Engineering
    • /
    • v.27 no.3
    • /
    • pp.273-282
    • /
    • 2022
  • MPEG-VCM(Video Coding for Machine) aims to standardize video codec for machines. VCM provides data sets and anchors, which provide reference data for comparison, for several machine vision tasks including object detection, object segmentation, and object tracking. The evaluation template can be used to compare compression and machine vision task performance between anchor data and various proposed video codecs. However, performance comparison is carried out separately for each machine vision task, and information related to performance evaluation of multiple machine vision tasks on a single bitstream is not provided currently. In this paper, we propose a performance evaluation method of a video codec for AI-based multi-tasks. Based on bits per pixel (BPP), which is the measure of a single bitstream size, and mean average precision(mAP), which is the accuracy measure of each task, we define three criteria for multi-task performance evaluation such as arithmetic average, weighted average, and harmonic average, and to calculate the multi-tasks performance results based on the mAP values. In addition, as the dynamic range of mAP may very different from task to task, performance results for multi-tasks are calculated and evaluated based on the normalized mAP in order to prevent a problem that would be happened because of the dynamic range.