MPEG-2 AAC Encoder의 심리음향 모델 최적화

An Optimization on the Psychoacoustic Model for MPEG-2 AAC Encoder

  • 박종태 (조선대학교 전자정보공과대학 전자정보통신공학부) ;
  • 문규성 (조선대학교 전자정보공과대학 전자정보통신공학부) ;
  • 이강현 (조선대학교 전자정보공과대학 전자정보통신공학부)
  • Park, Jong-Tae (School of Elec. & Info.-Comm. Eng., Elec.-Info. College, Chosun University) ;
  • Moon, Kyu-Sung (School of Elec. & Info.-Comm. Eng., Elec.-Info. College, Chosun University) ;
  • Rhee, Kang-Hyeon (School of Elec. & Info.-Comm. Eng., Elec.-Info. College, Chosun University)
  • 발행 : 2001.03.25

초록

최근 멀티미디어 분야 중에서 가장 중요한 기술 중의 하나가 압축이다. 오디오 파일들은 인터넷을 중심으로 급속히 전파되어가고 있으며, 그 중에서 가장 유명한 것이 MP-3(MPEC-1 Layer3)인데, MP-3는 128Kbps에서 CD음질을 얻을 수 있지만 64Kbps 이하에서는 음질이 급속히 떨어진다. 반면에 MPEG-2 AAC(Advanced Audio Coding)는 MPEG-1과 호환성을 무시하지만 MP 3보다 1.4배의 높은 압축 율을 갖으며, 최대 7.1채널과 96KHz의 샘플 율을 갖는다. 본 논문에서는 MPEG-2 AAC 인코더 부분에서 막대한 연산 량을 갖는 심리음향 모델을 최적화하여 AAC 인코딩 연산 량을 감소시키며 처리속도를 증가하는 알고리즘을 제안한다. 심리음향 모델 최적화 응용 프로그램은 C++언어를 이용하여 구현하였으며, 실험결과 심리음향 모델은 SMR(Signal to Masking Ratio)을 위하여 44.1KHz의 샘플 율을 갖고 2048포인트의 FFT(Fast Fourier Transform)연산을 수행하며, 인코더 블록의 제어를 위하여 서브밴드 필터에 각각의 엔트로피 값들이 입력된다. 제안된 심리음향 모델은 비 예측성 값의 최적화로 인하여 빠른 속도로 수행되었다. 또한 비 예측성 값을 순음지수로 변화 시, 고 주파수 영역의 순음지수 값의 최적화로 연산처리 속도가 증가하였다.

Currently, the compression is one of the most important technology in multimedia society. Audio files arc rapidly propagated throughout internet Among them, the most famous one is MP-3(MPEC-1 Laver3) which can obtain CD tone from 128Kbps, but tone quality is abruptly down below 64Kbps. MPEC-II AAC(Advanccd Audio Coding) is not compatible with MPEG 1, but it has high compression of 1.4 times than MP 3, has max. 7.1 and 96KHz sampling rate. In this paper, we propose an algorithm that decreased the capacity of AAC encoding computation but increased the processing speed by optimizing psychoacoustic model which has enormous amount of computation in MPEG 2 AAC encoder. The optimized psychoacoustic model algorithm was implemented by C++ language. The experiment shows that the psychoacoustic model carries out FFT(Fast Fourier Transform) computation of 3048 point with 44.1 KHz sampling rate for SMR(Signal to Masking Ratio), and each entropy value is inputted to the subband filters for the control of encoder block. The proposed psychoacoustic model is operated with high speed because of optimization of unpredictable value. Also, when we transform unpredictable value into a tonality index, the speed of operation process is increased by a tonality index optimized in high frequency range.

키워드

참고문헌

  1. 구대성, 김병규, 김윤홍, 신광규, 이강현 : 'MPEG 오디오를 위한 분산 연산방식의 합성 필터뱅크 설계' 대한전자공학회 IMMC'99, pp.21-25, 1999
  2. ISO/IEC 11172-3 Information technology-Coding of moving pictures and associated audio for digital storage media at up to about 1.5Mbit/s Part3 : Audio
  3. J. Princen, A.Johnson, A Bradley, 'Subband/Transform Coding Using Filter Bank Designs Based on Time Domain Alias ing Cancellation', Proc. of the ICASSP, pp. 2161-2164, 1987
  4. ISO/IEC 13818-7 Information technology-Generic coding of moving pictures and associated audio information part 7 : Advanced Audio Coding (AAC)
  5. ISO/IEC 14496-3 Information technology very low Bitrate Audio-Visual Coding Part 3 : Audio
  6. Mark Kahrs, Karlheinz Brandenburg, 'APPLICATIONS OF DIGITAL SIGNAL PROCESSING TO AUDIO AND ACOUSTICS,' Kluwer Academic publishers, 1988
  7. ITU R Document TG10-2/3-E only, 'Basic Audio Quality Requirements for Digital Audio Bit-Rate Reduction System for Broadcast Emission and Primary Distribution', 28 Oct. 1991
  8. M. Bosi, 'Overview of MPEG Audio : Current and Future Standards for Low Bit-Rate Audio Coding', J. AES, Vol. 45, No. 1/2, pp. 4-21, Jan/Feb. 1997
  9. M. Bosi, 'ISO/IEC MPEG 2 Advanced Audio Coding', J. AES, Vol. 45, No. 10, pp. 789-814, Oct. 1997
  10. D. Pan, 'A Tutorial on MPEG/Audio Compression,' IEEE Trans. on Multimedia, Vol. 2, No. 2, pp. 60-74, 1995 https://doi.org/10.1109/93.388209
  11. ATSC, 'Digital Audio Compression Standard (AC-3),' Dec. 1995
  12. ALEXANDER D. POULARIKAS, 'The Trans-forms and Applications Hand Book,' CRC and IEEE Press, 1996
  13. KEN C. POHLMANN 'Principle of Digital Audio,' Fourth Edition, McGrow-Hill Book Co., 1999