Unified coding scheme of speech and music

음악 및 음성 신호의 융합 압축 기술

  • Published : 2011.11.30

Abstract

오디오와 음성 압축 기술적 근간은 서로 다르지만, 최근의 모바일 멀티미디어 기기 시장의 컨버전스 현상에 따라 압축하고자 하는 신호가 혼용되고 있으며, 비슷한 목표 전송률과 음질로 수렴하고 있다. 현재는 동일 기기에서 서로 다른 압축 기술을 적용하고 있으나, 음성과 음악이 동시에 서비스 되는 멀티미디어 기기에서는 단일 압축 방식으로 처리하고자 하는 이슈가 부각되고 있다. 특히, 스마트 폰 및 음악 콘텐츠 포탈 서비스의 대중화를 고려할 때, 음성 및 음악 신호 모두를 효율적으로 압축하는 음악 및 음성 신호의 융합 압축 기술이 더욱 필요해 보인다. 본 고에서는 MPEG 오디오 그룹에서 가장 최근 진행한 Unified Speech and Audio Coding(USAC)의 탄생 배경 및 표준화 현황을 소개한다. USAC는 64kbps 이하에서 기술적으로 최고 성능을 지닌 AMR-WB+ 및 HE-AAC v2보다도 우월한 음질을 보이며, 높은 비트율에서도 동등한 음질을 보장한다. 이런 우수한 음질에 기여한 USAC의 스위칭 구조와 더불어 기술적으로 향상된 주요 모듈인 파라미터 기반 스테레오 및 고주파 압축, 그리고 엔트로피 코딩 방식에 대해서 살펴 본다. 향후, 다양한 오디오 신호를 효율적으로 압축하는 USAC는 디지털 라디오, 모바일 TV, 그리고 오디오 북과 같은 사용자 시나리오에서 사용될 확률이 높아 보인다. 또한, USAC는 배경 잡음이나 배경 음악이 있는 경우에도 성능이 우수하기 때문에 YouTube 및 podcast 등과 같이 사용자가 콘텐츠를 생성할 때도 유용하게 사용 될 수 있다.

Keywords

References

  1. 3GPP Tdoc S4-050407, "Global analysis laboratory report for phase-1 of the 3GPP audio codec characterization test for PSS-MMS-MBMS"
  2. Max. Neuendorf, "A novel scheme for low bitrate unified speech and audio coding - MPEG RM0," 126th Audio Engineering Society Convention, Convention Paper 7713 (2009)
  3. S. Quackenbush, "MPEG unified speech and audio coding," AES 43rd International Conference (2011 Sep.)
  4. ISO/IEC JTC1/SC29/WG11, "Call for proposals on unified speech and audio coding," N9519 (2007 Oct.)
  5. Jari Makinen, Bruno Bessette, Stefan Bruhn, Pasi Ojala, Redwan Salami, & Anisse Taleb, "AMR-WB+: A new coding standard for 3rd generation mobile audio services", IEEE ICASSP '05, vol.2, pp.1109-1112, (2005 Mar.)
  6. ETSI TS 126 290 V10.0.0 (2011-04), Digital cellular telecommunications system (Phase 2+); Universal Mobile Telecommunications System (UMTS); LTE; Audio codec processing functions; Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions (3GPP TS 26.290 version 10.0.0 Release 10)
  7. ISO/IEC 14496-3:2009, Information technology - Coding of audio-visual objects - Part 3: Audio, Edition: 4
  8. International Telecommunication Union, "Method for the subjective assessment of intermediate sound quality (MUSHRA)," ITU-R Recommendation BS. 1543-1, Geneva, Switzerland (2001)
  9. ISO/IEC 23003-3:2011/FDIS, Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding, N12231 (2011)
  10. ISO/IEC?23003-1:2007, Information technology - MPEG audio technologies - Part 1: MPEG Surround
  11. ISO/IEC 13818-7:2006, Information technology - Generic coding of moving pictures and associated audio information - Part 7: Advanced Audio Coding (AAC), Edition: 4
  12. ISO/IEC JTC1/SC29/WG11, "USAC Verification Test Report," N12232 (2011 July)
  13. ISO/IEC 14496-3:2001/Amd 2:2004, "Parametric coding for high-quality audio."
  14. Eunmi Oh and M. Kim, "Enhanced stereo algorithms in the unified speech and audio coding," AES 43rd International Conference (2011 Sep.)
  15. J. Kim, E. Oh, & Julien Robilliard, "Enhanced stereo coding with phase parameters for MPEG Unified Speech and Audio Coding," 127th Audio Engineering Society Convention, Convention Paper 7875 (2009 Oct.)
  16. M. Kim, E. Oh, & H. Shim, "Stereo audio coding improved by phase parameters," 129th Audio Engineering Society Convention, Convention Paper 8289 (2010 Nov.)
  17. C. Cheng, "Method for estimating magnitude and phase in the MDCT domain," 116th Audio Engineering Society Convention, Convention Paper 6091 (2004 May)