• Title/Summary/Keyword: Unified speech and audio coding(USAC)

Search Result 14, Processing Time 0.018 seconds

A New MPEG Reference Model for Unified Speech and Audio Coding (통합 음성/오디오 부호화를 위한 새로운 MPEG 참조 모델)

  • Song, Jeong-Ook;Oh, Hyen-O;Kang, Hong-Goo
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.47 no.5
    • /
    • pp.74-80
    • /
    • 2010
  • Speech and audio codecs have been developed based on different type of coding technologies since they have different characteristics of signal and applications. In harmony with a convergence between broadcasting and telecommunication system, international organizations for standardization such as 3GPP and ISO/IEC MPEG have tried to compress and transmit multimedia signals using unified codecs. MPEG recently initiated an activity to standardize the USAC (Unified speech and audio coding). However, USAC RM (Reference model) software has been problematic since it has a complex hierarchy, many useless source codes and poor quality of the encoder. To solve these problems, this paper introduces a new RM software designed with an open source paradigm. It was presented at the MPEG meeting in April, 2010 and the source code was released in June.

Single-Mode-Based Unified Speech and Audio Coding by Extending the Linear Prediction Domain Coding Mode

  • Beack, Seungkwon;Seong, Jongmo;Lee, Misuk;Lee, Taejin
    • ETRI Journal
    • /
    • v.39 no.3
    • /
    • pp.310-318
    • /
    • 2017
  • Unified speech and audio coding (USAC) is one of the latest coding technologies. It is based on a switchable coding structure, and has demonstrated the highest levels of performance for both speech and music contents. In this paper, we propose an extended version of USAC with a single-mode of operation-which does not require a switching system-by extending the linear prediction-coding mode. The main concept of this extension is the adoption of the advantages of frequency-domain coding schemes, such as windowing and transition control. Subjective test results indicate that the proposed scheme covers speech, music, and mixed streams with adequate levels of performance. The obtained quality levels are comparable with those of USAC.

Channel Expansion Technology in MPEG Audio (MPEG 오디오의 채널 확장 기술)

  • Pang, Hee-Suk
    • Journal of Broadcast Engineering
    • /
    • v.16 no.5
    • /
    • pp.714-721
    • /
    • 2011
  • MPEG audio uses the masking effect, high frequency component synthesis based on spectral band replication, and channel expansion based on parametric stereo for efficient compression of audio signals. In this paper, we present an overview of the state-of-the-art channel expansion technology in MPEG audio. We also present technical overviews and application examples to broadcasting services for HE-AAC v.2, MPEG Surround, spatial audio object coding (SAOC), and unified speech and audio coding (USAC) which are MPEG audio codecs based on the channel expansion technology.

Research on Open Source Encoding Technology for MPEG Unified Speech and Audio Coding (MPEG 통합 음성/오디오 코덱을 위한 오픈 소스 부호화 기술에 관한 연구)

  • Song, Jeongook;Lee, Joonil;Kang, Hong-Goo
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.50 no.1
    • /
    • pp.86-96
    • /
    • 2013
  • Unified Speech and Audio Coding (USAC) is the speech/audio codec with the best quality, approved on Final Draft International Standard (FDIS) at MPEG meeting in 2011. Since MPEG conventionally standardizes only the decoder, it is not easy to study on the encoder technologies. Furthermore, Reference Model(RM) shows extremely poor performance. To solve these problems, the open source project(JAME) proposes the methods to make the improved performance of main encoder technologies in USAC. Especially, this paper introduces the encoder modules: the signal classifier for selective operation between two coders, the psychoacoustic model in frequency domain, and window transition technology. Finally, the results of verification test for FDIS and the performance of Common Encoder are appended.

Adaptive TCX Windowing Technology for Unified Structure MPEG-D USAC

  • Lee, Tae-Jin;Beack, Seung-Kwon;Kang, Kyeong-Ok;Kim, Whan-Woo
    • ETRI Journal
    • /
    • v.34 no.3
    • /
    • pp.474-477
    • /
    • 2012
  • The MPEG-D unified speech and audio coding (USAC) standardization process was initiated by MPEG to develop an audio codec that is able to provide consistent quality for mixed speech and music contents. The current USAC reference model structure consists of frequency domain (FD) and linear prediction domain (LPD) core modules and is controlled using a signal classifier tool. In this letter, we propose an LPD single-mode USAC structure using an adaptive widowing-based transform-coded excitation module. We tested our system using official test items for all mono-evaluation modes. The results of the experiment show that the objective and subjective performances of the proposed single-mode USAC system are better than those of the FD/LPD dual-mode USAC system.

Study on Noise Filling algorithm of Unified Speech and Audio Coding (통합 음성/오디오 부호화기의 Noise Filling 알고리즘에 대한 연구)

  • Song, Jeongook;Kang, Hong-Goo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.07a
    • /
    • pp.260-261
    • /
    • 2012
  • 본 논문에서는 Unified Speech and Audio Coding (USAC)에 적용된 Noise Filling의 부호화 과정에서 음질 왜곡 정도에 따라 Noise level을 설정하는 방법을 제안한다. USAC는 Moving Picture Experts Group (MPEG)에서 표준화한 최신의 음성/오디오 통합 코덱으로 현존하는 코덱 중에 최고의 성능을 가지고 있다. 하지만, 복호화기 기술만 표준화하여, 인코더를 설계하는 방법에 따라 음질의 차이가 존재한다 현재 오픈 소스 기반으로 진행되고 있는 프로젝트 JAME에서는 이러한 음질 차이를 극복하고, USAC에 적용된 핵섬 인코더 기술의 성능을 최대화 할 수 있는 여러 가지 방법을 포함하고 있다. 그 중 Noise Filling은 저 전송률 부호화 과정에서 양자화 되지 않는 스펙트럼에 대하여 일정한 noise level을 넣어 인지적으로 음질을 향상시키는 방법이다. 제안된 Noise Filling 부호화 방법은 현재 프레임의 음질 왜곡 정도를 반영하여, noise-like 신호 성분을 더욱 정교하게 부호화 할 수 있게 하였다.

  • PDF

An Audio Coding Technique Employing the Inter-channel Phase Difference Skip (채널 간 위상차 파라미터 생략 기법을 이용한 오디오 부호화)

  • Kim, Hyun-Hwi;Kim, Rin-Chul
    • Journal of Broadcast Engineering
    • /
    • v.21 no.3
    • /
    • pp.369-379
    • /
    • 2016
  • This paper deals with an efficient method for skipping inter-channel phase differences (IPD) in the MPEG surround of the unified speech and audio coding (USAC). Based on the psycho-acoustic sensitivity on the IPD, we estimate a threshold on IPD, below which we can not notice degradation in spatial cue. We propose an IPD skip method, in which any IPDs within the threshold are set to zero and are not transmitted. The proposed IPD skip method gives about 38% savings in terms of bit amount for IPD. Nevertheless, in the MUSHRA test, the proposed method does not show any noticeable degradation in the decoded audio quality.

Unified coding scheme of speech and music (음악 및 음성 신호의 융합 압축 기술)

  • O, Eun-Mi
    • Broadcasting and Media Magazine
    • /
    • v.16 no.4
    • /
    • pp.59-71
    • /
    • 2011
  • 오디오와 음성 압축 기술적 근간은 서로 다르지만, 최근의 모바일 멀티미디어 기기 시장의 컨버전스 현상에 따라 압축하고자 하는 신호가 혼용되고 있으며, 비슷한 목표 전송률과 음질로 수렴하고 있다. 현재는 동일 기기에서 서로 다른 압축 기술을 적용하고 있으나, 음성과 음악이 동시에 서비스 되는 멀티미디어 기기에서는 단일 압축 방식으로 처리하고자 하는 이슈가 부각되고 있다. 특히, 스마트 폰 및 음악 콘텐츠 포탈 서비스의 대중화를 고려할 때, 음성 및 음악 신호 모두를 효율적으로 압축하는 음악 및 음성 신호의 융합 압축 기술이 더욱 필요해 보인다. 본 고에서는 MPEG 오디오 그룹에서 가장 최근 진행한 Unified Speech and Audio Coding(USAC)의 탄생 배경 및 표준화 현황을 소개한다. USAC는 64kbps 이하에서 기술적으로 최고 성능을 지닌 AMR-WB+ 및 HE-AAC v2보다도 우월한 음질을 보이며, 높은 비트율에서도 동등한 음질을 보장한다. 이런 우수한 음질에 기여한 USAC의 스위칭 구조와 더불어 기술적으로 향상된 주요 모듈인 파라미터 기반 스테레오 및 고주파 압축, 그리고 엔트로피 코딩 방식에 대해서 살펴 본다. 향후, 다양한 오디오 신호를 효율적으로 압축하는 USAC는 디지털 라디오, 모바일 TV, 그리고 오디오 북과 같은 사용자 시나리오에서 사용될 확률이 높아 보인다. 또한, USAC는 배경 잡음이나 배경 음악이 있는 경우에도 성능이 우수하기 때문에 YouTube 및 podcast 등과 같이 사용자가 콘텐츠를 생성할 때도 유용하게 사용 될 수 있다.

다중밴드 양자화를 적용한 USAC 부호화 기술

  • Beack, Seungkwon;Lim, Wootaek;Lee, Taejin
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.329-332
    • /
    • 2020
  • 본 논문은 USAC(Unified Speech and Audio Coding) 오디오 부호화 기술의 성능 개선에 관련한 것이다. USAC 은 FD(Frequency domain) 양자화 모듈과 LPD(Linear prediction domain) 양자화 모듈을 탑재하고 있다. 본 논문에서는 LPD 모드로부터 생성되는 잔차신호에 대하여 주파수 영역에서 다중밴드로 분할하고 각 밴드 별 양자화를 독립적으로 수행함으로써 USAC 의 LPD 모드의 양자화 효율을 개선하였다. 그 결과 동일 조건에서 제안방법이 기존의 LPD 모드의 성능을 음질 측면에서 향상시킴을 확인할 수 있었다.

  • PDF

MPEG-D USAC: Unified Speech and Audio Coding Technology (MPEG-D USAC: 통합 음성 오디오 부호화 기술)

  • Lee, Tae-Jin;Kang, Kyeong-Ok;Kim, Whan-Woo
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.7
    • /
    • pp.589-598
    • /
    • 2009
  • As mobile devices become multi-functional, and converge into a single platform, there is a strong need for a codec that is able to provide consistent quality for speech and music content MPEG-D USAC standardization activities started at the 82nd MPEG meeting with a CfP and approved WD3 at the 88th MPEG meeting. MPEG-D USAC is converged technology of AMR-WB+ and HE-AAC V2. Specifically, USAC utilizes three core codecs (AAC ACELP and TCX) for low frequency regions, SBR for high frequency regions and the MPEG Surround tool for stereo information. USAC can provide consistent sound quality for both speech and music content and can be applied to various applications such as multi-media download to mobile device Digital radio Mobile TV and audio books.