초록
광대역 신호는 16 kHz로 표본화되어 50-7000 Hz로 밴드 제한된 신호를 말하며, 전화대역 음성 신호에 비해서 높은 자연성(naturalness)과 명료성(intelligibility)을 가진다. 이런 특징으로 광대역 부호화기는 화상회의, 디지털 AM 방송 및 고음질 음성통신 등에 사용될 수 있다. 본 논문에서는 가변대역 특징을 갖는 광대역 음성 오디오 부호화기를 제안하였다. 제안된 부호화기는 대역분한 구조를 가진다. 저주파 대역은 전화대역 음성 부호화기로 많이 사용되고 있는 8 kbit/s ITU-T G.729나 보다 높은 전송률로 오디오 신호까지 처리할 수 있는 11.8 kbit/s ITU-T G.729 Annex E로 부호화한다. 고주파 대역은 청각 모델을 기반으로 한 파라미터 부호화 방법으로 부호화한다. 제안된 고주파 대역 부호화는 감마톤 필터뱅크(gammatone filterbank)를 이용하여 입력신호를 임계대역으로 분할한 후, 각각의 임계대역 신호를 양자화한다. 저주파 대역 부호화기와 고주파 대역 부호화기는 서로 독립되어 있으므로, 복호화기에서는 채널 조건에 따라 전화대역 합성신호와 광대역 합성신호를 선택할 수 있는 특징이 있다. 성능 평가 결과, 제안된 부호화기는 낮은 전송률과 짧은 지연 시간으로 음성과 오디오 신호 모두에 대해 ITU-T G.722.1 24 kbit/s와 동등한 음질을 제공한다는 것을 확인하였다.
Wideband speech, characterized by a bandwidth of about 7 kHz (50-7000 Hz), provides a substantial quality improvement in terms of naturalness and intelligibility. Although higher data rates are required, it has extended its application to audio and video conferencing, high-quality multimedia communications in mobile links or packet-switched transmissions, and digital AM broadcasting. In this paper, we present a new bandwidth-scalable coder for wideband speech and audio signals. The proposed coder spits 8kHz signal bandwidth into two narrow bands, and different coding schemes are applied to each band. The lower-band signal is coded using the ITU-T G.729/G.729E coder, and the higher-band signal is compressed using a new algorithm based on the gammatone filter bank with an invertible auditory model. Due to the split-band architecture and completely independent coding schemes for each band, the output speech of the decoder can be selected to be a narrowband or wideband according to the channel condition. Subjective tests showed that, for wideband speech and audio signals, the proposed coder at 14.2/18 kbit/s produces superior quality to ITU-T 24 kbit/s G.722.1 with the shorter algorithmic delay.