• 제목/요약/키워드: Audio/Speech Coding Wideband Speech Coding

검색결과 8건 처리시간 0.036초

G.718 초광대역 코덱의 음질 향상을 위한 개선된 Generic Mode Coding 방법 (Modified Generic Mode Coding Scheme for Enhanced Sound Quality of G.718 SWB)

  • 조근석;정상배
    • 말소리와 음성과학
    • /
    • 제4권3호
    • /
    • pp.119-125
    • /
    • 2012
  • This paper describes a new algorithm for encoding spectral shape and envelope in the generic mode of G.718 super-wide band (SWB). In the G.718 SWB coder, generic mode coding and sinusoidal enhancement are used for the quantization of modified discrete cosine transform (MDCT)-based parameters in the high frequency band. In the generic mode, the high frequency band is divided into sub-bands and for every sub-band the most similar match with the selected similarity criteria is searched from the coded and envelope normalized wideband content. In order to improve the quantization scheme in high frequency region of speech/audio signals, the modified generic mode by the improvement of the generic mode in G.718 SWB is proposed. In the proposed generic mode, perceptual vector quantization of spectral envelopes and the resolution increase for spectral copy are used. The performance of the proposed algorithm is evaluated in terms of objective quality. Experimental results show that the proposed algorithm increases the quality of sounds significantly.

가변 지연 MDCT/IMDCT를 이용한 오디오/음성 코덱 (Audio /Speech Codec Using Variable Delay MDCT/IMDCT)

  • 이상길;이인성
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권2호
    • /
    • pp.69-76
    • /
    • 2023
  • MDCT/IMDCT 과정을 사용하는 고품질 오디오/음성 코덱은 이전 프레임 과의 중첩-합(Overlap-add) 과정을 통해 현재 프레임을 완벽 복원 가능하다. 중첩-합 과정에서 프레임 길이 만큼의 알고리즘 지연이 발생하게 된다. 본 논문에서는 알고리즘 지연을 줄이기 위해 MDCT/IMDCT에 가변적인 위상변이를 사용하여 알고리즘 지연을 줄인 MDCT/IMDCT 과정을 제안한다. 가변 지연 MDCT/IMDCT알고리즘을 ITU-T 표준 코덱 G.729.1 코덱에 적용하여 저지연 오디오/음성 코덱을 제안하였다. MDCT/IMDCT 과정에서의 알고리즘 지연은 기존 20 ms에서 1.25ms 까지 감소시킬 수 있다. 저지연 MDCT/IMDCT를 적용한 오디오/음성 코덱의 복호화된 출력신호는 객관적 음질 시험 방법인 PESQ 시험을 통해 성능 평가하였다. 전송 지연이 감소 됨에도 불구하고 기존 방법과 음질 차이가 없음을 확인할 수 있었다.

ITU-T G.729/G.729E와 호환성을 갖는 광대역 음성/오디오 부호화기 (A New Wideband Speech/Audio Coder Interoperable with ITU-T G.729/G.729E)

  • 김경태;이민기;윤대희
    • 대한전자공학회논문지SP
    • /
    • 제45권2호
    • /
    • pp.81-89
    • /
    • 2008
  • 광대역 신호는 16 kHz로 표본화되어 50-7000 Hz로 밴드 제한된 신호를 말하며, 전화대역 음성 신호에 비해서 높은 자연성(naturalness)과 명료성(intelligibility)을 가진다. 이런 특징으로 광대역 부호화기는 화상회의, 디지털 AM 방송 및 고음질 음성통신 등에 사용될 수 있다. 본 논문에서는 가변대역 특징을 갖는 광대역 음성 오디오 부호화기를 제안하였다. 제안된 부호화기는 대역분한 구조를 가진다. 저주파 대역은 전화대역 음성 부호화기로 많이 사용되고 있는 8 kbit/s ITU-T G.729나 보다 높은 전송률로 오디오 신호까지 처리할 수 있는 11.8 kbit/s ITU-T G.729 Annex E로 부호화한다. 고주파 대역은 청각 모델을 기반으로 한 파라미터 부호화 방법으로 부호화한다. 제안된 고주파 대역 부호화는 감마톤 필터뱅크(gammatone filterbank)를 이용하여 입력신호를 임계대역으로 분할한 후, 각각의 임계대역 신호를 양자화한다. 저주파 대역 부호화기와 고주파 대역 부호화기는 서로 독립되어 있으므로, 복호화기에서는 채널 조건에 따라 전화대역 합성신호와 광대역 합성신호를 선택할 수 있는 특징이 있다. 성능 평가 결과, 제안된 부호화기는 낮은 전송률과 짧은 지연 시간으로 음성과 오디오 신호 모두에 대해 ITU-T G.722.1 24 kbit/s와 동등한 음질을 제공한다는 것을 확인하였다.

심층 신뢰 신경망을 이용한 오푸스 코덱 기반 인공 음성 대역 확장 기술 (Artificial speech bandwidth extension technique based on opus codec using deep belief network)

  • 최윤상;이아성;강상원
    • 한국음향학회지
    • /
    • 제36권1호
    • /
    • pp.70-77
    • /
    • 2017
  • 대역폭 확장 기술은 300 ~ 3,400 Hz 대역의 협대역 음성 신호를 50 ~ 7,000 Hz 대역의 광대역 음성신호로 확장하여 음질, 명료도, 그리고 자연성을 높이는 기술이다. 본 논문에서는 협대역 음성 정보를 이용하여 광대역 음성신호를 추정하는 인공 대역폭 확장 기술을 설계하여, 오푸스(Opus) 오디오 복호화기에 내장시킴으로써, 대역폭 확장 모듈에서의 LPC(Linear Prediction Coding) 분석 및 LSF(Line Spectral Frequencies) 해석과 관련된 계산량을 감소시켰고 알고리즘 지연도 줄였다. 이를 위해 현재 다양한 분야에 적용되고 있는 딥 러닝 기술 중 하나인 심층 신뢰 신경망(Deep Belief Network, DBN) 방식을 스펙트럼 포락선 확장에 도입하여 전통적인 코드북 매핑법보다 더 좋은 품질의 스펙트럼을 만들 수 있었다.

TeakLite DSP를 이용한 적응형 다중 비트율 광대역 (AMR-WB) 음성부호화기의 실시간 구현 (Real-time Implementation of AMR-WB Speech Codec Using TeakLite DSP)

  • 정희범;김경수;한민수;변경진
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.262-267
    • /
    • 2004
  • 적응형 다중 비트율 광대역 (AMR-WB) 음성부호화기는 50∼7000 Hz의 오디오 신호를 압축/복원하는 3GPP의 가장 최근의 음성 부호화 표준으로써 23.85 kbit/s에서 6.60 kbit/s까지 9가지의 다중 비트율을 가지고 있다. 본 논문에서는 16비트 고정 소수점형 TeakLite DSP를 이용하여 AMR WB 음성부호화기를 실시간 구현한 결과에 대해 기술하였다. 구현된 AMR-WB 보코더는 가장 높은 비트율인 23.85 kbit/s모드에서 52.2 MIPS의 복잡도를 가지고 있으며, 사용된 프로그램 메모리는 약 17.9 kwords 이고, 데이터 RAM 메모리는 11.8 kwords, 데이터 ROM 메모리는 약 10.1 kwords 이다. 구현된 AMR-WB 프로그램은 3GPP의 표준시험 벡터 23개를 9개 모드에 대해 비트 단위로 일치시켜 검증을 완료하고, 실시간 보드 시험에서도 오디오 신호의 입출력이 왜곡되지 않고 실시간 지연없이 안정적으로 동작하는 것을 확인하였다.

SBR을 이용한 주파수 밴드선택 여기 선형예측 광대역 음성/오디오 부호화 (Frequency Band Selection Exited Linear Prediction Wideband Speech/Audio Coding Using SBR)

  • 장성훈;이인성
    • 한국음향학회지
    • /
    • 제32권6호
    • /
    • pp.556-562
    • /
    • 2013
  • 본 논문은 컴포트 노이즈(comfort noise)를 이용하는 주파수 밴드선택 음성/오디오 코덱에서 컴포트 노이즈 대신 SBR(Spectral Band Replication) 기술을 이용하여 여기 신호를 대체 함으로서 밴드 선택 광대역 음성/오디오 부호화기의 성능 향상을 목표로 한다. 비 전송 밴드에 SBR 기술로 합성된 신호를 삽입하기 위하여 부밴드 별로 전송된 신호를 활용하며, 각각의 부밴드 별로 에너지 가중치를 설정한다. 백색잡음 성분의 컴포트 노이즈 대신 전송신호에 의존하는 신호를 합성 함으로서 보다 높은 음질의 밴드 선택 부호화기를 제안하였다.

TMS320C5509 DSP를 이용한 AMR-WB 음성부호화기의 실시간 구현 (Real-time Implementation or AMR-WB Speech Coder Using TMS320C5509 DSP)

  • 최송인;지덕구
    • 한국음향학회지
    • /
    • 제24권1호
    • /
    • pp.52-57
    • /
    • 2005
  • AMR-WB 음성부호화기는 50~7000 Hz의 확장된 대역폭을 갖는 음성신호를 압축/복원하는 광대역 음성부호화기로써 6.60 kbit/s에서 23.85 kbit/s까지 9개의 전송 비트율을 가지고 있다. 본 논문에서는 2개의 MAC (Multimply and-Accumulate) 유닛을 가진 Tl의 16bit 고정소수점 DSP인 TMS320C5509 DSP를 이용한 AMR-WB 음성부호화기의 실시간 구현에 관하여 논한다. 실시간 구현은 intrinsic을 이용한 C수준의 구현 및 어셈블리 코딩에 의한 구현을 수행하여 그 결과를 비교하였다. 어셈블리 코딩에 의하여 실시간 구현된 AMR-WB 음성부호화기는 23.85 kbit/s 모드에서 42.9 Mclock의 계산량을 가지며, 사용된 프로그램 메모리는 15.1 kword이고, 데이터 ROM 메모리는 9.2 kword이고 데이터 RAM 메모리는 13.9 kword이다.

차세대 통신망을 위한 G.729.1 광대역 음성 코덱을 활용한 인터넷 단말 구현 (Implementation of Internet Terminal using G.729.1 Wideband Speech Codec for Next Generation Network)

  • 소운섭;김대영
    • 한국통신학회논문지
    • /
    • 제33권10B호
    • /
    • pp.939-945
    • /
    • 2008
  • 본 논문에서는 차세대 통신망을 위한 G.729.1 광대역 음성 코덱을 활용한 인터넷 단말을 구현한 절차와 결과에 대해 기술하였다. 이러한 목적을 이루기 위해 먼저 음성 코덱 처리를 위한 DSP 기능을 가지며, 비디오 코덱 처리를 위한 향상된 멀티미디어 가속기 기능을 가진 고성능 RISC 응용 프로세서를 선택하였다. 단말 구현에 사용한 G.729.1 광대역 음성 코덱은 ITU-T에서 최근 표준화 된 것으로 G.729 음성 코덱 표준을 확장한 새로운 스케일러블 음성 및 오디오 코덱이다. G.729.1 코덱의 프로세서에서 처리 시간을 줄이고, 단말에 적용하기 위해 계산량이 많이 필요한 부분의 고정 소수점 C 코드를 어셈블리 언어로 변환하였다. 그 결과 원시 C 코드의 실행 시간을 약 80% 줄여서 단말에서 실시간으로 동작시켰다. 비디오 코덱은 프로세서의 eMMA 하드웨어에서 지원되는 H.263/MPEG-4 코덱을 사용하였다. 실제 망에 접속판 SIP 호 처리 시험에서 단 대 단 지연은 100ms 이하이고, PESQ 장비로 측정한 MOS 값은 평균 3.8 이었으며, 상용 단말들과의 연동 시험에서도 정상적으로 동작하였다.