• 제목/요약/키워드: Speech coder

검색결과 166건 처리시간 0.025초

웨이브렛 변환을 적용한 광대역 음성부호화 알고리즘 (Wideband Speech Coding Algorithm with Application of Wavelet Transform)

  • 이승원;배건성
    • 한국음향학회지
    • /
    • 제21권5호
    • /
    • pp.462-470
    • /
    • 2002
  • 협대역 음성부호화기에 비해 훨씬 우수한 합성음의 음질을 보이는 광대역 음성부호화기는 상대적으로 높은 전송률을 가져서 협대역 음성부호화기에 비해 사용범위가 제한되었다. 광대역 음성부호화기에서 이러한 전송 속도를 협대역 음성부호화기와 비슷한 수준으로 낮출 수 있다면, 보다 나은 음질의 음성 통신 시스템을 구현할 수 있을 것이다. 본 논문에서는 16㎑로 샘플링 된 입력 음성신호를 동일한 대역폭을 갖는 두부대역으로 분리하여, 저대역 부호화에는 유럽의 이동통신 표준안인 GSM-EFR 협대역 음성부호화기를 적용하고, 고대역 부호화에는 웨이브렛 변환을 이용하여 고안한 부대역 음성부화기를 적용한 광대역 음성부화기를 제안하였다. 제안한 음성부호화기는 저대역 신호와 고대역 신호의 부호화에 각각 12.2 kbps, 6.7 kbps의 전송 속도를 할당하여 18.9 kbps의 전송속도를 가지며, 합성음의 음질은 56 kbps의 전송속도를 갖는 G.722음성부호화기의 합성음과 비슷한 음질을 유지하였다.

네트워크 환경에서 서버용 음성 인식을 위한 MFCC 기반 음성 부호화기 설계 (A MFCC-based CELP Speech Coder for Server-based Speech Recognition in Network Environments)

  • 이길호;윤재삼;오유리;김홍국
    • 대한음성학회지:말소리
    • /
    • 제54호
    • /
    • pp.27-43
    • /
    • 2005
  • Existing standard speech coders can provide speech communication of high quality while they degrade the performance of speech recognition systems that use the reconstructed speech by the coders. The main cause of the degradation is that the spectral envelope parameters in speech coding are optimized to speech quality rather than to the performance of speech recognition. For example, mel-frequency cepstral coefficient (MFCC) is generally known to provide better speech recognition performance than linear prediction coefficient (LPC) that is a typical parameter set in speech coding. In this paper, we propose a speech coder using MFCC instead of LPC to improve the performance of a server-based speech recognition system in network environments. However, the main drawback of using MFCC is to develop the efficient MFCC quantization with a low-bit rate. First, we explore the interframe correlation of MFCCs, which results in the predictive quantization of MFCC. Second, a safety-net scheme is proposed to make the MFCC-based speech coder robust to channel error. As a result, we propose a 8.7 kbps MFCC-based CELP coder. It is shown from a PESQ test that the proposed speech coder has a comparable speech quality to 8 kbps G.729 while it is shown that the performance of speech recognition using the proposed speech coder is better than that using G.729.

  • PDF

Evaluation Performance of Speech Coder in Speech Signal Processing

  • Lee, Kwang-Seok
    • Journal of information and communication convergence engineering
    • /
    • 제5권2호
    • /
    • pp.177-180
    • /
    • 2007
  • We compared CS-ACELP with QCELP speech coder in CDMA cellular under channel error environment and experimented performance with its measured value under channel error environment. Also, we specified the effective coding scheme to overcome. CS-ACELP speech coder using a LSP vector quantizer shows transparent speech quality from the results that SD is 0.92dB and outlier frames over 2dB is 2.9% in the BER 0.10% condition. CS-ACELP speech coder which is utilizing MA predictor shows better results on SVR and SEGSNR than QCELP speech coder(IS-96) adopting DPCM type predictor when bit error occurs from BER 0.01% to 0.50%.

Complexity Reduction Algorithm of Speech Coder(EVRC) for CDMA Digital Cellular System

  • Min, So-Yeon
    • 한국멀티미디어학회논문지
    • /
    • 제10권12호
    • /
    • pp.1551-1558
    • /
    • 2007
  • The standard of evaluating function of speech coder for mobile telecommunication can be shown in channel capacity, noise immunity, encryption, complexity and encoding delay largely. This study is an algorithm to reduce complexity applying to CDMA(Code Division Multiple Access) mobile telecommunication system, which has a benefit of keeping the existing advantage of telecommunication quality and low transmission rate. This paper has an objective to reduce the computing complexity by controlling the frequency band nonuniform during the changing process of LSP(Line Spectrum Pairs) parameters from LPC(Line Predictive Coding) coefficients used for EVRC(Enhanced Variable-Rate Coder, IS-127) speech coders. Its experimental result showed that when comparing the speech coder applied by the proposed algorithm with the existing EVRC speech coder, it's decreased by 45% at average. Also, the values of LSP parameters, Synthetic speech signal and Spectrogram test result were obtained same as the existing method.

  • PDF

CDMA 이동통신 시스템용 음성부호화기 설계 및 구현 (Design and implementation of a speech coder for CDMA cellular system)

  • 장석진;윤병식;김재원;이원명;윤병우;이인성;최송인;임명섭;한기철
    • 전자공학회논문지B
    • /
    • 제33B권10호
    • /
    • pp.72-79
    • /
    • 1996
  • We developed a speech coder that can transfer data as well as speech for CDMA digital cellular system. We describe the design method of the speech coder that uses QCELP algorithm for speech coding. The speech coder is implemented on a single fixed-point DSP chip (TMS320C50). the coder has the complexity such as 4K words in RAM, 10K words in ROM, and 33 MIPS in execution time. The developed speech coder is fully tested and successfully working on the CDMA base station system.

  • PDF

16 비트 고정 소수점 DSP를 이용한 GSM-EFR 음성 부호화기의 실시간 구현 (Real-time Implementation of a GSM-EFR Speech Coder on a 16 Bit Fixed-point DSP)

  • 최민석;변경진;김경수
    • 한국음향학회지
    • /
    • 제19권7호
    • /
    • pp.42-47
    • /
    • 2000
  • 본 논문에서는 DSP Group사의 16비트 고정 소수점 DSP(Digital Signal Processor)인 OakDSP Core를 사용하여 유럽의 이동통신에서 표준으로 사용되고 있는 음성 부호화기 알고리즘인 GSM-EFR (Global System for Mobile communications-Enhanced Full Rate)을 실시간으로 구현하였다. 실시간 구현된 GSM-EFR 음성 부호화기의 계산량은 약 24MIPS가 소요 되며, 7.06K 워드의 코드 메모리와 12.19K 워드의 데이터 메모리를 사용하였다. 구현된 음성 부호화기는 ETSI에서 제공하는 시험 벡터 샘플을 모두 통과하였으며, 객관적 평가툴을 이용하여 지각 평가를 수행한 결과, 32kbps ADPCM과 비슷한 음질을 보였다. 본 논문에서 실시간으로 구현된 GSM-EFR 음성 부호화기는 IMT2000 비동기 방식의 음성 부호화기 표준인 GSM-AMR의 최상위 전송률 모드로서, 앞으로 IMT-2000 비동기식 단말기용 모뎀 ASIC에 탑재할 GSM-AMR 음성 부호화기의 구현을 위한 기본 구조로 이용될 예정이다.

  • PDF

Trellis excitation을 이용한 half rate 음성부호화기 (A Half Rate Speech Soder using Trellis Excitation)

  • 강상원;이형수;김영수;정진욱
    • 전자공학회논문지B
    • /
    • 제33B권2호
    • /
    • pp.88-94
    • /
    • 1996
  • In this paper, we present a half rate speech coder using trellis excitation. The coder combines code-excited linear prediction (CELP) system and trellis quantization method using the codebook expansion, and it produces higher speech quality than the typical CELP coder for the same transmission rate. A subjective comparison with 3~8 bit .$\mu$-law PCM indicates that the half rate coder provides speech quality between 5-bit and 6-bit $\mu$-law PCM .

  • PDF

유무선망에서 사용되는 디지털 음성 부호화 기술 동향 (Digital Speech Coding Technologies for Wire and Wireless Communication)

  • 윤병식;최송인;강상원
    • 방송공학회논문지
    • /
    • 제10권3호
    • /
    • pp.261-269
    • /
    • 2005
  • 디지털 음성 부호화기는 디지털 통신 시스템의 음성 압축 수단으로 이용되어 왔으며 심한 채널에러와 한정된 주파수 자원과 같은 디지털 무선 통신 시스템 환경에 적합하게 더욱 발전해왔다. 또한 디지털 통신 기술의 비약적인 발전에 따라 사용자는 더욱 높은 수준에 해당하는 음성 서비스를 요구하게 되고 그로 인하여 단순히 의사 전달에 해당하는 음성 서비스에서 높은 수준의 멀티미디어 콘텐츠들을 수용할 수 있는 음성 및 오디오 부호화기의 기술개발로 급격히 전환 되고 있다. 본 논문에서는 유선 및 무선 디지털망에서 사용되어지는 음성 / 오디오 부호화기의 기술에 대하여 살펴보고 이와 관련된 표준화 활동 및 기술동향에 대하여 알아본다. 또한 향후 유무선 디지털망의 발전에 따른 디지털 음성 / 오디오 부호화기술의 발전 방향에 대하여 언급한다.

혼합 다중대역 여기모델에 기반한 저 전송률 음성 부호화기의 설계 (Design of a Low Bit-rate Speech Coder Based on Mixed Multi-band Excitation Model)

  • 한우진;오영환
    • 한국음향학회지
    • /
    • 제21권6호
    • /
    • pp.510-521
    • /
    • 2002
  • 다중대역 여기부호화 (MBE: multi-band excitation) 음성 부호화기는 고조파 대역별로 유/무성음 판단을 수행함으로써 한 프레임 내에서 유성음과 무성음이 혼합되는 경우를 잘 모델링할 수 있다. 하지만 같은 주파수 대역에서는 유성음 성분과 무성음 성분이 공존할 수 없다. 또한 유/무성음 판단 과정에서 경험에 의한 임계치와의 비교 과정이 필요하므로 원음 스펙트럼과 합성음 스펙트럼간의 오류가 큰 경우가 발생하는 단점이 있다. 본 논문에서는 모든 주파수 영역에서 유성음 성분과 무성음 성분이 혼합되는 것을 허용하는 혼합다중대역 여기 부호화 (MMBE: mixed multi-band excitation) 음성 모델을 제안하고, 모델 파라미터인 주파수 영역 혼합함수를 임계치와의 비교없이 효과적으로 추정할 수 있는 방법을 제시한다. 제안한 음성 모델을 적용한 2.6 kbps 음성 부호화기를 구현해 본 결과, 2.9 kbps의 전송률을 갖는 MBE음성 부호화기에 비해서 낮은 전송률에서도 더 우수한 합성음 음질을 가지는 것으로 나타났다.

가변 비트율 음성 부호화기의 성능분석 (Performance Analysis of A Variable Bit Rate Speech Coder)

  • 임병관
    • 전기학회논문지
    • /
    • 제62권12호
    • /
    • pp.1750-1754
    • /
    • 2013
  • A variable bit rate speech coder is presented. The coder is based on the observation that a speech signal can be viewed as a combination of piecewise linear signals in a short time period. The encoder detects the sample points where the slope of the signal changes, which are called the inflection points in this paper. The coder transmits the location and value for the detected inflection sample, but only the location information for the noninflection samples. In the decoder, the noninflection samples are estimated with interpolation of the received information. Several factors affecting the performance of the coder have been tested through simulation. Simulation results show that the linear interpolation produces 1 ~ 5 dB improvement over the cubic spline interpolation. And the -law companding does not provide any benefit when it is applied before the inflection detection. With low threshold values in the inflection point detection, the coder shows better MOS and more than 16 dB improvement in SNR compared to the continuously variable slope delta modulation (CVSDM).