• 제목/요약/키워드: Speech codec

검색결과 128건 처리시간 0.026초

음성 패킷을 이용한 채널의 에러 정보 전달 (Transmission of Channel Error Information over Voice Packet)

  • 박호종;차성호
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.394-400
    • /
    • 2002
  • 디지털 음성 통신에서 송신하는 음성 패킷의 전송 에러율을 알면 송신 채널 상황에 적합한 압축 동작을 통하여 전체 통신의 품질을 향상시킬 수 있다. 그러나 현재의 이동통신과 인터넷 통신에서는 음성 패킷의 전송 에러정보를 알려주는 프로토콜이 지원되지 않는다. 본 논문에서는 이를 해결하기 위하여 채널의 전송 에러 정보를 음성 패킷에 삽입하여 실시간으로 전달하는 방법을 제안한다. 제안하는 채널 에러 정보 삽입 방법은 ACELP (algebraic code-excited linear predictin) 코드벡터의 펄스 위치의 상관 관계를 이용하며, 이를 통하여 추가정보 삽입에 의한 음질 저하를 막고 오인식율을 줄일 수 있다. 다양한 음성 데이터를 이용하여 제안한 방법의 성능을 측정하였으며 음질의 저하가 거의 발생하지 않고 정보의 검출 능력과 오인식율에서 만족할 만한 성능을 가지는 것을 확인하였다.

OAK DSP Core 기반 CSD17C00에서의 G. 723.1 Speech Codec 의 구현 (Implementation of G.723.1 speech codec on OAK DSP Core based CSD17C00)

  • 성유나
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.151-154
    • /
    • 1998
  • 이중 전송율(5.3 과 6.3kbit/s)을 제공하는 G.723.1 음성 코더는 공중망을 통한 H.324 POTS 영상 회의 규격의 음성 코더로 채택된 것으로, MPMLQ, ACELP 알고리즘에 근거한다. 본 논문에서는 Annex A를 포함한 G.723.1 음성 코더 알고리즘을 C&S Technology에서 개발한 음성 신호 처리를 위한 범용 DSP인 CSD17C00 칩을 이용하여 실시간 응용이 가능하도록 구현하였다. G.723.1 에 대한 양방향 평가가 Codec loopback을 통해 수행되었으며, ITU에서 제공한 테스트 절차에 따라 평가되었다. 또한, 본 논문에서 구현된 G.723.1 음성 코더는 27MIPS의 계산 속도를 갖으며, 프로그램 ROM의 크기는 8.85K Words이고, 10K 데이터 ROM과 4K 데이터 RAM을 필요로 하고 있다. 경쟁 제품과의 MOS 측정 음질 평가를 실시한 결과, CSD17C00에서의 음질 성능이 더 우수함을 입증 함으로써, 본 논문에서 보여준 CSD17C00을 기반으로 구현된 G.723.1 알고리즘의 실시간 구현기술의 타당성을 검증하게 되었다.

  • PDF

TMS320C6201을 이용한 2.4 kbps STC 음성 부호화기의 실시간 구현 (Implementation of 2.4 kbps STC Speech Codec on the TMS320C6201)

  • 유승형;이승원;배건성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(4)
    • /
    • pp.167-170
    • /
    • 2002
  • In this paper, we implement a 2.4 kbps STC speech codec using the TMS320C6201 DSP The main job for this work is twofold: one is to convert floating-point operation in the codec into fixed-point operation while maintaining the high resolution, and the other is to optimize the program to make it run in real time with memory size as small as possible. The implemented decoder uses 54.8 kbyte of program memory, 29.7 kbyte of data ROM and 55.2 kbyte of data RAM, respectively. It also uses about 45% of maximum computation capacity of TMS320C6201.

  • PDF

G.729 코덱의 패킷 손실 영향 모델을 이용한 비 침입적 음질 예측 기법 (Non-Intrusive Speech Quality Estimation of G.729 Codec using a Packet Loss Effect Model)

  • 이민기;강홍구
    • 한국음향학회지
    • /
    • 제32권2호
    • /
    • pp.157-166
    • /
    • 2013
  • 본 논문은 패킷 손실의 영향을 이용한 비 침입적 음질 평가 방법을 제안한다. 패킷 손실은 패킷 기반의 통신 시스템에서 음질을 저하시키는 주된 요소이며 그 영향은 코덱에 내장된 패킷 손실 은닉 알고리듬에 의해 결정된다. 패킷 손실 영향을 반영한 음질평가 시스템을 위해 VoIP 에서 협대역 코덱으로 사용되는 코덱 중 하나인 G.729를 선택하였으며, 음성 특징에 따른 패킷 손실 영향을 구분하기 위해서 G.729 코덱의 음성 파라미터를 이용한 한 음성 특성 분류기를 설계하였다. 이후, 각각의 패킷 특성에 따른 음질 저하의 정도를 수치화하기 위해 원 PESQ-LQ점수와 상관계수를 최대화하는 음질 저하 가중치를 반복적으로 구하였으며, 최종 음질 저하는 가중합으로 구하였다. 그 결과 제안한 모델과 PESQ-LQ의 상관계수는 칩입 모델 에서는 0.8950를, 비 침입 모델 에서는 0.8911의 결과를 나타내었다.

G.723.1 기반 비트율 scalable 음성 코덱 개발 (Design of a Bitrate Scalable Speech Codec Based on G.723.1)

  • 강상원;이강은;박동원;이준석
    • 한국음향학회지
    • /
    • 제24권6호
    • /
    • pp.358-364
    • /
    • 2005
  • 본 논문에서는 ITU-T 표준으로 채택된 G.723.1을 기본 계층으로 하고 G.723.1의 합성 에러 신호를 추가적인 부호화 과정을 통하여 부호화하는 비트율 scalable 코덱을 제안하였다. 그리고 제안된 scalable 음성 코덱을 ITU-T 표준 음질 측정 소프트웨어인 P.862 (PESQ)를 이용하여 성능 분석을 하였다. 제안된 비트율 scalable 코덱을 적용함으로써 G.723.1 5.3kbps와 개선 계층 6.7kbps가 함께 동작할 경우 G.723.1 5.3kbps 보다 MOS값이 0.372 향상되었으며, G.723.1 6.3kbps와 개선 계층 5.7kbps가 함께 동작할 경우 G.723.1 6.3kbps 보다 0.267 향상되었다.

독립성분분석을 이용한 DSP 기반의 화자 독립 음성 인식 시스템의 구현 (Implementation of Speaker Independent Speech Recognition System Using Independent Component Analysis based on DSP)

  • 김창근;박진영;박정원;이광석;허강인
    • 한국정보통신학회논문지
    • /
    • 제8권2호
    • /
    • pp.359-364
    • /
    • 2004
  • 본 논문에서는 범용 디지털 신호처리기를 이용한 잡음환경에 강인한 실시간 화자 독립 음성인식 시스템을 구현하였다. 구현된 시스템은 TI사의 범용 부동소수점 디지털 신호처리기인 TMS320C32를 이용하였고, 실시간 음성 입력을 위한 음성 CODEC과 외부 인터페이스를 확장하여 인식결과를 출력하도록 구성하였다. 실시간 음성 인식기에 사용한 음성특징 파라메터는 일반적으로 사용되어 지는 MFCC(Mel Frequency Cepstral Coefficient)대신 독립성분분석을 통해 MFCC의 특징 공간을 변화시킨 파라메터를 사용하여 외부잡음 환경에 강인한 특성을 지니도록 하였다. 두 가지 특징 파라메터에 대해 잡음 환경에서의 인식실험 결과, 독립성분 분석에 의한 특징 파라메터의 인식 성능이 MFCC보다 우수함을 확인 할 수 있었다.

예측 VQ-Pyramid VQ를 이용한 광대역 음성용 LSF 양자학기 설계 (A LSF Quantizer for the Wideband Speech Using the Predictive VQ-Pyramid VQ)

  • 이강은;이인성;강상원
    • 한국음향학회지
    • /
    • 제23권4호
    • /
    • pp.333-339
    • /
    • 2004
  • 본 논문에서는 벡터 양자화기와 피라미드 벡터 양자화기를 직렬로 결합하여 16차 벡터 소스에 대한 vector quantizer-pyramid vector quantizer (VQ-PVQ)를 개발하였으며, 예측 구조와 세이프티-넷 (safety-net) 개념을 결합시켜 광대역 음성 부호화기용 LPC 계수 양자화 기를 설계하였다. 본 양자화기의 성능은 AMR-WB(ITRT-T G.722.2)의 LPC양자화기 성능과 비교하였는데, 스펙트럼 왜곡 및 메모리 요구량에서 상당한 이득을 얻었다.

광대역 음성 부호화기용 선 스펙트럼 주파수 계수 양자화기 설계 (Design of the LSF Parameter Quantizer for the Wideband Speech Codec)

  • 지상현;강상원;윤병식
    • 한국음향학회지
    • /
    • 제20권4호
    • /
    • pp.29-34
    • /
    • 2001
  • 본 논문에서는 고품질 음성 서비스를 가능하게 하는 광대역 음성 부호화기의 선 스펙트럼 주파수 (line spectral frequency: ISF) 계수 양자화기를 설계하였다. 광대역 음성 부호화기를 위한 효율적인 LSF 계수 양자화기를 설계하기 위하여, 인접 프레임간의 상관도를 이용하였으며, 각 해당 프레임의 ISF 계수에 대한 양자화를 인접 프레임간 상관도가 높은 프레임과 상관도가 낮은 프레임으로 나누어 독립적으로 수행하였다. 인접 프레임간 상관도가 높은 프레임의 LSF계수 양자화를 위하여 예측 피라미드형 벡터 양자화기 (predictive pyramid vector quantizer: PPVQ)를 사용하여 양자화하였고, 상관도가 낮은 프레임의 LSF 계수는 피라미드형 벡터 양자화기 (PVQ)를 사용하여 양자화 하였다. PPVQ에서 예측기로 1차 AR 예측기를 사용하였다. 광대역 음성 부호화기를 위해 본 논문에서 설계된 UF 계수양자화기를 평균스펙트럼 왜곡(spectral distortion: SD) 성능 관점에서 실험한 결과, LSF계수 양자화에 할당된 비트가 프레임당 40비트일 때, 평균 SD값이 1 dB 내외이고, 2 dB 이상 및 4 dB 이상 outlier가 각각 3.87%및 0.01%인 transparent한 성능을 얻을 수 있었다.

  • PDF

64kbit/s(7 kHz) Codec을 경유한 연속음성의 인식 (Recognition of Continuous speech via 64kbit/s(7 kHz) Codec)

  • 정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.125-127
    • /
    • 1993
  • 오디오 혹은 비디오화의, 방송 고품질전화 등의 음성신호의 전송을 위해 마련된 CCITT Recommendation G.722에 의거 Codec을 구성하고 이를 통과한 연속음성을 CMU의 불특정 화자 연속음성인식 시스템인 SPHINX에 입력하여 인식률을 조사 한 후 CODING전의 인식결과와 비교하였다. 이때 CODEC은 크게 네 부분(Trans Quarature Mirror Filter, Encoder, Decoder, Receive QMF)으로 구성하고 입력음성 데이터는 150화자에 의한 1018문장을 훈련용으로, 140문장을 테스트용으로 하였을 때의 단어 인식률을 인식률로 하였다. 또 이때 특징벡터로는 12차 Melcepstrum 계수를 사용하였다. 인식결과 코딩전(close talk Mic를 이용하여 직접입력)의 단어 인식률이 86.7%인데 비해 코딩후의 인식률은 85.6%로 나타나 약 1%의 인식률 저하를 가져와 코딩으로 인한 Error에 비해 비교적 양호한 결과를 얻을 수 있었다. 인식률 저하의 원인으로서는 코딩시의 BER(Bit Error Rate)에 의한 것으로 생각된다.

  • PDF

NEC 7720 DSP를 이용한 SBC codec의 실시간 구현 (Real-Time Implementation of a SBC Codec Using a NEC 7720 DSP)

  • 오수환;이상욱
    • 대한전자공학회논문지
    • /
    • 제23권4호
    • /
    • pp.429-438
    • /
    • 1986
  • In this paper we have designed and implemented a real-time, full-duplex SBC (sub-band coding) codec at 16kbps using a high speed digital signal processor, NEC 7720. The SBC codec employs a QMF(quadrature mirror filter) filter bank based on the tree structures of two-band analysis-synthesis pairs to partition speech signal into 4 octabe bands. Computer simulation has been done to investigate the effect of fixed-point computation of the NEC 7720. Three different performance measures, the conventional signal-to-noise ratio, the informal listening test, and an LPC(linear predictive coding)distance measure, have been used in this simulation. The necessary parameters have been optimized through the simulation. The developed hardware and software have been tested in real-time operation using a hardware emulator.

  • PDF