• 제목/요약/키워드: Speech codec

검색결과 128건 처리시간 0.033초

DSP기반의 잡음환경에 강인한 화자 독립 음성 인식기 구현 (Implementation of Speaker Independent Speech Recognizer in Noise Environment based on DSP)

  • 박진영;권호민;박정원;김창근;허강인
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 신호처리소사이어티 추계학술대회 논문집
    • /
    • pp.69-72
    • /
    • 2003
  • 본 논문에서는 범용 DSP를 이용한 잡음환경에 강인한 음성인식 시스템을 구현하였다. 구현된 시스템은 TI사의 범용 DSP인 TMS320C32를 이용하였고, 실시간 음성 입력을 위한 음성 Codec과 외부 인터페이스를 확장하여 인식결과를 출력하도록 구성하였다. 또한, 기존의 음성 인식 시스템에 사용한 파라메터에 대한 고찰과 ICA를 이용하여 잡음 환경에 강인한 음성 특징 파라메터를 제안하고 성능 비교 실험을 하였다. 제안된 ICA 파라메터를 적용하여 음성인식 시스템을 구현하였다. 그리고, 독립적으로 동작 가능한 음성인식 시스템의 응용 예로 무선자동차에 적용시켜 실험했다.

  • PDF

ADSP-2181 DSP를 이용한 G.723.1 음성부호화기 개발 (Development of G.723.1 Speech Codec Using a Fixed-point DSP(ADSP-2181))

  • 박정재
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.121-126
    • /
    • 1998
  • 고정 소수점 DSP 인 analog devices 사의 ADSP-2181을 이용하여 실시간 G.723.1 음성부호화기를 개발한 사례이다. G.723.1은 ITU에서 개발한 세계 표준 음성 부호화기로 낮은 전송율에서 고음질을 얻을 수 있다. 본 논문에서는 고정 소수점 DSP를 이용하여 부호화기를 갭라하는데 필요한 사항들을 제시하였다. 먼저 1절에서는 DAM성 부호화기의 특성에 대한 개괄을 설명하고, 2절에서는 G.723.1 부호화기의 특징을, 3절에서는 고정소수점 DSP를 이용하여 개발하는 과정을, 4절에서는 구현결과를 분석하였으며, 마지막으로 5절에서 결론을 맺는다.

  • PDF

HD 음성 서비스를 제공하는 스마트폰 어플리케이션의 구현 (The Implementation of Smartphone Application servicing HD(High Definition)-Voice)

  • 최승한;김도영;서창호
    • 정보보호학회논문지
    • /
    • 제23권4호
    • /
    • pp.609-615
    • /
    • 2013
  • 본 논문은 ITU-T 표준 코덱인 G.711.1 광대역 코덱을 적용한 HD 보이스 스마트폰 어플리케이션의 개발 내용을 설명한다. 개발 내용에는 G.711.1 광대역 코덱을 적용한 HD 보이스 스마트폰 어플리케이션의 구조와 개발된 HD보이스 어플리케이션의 음성 품질 결과를 포함하고 있으며, ITU-T의 다른 표준 코덱인 G.722 코덱을 적용한 어플리케이션 보다 음성 품질이 MOS값 - 0.5(패킷 손실 환경 포함)로 향상된 결과가 나왔다.

Dual MAC을 이용한 음성 부호화기용 피치 매개변수 검색 구조 설계 (Design of pitch parameter search architecture for a speech coder using dual MACs)

  • 박주현;심재술;김영민
    • 전자공학회논문지A
    • /
    • 제33A권5호
    • /
    • pp.172-179
    • /
    • 1996
  • In the paper, QCELP (qualcomm code excited linear predictive), CDMA (code division multiple access)'s vocoder algorithm, was analyzed. And then, a ptich parameter seaarch architecture for 16-bit programmable DSP(digital signal processor) for QCELP was designed. Because we speed up the parameter search through high speed DSP using two MACs, we can satisfy speech codec specifiction for the digital celluar. Also, we implemented in FIFO(first-in first-out) memory using register file to increase the access time of data. This DSP was designed using COMPASS, ASIC design tool, by top-down design methodology. Therefore, it is possible to cope with rapid change at mobile communication market.

  • PDF

상태별 이득 제어 및 fixed codebook estimation을 이용한 G.729에서의 Packet Loss Concealment 알고리즘 개선 (Improvement of Packet Loss Concealment Algorithm by Using state gain control and fixed codebook estimation)

  • 문광;한민수
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.109-112
    • /
    • 2003
  • In real time packetized voice applications, missing frames is a major source of voice quality degradation. Thus packet loss concealment(PLC) algorithms are needed to guarantee the QoS of the VoIP. Still current speech codecs for VoIP work poor when consecutive packet losses are issued. In this paper, we proposed a new PLC algorithm for the G.729 codec. Our algorithm works better especially when the consecutive packet loss occurs mainly because it adopts an adaptive gain controller utilizing the number of missing packet information combined with a fixed codebook vector estimation algorithm and LPC bandwidth expansion.

  • PDF

Robust Speech Decoding Using Channel-Adaptive Parameter Estimation.

  • Lee, Yun-Keun;Lee, Hwang-Soo
    • The Journal of the Acoustical Society of Korea
    • /
    • 제18권1E호
    • /
    • pp.3-6
    • /
    • 1999
  • In digital mobile communication system, the transmission errors affect the quality of output speech seriously. There are many error concealment techniques using a posteriori probability which provides information about any transmitted parameter. They need knowledge about channel transition probability as well as the 1st order Markov transition probability of codec parameters for estimation of transmitted parameters. However, in applications of mobile communication systems, the channel transition probability varies depending on nonstationary channel characteristics. The mismatch of designed channel transition probability of the estimator to actual channel transition probability degrades the performance of the estimator. In this paper, we proposed a new parameter estimator which adapts to the channel characteristics using short time average of maximum a posteriori probabilities(MAPs). The proposed scheme, when applied to the LSP parameter estimation, performed better than the conventional estimator which do not adapt to the channel characteristics.

  • PDF

Adaptive TCX Windowing Technology for Unified Structure MPEG-D USAC

  • Lee, Tae-Jin;Beack, Seung-Kwon;Kang, Kyeong-Ok;Kim, Whan-Woo
    • ETRI Journal
    • /
    • 제34권3호
    • /
    • pp.474-477
    • /
    • 2012
  • The MPEG-D unified speech and audio coding (USAC) standardization process was initiated by MPEG to develop an audio codec that is able to provide consistent quality for mixed speech and music contents. The current USAC reference model structure consists of frequency domain (FD) and linear prediction domain (LPD) core modules and is controlled using a signal classifier tool. In this letter, we propose an LPD single-mode USAC structure using an adaptive widowing-based transform-coded excitation module. We tested our system using official test items for all mono-evaluation modes. The results of the experiment show that the objective and subjective performances of the proposed single-mode USAC system are better than those of the FD/LPD dual-mode USAC system.

심층 신경망을 이용한 음성 신호의 부호화 이력 검출 (Coding History Detection of Speech Signal using Deep Neural Network)

  • 조효진;장원;신성현;박호종
    • 방송공학회논문지
    • /
    • 제23권1호
    • /
    • pp.86-92
    • /
    • 2018
  • 본 논문에서는 디지털 음성 신호의 부호화 이력을 검출하는 방법을 제안한다. 음성 신호를 디지털 방식으로 전송 또는 저장할 때 데이터양을 줄이기 위해 부호화한다. 따라서 음성 신호 파형이 주어질 때, 해당 신호가 원본인지 부호화된 신호인지 판단하고, 만일 부호화 되었다면 부호화 횟수를 검출하는 부호화 이력 검출 과정이 필요하다. 본 논문에서는 12.2kbps 비트율의 AMR 부호화기에 대하여 원본, 단일 부호화, 이중 부호화 여부를 판단하는 부호화 이력 검출 방법을 제안한다. 제안한 방법은 입력 음성 신호에서 음성 고유의 특성 벡터를 추출하고, 해당 특성 벡터를 심층 신경망으로 모델링 하는 방법을 사용한다. 본 논문에서 제안하는 특성 벡터가 일반적인 스펙트로그램으로부터 추출한 특성 벡터보다 우수한 부호화 이력 검출 성능을 제공하는 것을 확인하였다.

A Study on Design and Implementation of Speech Recognition System Using ART2 Algorithm

  • Kim, Joeng Hoon;Kim, Dong Han;Jang, Won Il;Lee, Sang Bae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제4권2호
    • /
    • pp.149-154
    • /
    • 2004
  • In this research, we selected the speech recognition to implement the electric wheelchair system as a method to control it by only using the speech and used DTW (Dynamic Time Warping), which is speaker-dependent and has a relatively high recognition rate among the speech recognitions. However, it has to have small memory and fast process speed performance under consideration of real-time. Thus, we introduced VQ (Vector Quantization) which is widely used as a compression algorithm of speaker-independent recognition, to secure fast recognition and small memory. However, we found that the recognition rate decreased after using VQ. To improve the recognition rate, we applied ART2 (Adaptive Reason Theory 2) algorithm as a post-process algorithm to obtain about 5% recognition rate improvement. To utilize ART2, we have to apply an error range. In case that the subtraction of the first distance from the second distance for each distance obtained to apply DTW is 20 or more, the error range is applied. Likewise, ART2 was applied and we could obtain fast process and high recognition rate. Moreover, since this system is a moving object, the system should be implemented as an embedded one. Thus, we selected TMS320C32 chip, which can process significantly many calculations relatively fast, to implement the embedded system. Considering that the memory is speech, we used 128kbyte-RAM and 64kbyte ROM to save large amount of data. In case of speech input, we used 16-bit stereo audio codec, securing relatively accurate data through high resolution capacity.

G.723.1 음성부호화기와 EVRC 음성부호화기의 상호 부호화 알고리듬 (An Efficient Transcoding Algorithm For G.723.1 and EVRC Speech Coders)

  • 김경태;정성교;윤성완;박영철;윤대희;최용수;강태익
    • 한국통신학회논문지
    • /
    • 제28권5C호
    • /
    • pp.548-554
    • /
    • 2003
  • 서로 다른 음성 부호화기를 사용하는 유/무선 통신망의 연동에서 각 음성 패킷간 효율적인 변환 과정이 필요하다. 이러한 패킷 변환 가정을 위해서 과거에는 이중 부/복호화 방식을 이용하였다. 그러나, 두 음성 부호화기가 이중 부/복호화 방식으로 연동될 경우, 음질 저하 및 계산량 증가, 부가적인 전달 지연 등의 문제가 발생한다. 이 논문에서는 유/무선 통신 시스템에서 널리 사용되는 ITU-T G.723.1[1]과 TIA IS-127 EVRC(Enhanced-Variable-Rate-Codec)[2]음성부호화기 간의 효과적인 연동을 위한 상호부호화 알고리듬을 제안하였다. 제안된 상호부호화 알고리듬은 크게 LSP(Line-Spectrum-Pairs) 변환, 개회로 피치 변환, 고속 적응코드북 검색, 고속 고정코드북 검색의 네 부분으로 나뉘어 진다. TMS320C62x DSP를 사용하여 구현해 본 결과, 제안된 상호부호화 알고리듬이 기존의 이중 부/복호화 과정에 비해 30%∼35% 정도 계산량을 개선하며, 적은 지연 시간으로 동등한 주/객관적 음질을 제공함을 확인하였다.