• 제목/요약/키워드: speech quality evaluation

검색결과 178건 처리시간 0.027초

전역 음성 부재 확률 기반의 향상된 최소값 제어 재귀평균기법을 이용한 음성 향상 기법 (Speech Enhancement Based on Improved Minima Controlled Recursive Averaging Incorporating GSAP)

  • 송지현;방동혁;이상민
    • 대한전자공학회논문지SP
    • /
    • 제49권1호
    • /
    • pp.104-111
    • /
    • 2012
  • 본 논문에서는 향상된 최소값 제어 재귀 평균 기법 (improved minima controlled recursive averaging, IMCRA) 알고리즘의 잡음 전력 추정성능을 향상 시키기 위한 알고리즘을 제안한다. 기존의 IMCRA은 주파수 특성이 빠르게 변화하는 비정상적인 환경과 낮은 SNR을 갖는 상황에서 잡음 전력 추정에 직접적으로 영향을 미치는 음성 검출기의 성능이 강인하지 못한 단점이 있다. 본 연구에서는 강인한 음성 검출 성능을 위해서 기존 IMCRA의 음성 검출기에 전역 음성 부재 확률을 적용한 음성 향상 기법을 제안한다. 제안된 알고리즘의 성능 평가는 음성의 perceptual evaluation of speech quality (PESQ)와 composite measure를 통한 음질을 평가하였다. 실험 결과 다양한 잡음 환경 (car, white, babble)에서 전역 음성 부재 확률을 적용한 IMCRA의 음성 향상 기법이 향상된 결과를 보여주었다. 특히, 비정상잡음 환경인 babble 5dB에서 PESQ 0.026, composite measure 0.029의 향상된 음질을 나타내었다.

텔레메틱스 기반의 VoIP 음성 통화품질 향상을 위한 수신단 구조 (VoIP Receiver Structure for Enhancing Speech Quality Based on Telematics)

  • 김형국;서광덕
    • 한국ITS학회 논문지
    • /
    • 제11권3호
    • /
    • pp.48-54
    • /
    • 2012
  • 텔레메틱스 기반의 VoIP 음성통화는 지연, 지터 그리고 패킷손실과 같은 네트워크 장애요소로 인해 품질저하가 발생된다. 본 논문에서는 이런 장애요소로 인한 통화품질 문제를 해결하기 위하여 수신단 기반의 통화품질 향상 알고리즘을 제안한다. 제안된 방식은 손실은닉, 역동적인 지터추정을 이용한 적응적인 플레이아웃 버퍼 스케줄링, 그리고 전이영역에 존재하는 두 신호간의 스무딩 방법으로 구성된 플레이아웃 콘트롤 및 신호합성부를 통해 고품질의 음성통화를 가능하게 한다. 성능 측정 결과, 제안된 알고리즘은 기존 알고리즘에 비해 높은 PESQ와 낮은 버퍼링 지연을 보여주었다.

G.723.1 음성부호화기와 EVRC 음성부호화기의 상호 부호화 알고리듬 (An Efficient Transcoding Algorithm For G.723.1 and EVRC Speech Coders)

  • 김경태;정성교;윤성완;박영철;윤대희;최용수;강태익
    • 한국통신학회논문지
    • /
    • 제28권5C호
    • /
    • pp.548-554
    • /
    • 2003
  • 서로 다른 음성 부호화기를 사용하는 유/무선 통신망의 연동에서 각 음성 패킷간 효율적인 변환 과정이 필요하다. 이러한 패킷 변환 가정을 위해서 과거에는 이중 부/복호화 방식을 이용하였다. 그러나, 두 음성 부호화기가 이중 부/복호화 방식으로 연동될 경우, 음질 저하 및 계산량 증가, 부가적인 전달 지연 등의 문제가 발생한다. 이 논문에서는 유/무선 통신 시스템에서 널리 사용되는 ITU-T G.723.1[1]과 TIA IS-127 EVRC(Enhanced-Variable-Rate-Codec)[2]음성부호화기 간의 효과적인 연동을 위한 상호부호화 알고리듬을 제안하였다. 제안된 상호부호화 알고리듬은 크게 LSP(Line-Spectrum-Pairs) 변환, 개회로 피치 변환, 고속 적응코드북 검색, 고속 고정코드북 검색의 네 부분으로 나뉘어 진다. TMS320C62x DSP를 사용하여 구현해 본 결과, 제안된 상호부호화 알고리듬이 기존의 이중 부/복호화 과정에 비해 30%∼35% 정도 계산량을 개선하며, 적은 지연 시간으로 동등한 주/객관적 음질을 제공함을 확인하였다.

환경인식 기반의 향상된 Minimum Statistics 잡음전력 추정기법 (Improved Minimum Statistics Based on Environment-Awareness for Noise Power Estimation)

  • 손영호;최재훈;장준혁
    • 한국음향학회지
    • /
    • 제30권3호
    • /
    • pp.123-128
    • /
    • 2011
  • 본 논문에서는 다양한 잡음 환경에서 음성향상을 위한 Minimum Statistics (MS) 잡음전력 추정 기법을 제시한다. 기존의 방법에서는 최소값 추적을 위해서 유한한 서치 (search)윈도우를 사용하여 최적으로 신호의 파워 스펙트럼을 수무딩하고 최소 확률을 적용하는 것을 기본으로 한다. 본 논문에서 제안된 알고리즘은 기존의 최소값 서치 윈도우가 다양한 잡음 환경에 상관없이 고정된 사이즈를 사용하는 것에 환경인식 정보를 적용하여 서치 윈도우 사이즈가 Gaussian mixture model(GMM)기반의 잡음 분류 알고리즘을 이용한 결과 값의 비교로 잡음 환경에 따라 변화 하도록 한다. 제안된 음성 향상 기법은 ITU-T P.862 perceptual evaluation of speech quality (PESQ)를 이용하여 평가하였고 기존의 MS방법보다 향상된 결과를 보였다.

AMR과 EVRC 음성 부호화기간의 비탠덤 방식을 이용한 상호 부호화 (Tandemless Transcoding for AMR and EVRC Speech Coders)

  • 이선일;유창동
    • 한국음향학회지
    • /
    • 제21권6호
    • /
    • pp.531-542
    • /
    • 2002
  • 본 논문에서는 AMR과 EVRC 음성 부호화기간의 비탠덤 (Tandemless) 방식을 이용한 상호 부호화 방법이 제안되었다. 제안된 방법은 기존의 탠덤 (Tandem) 방식의 상호 부호화 방법과 달리 음성 신호를 다시 복호화했다가 부호화하지 않고, CELP 계열의 음성 부호화기들이 공통적으로 사용하는 파라미터들을 직접 변환한다. 상호 부호화는 LSP 변환, 적응 코드북을 위한 피치 지연 값 및 적응 코드북 이득 변환, 고정 코드북 벡터 및 고정 코드북 이득 변환으로 구성되어 있다. 제안된 방법을 객관적, 주관적 방법으로 평가한 결과 기존의 탠덤 방식에 비하여 적은 계산량과 지연 시간으로 탠덤 방식과 최소 동등, 혹은 우월한 음질을 얻을 수 있다는 것을 확인했다.

Blind speech segmentation과 에너지 가중치를 이용한 문장 종속형 화자인식기의 성능 향상 (Performance improvement of text-dependent speaker verification system using blind speech segmentation and energy weight)

  • 김정곤;김형순
    • 대한음성학회지:말소리
    • /
    • 제47호
    • /
    • pp.131-140
    • /
    • 2003
  • We propose a new method of generating client models for HMM based text-dependent speaker verification system with only a small amount of training data. To make a client model, statistical methods such as segmental K-means algorithm are widely used, but they do not guarantee the quality or reliability of a model when only limited data are avaliable. In this paper, we propose a blind speech segmentation based on level building DTW algorithm as an alternative method to make a client model with limited data. In addition, considering the fact that voiced sounds have much more speaker-specific information than unvoiced sounds and energy of the former is higher than that of the latter, we also propose a new score evaluation method using the observation probability raised to the power of weighting factor estimated from the normalized log energy. Our experiment shows that the proposed methods are superior to conventional HMM based speaker verification system.

  • PDF

서브밴드 스케일링에 의한 음성신호의 피치변경법에 관한 연구 (A Study on the Pitch Alteration Technique by Subband Scaling in Speech Signal)

  • 김영구;배명진
    • 음성과학
    • /
    • 제10권4호
    • /
    • pp.137-147
    • /
    • 2003
  • Speech synthesis can classify by synthesis way, that is waveform coding, source coding and mixture coding. Specially, waveform coding is suitable for high quality synthesis. However, it is not desirable by synthesis techniques of syllable or phoneme unit because it do not separate and handles excitation and formant part. Therefore, there is a need for pitch alteration method applied in synthesis by the rule in waveform coding. This study propose about pitch alteration method that use spectrum scaling after do to flatten spectra by subband linear approximation to minimize spectrum distortion. This paper show evaluation whether show excellency of some measure compared with LPC, Cepstrum, lifter function and method that propose. estimation method seeks distribution of each flattened signal and measured degree of flattened spectra Signal flattened is normalized, So that highest point amounts to zero, and distribution of signal ,whose average is zero, is calculated. this show result that measure the spectrum distortion rate to estimate performance of method that propose. The average spectrum distortion rate was kept below the average 2.12%, so the method that propose is superiors than existent method.

  • PDF

Two-Microphone Binary Mask Speech Enhancement in Diffuse and Directional Noise Fields

  • Abdipour, Roohollah;Akbari, Ahmad;Rahmani, Mohsen
    • ETRI Journal
    • /
    • 제36권5호
    • /
    • pp.772-782
    • /
    • 2014
  • Two-microphone binary mask speech enhancement (2mBMSE) has been of particular interest in recent literature and has shown promising results. Current 2mBMSE systems rely on spatial cues of speech and noise sources. Although these cues are helpful for directional noise sources, they lose their efficiency in diffuse noise fields. We propose a new system that is effective in both directional and diffuse noise conditions. The system exploits two features. The first determines whether a given time-frequency (T-F) unit of the input spectrum is dominated by a diffuse or directional source. A diffuse signal is certainly a noise signal, but a directional signal could correspond to a noise or speech source. The second feature discriminates between T-F units dominated by speech or directional noise signals. Speech enhancement is performed using a binary mask, calculated based on the proposed features. In both directional and diffuse noise fields, the proposed system segregates speech T-F units with hit rates above 85%. It outperforms previous solutions in terms of signal-to-noise ratio and perceptual evaluation of speech quality improvement, especially in diffuse noise conditions.

스펙트럼 변이를 이용한 Soft Decision 기반의 음성향상 기법 (Robust Speech Enhancement Based on Soft Decision Employing Spectral Deviation)

  • 최재훈;장준혁;김남수
    • 대한전자공학회논문지SP
    • /
    • 제47권5호
    • /
    • pp.222-228
    • /
    • 2010
  • 본 논문에서는 비정상적인 배경 잡음 환경에서 음성향상을 위한 신호의 스펙트럼 변이 (Spectral Deviation)을 적용한 Soft Decision 기반의 잡음전력 수정 기법을 제안한다. 기존의 Soft Decision 기반의 잡음전력 추정에 있어서 잡음신호의 정상성(Stationarity)을 가정한 스무딩 파라미터를 사용하여 잡음전력을 추정하고 갱신하였지만, 잡음신호의 주파수적인 특성이 상대적으로 빠르게 변하는 비정상적인 환경에서는 강인하지 못한 단점을 가지게 된다. 본 논문에서는 신호의 스펙트럼 변이를 추정하여 정상적인 잡음 환경과 비정상적인 잡음 환경에 따라 적응적으로 잡음전력을 추정하고 갱신하여 잡음신호에 의해 오염된 음성신호를 향상시킨다. 제안된 알고리즘은 다양한 배경 잡음 환경에서 객관적인 음질측정 방법인 ITU-T P.862 perceptual evaluation of speech quality (PESQ)에 의해서 평가되었으며, 기존의 Soft Decision 기반의 음성 향상 기법과 비교하여 보다 향상된 성능을 보여주었다.

반사음이 존재하는 양귀 모델의 음원분리에 관한 연구 (A study on sound source segregation of frequency domain binaural model with reflection)

  • 이채봉
    • 융합신호처리학회논문지
    • /
    • 제15권3호
    • /
    • pp.91-96
    • /
    • 2014
  • 두 개의 입력소자에 의한 음원방향 및 분리방법으로서는 연산량이 적고, 음원분리 성능이 높은 주파수 양귀 모델(Frequency Domain Binaural Model : FDBM)이 있다. FDBM은 주파수 영역에서 양귀간 위상차(Interaural Phase Difference : IPD) 및 양귀간 레벨차(Interaural Level Difference : ILD)를 구하여 음향신호가 오는 방향과 음원의 분리처리를 한다. 그러나 실제 환경에서는 반사음의 문제가 되고 있다. 이러한 반사음에 의한 영향을 줄이기 위하여 선행음 효과에 의한 직접음의 음상정위를 모의하여 초기 도착음을 검출하고 직접음이 오는 방향과 음원분리 방법을 제시하였다. 제시한 방법을 이용하여 음원방향 추정 및 분리에 대한 성능을 시뮬레이션으로 검토하였다. 그 결과, 방향추정은 음원이 오는 방향에서 ${\pm}10%$의 범위로 집중되어 음원의 방향과 가까운 값으로 추정되었다, 반사음이 존재하는 경우의 음원분리는 기존의 FDBM에 비하여 코히런스(Coherence), 음성품질 지각평가 PESQ(Perceptual Evaluation of Speech Quality : PESQ)가 높고, 정면에서의 지향특성 감쇠량이 작아 분리의 정도가 개선됨을 나타내었다. 그러나 반사음이 존재하지 않는 경우는 분리 정도가 낮았다.