• Title/Summary/Keyword: speech quality evaluation

검색결과 178건 처리시간 0.025초

디지틀 음성통신망의 통화품질 측정을 위한 통화모델 시스템의 구현 (On the Implementation of Model System for Speech Transmission Quality Evaluation of Digital Communication Network)

  • 홍진우;김순협
    • 한국통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.192-201
    • /
    • 1993
  • 통신기술이 발전함에 따라 통신망이 아날로그 전송 형태로부터 디지털 전송 형태로 바뀌고 있으며, 궁극적으로는 end-to-end 디지털 통신을 실현하는 종합정보통신망(ISDN)으로 변천하고 있다. 이러한 통신망의 변천에 따라 새로운 망의 설치 및 운용과 더불어 통신의 효율화와 선진화를 달성하기 위한 통화품질의 향상도 중요한 과제로 부각되고 있다. 또한, 새로운 디지털 음성 통신계에서는 통화품질에 영향을 주는 요인들이 기존 아날로그 형태의 음성 통신계와는 다르게 나타나기 때문에 새로운 통화품질의 조건 및 기준을 확립할 필요가 있다. 본 논문에서는 음성통신과 통화품질과의 관계를 설명하고, 디지틀 음성통신계의 통화품질을 설계하기 위한 평가 실험용 디지틀 통화모델 시스템의 설계 및 개발에 대하여 기술한다. 또한, 구현한 모델 시스템의 몇가지 활용을 제안한다.

  • PDF

음성인식프로그램을 이용한 무후두 음성의 말 명료도와 병적 음성의 수술 전후 개선도 측정 (Speech Intelligibility of Alaryngeal Voices and Pre/Post Operative Evaluation of Voice Quality using the Speech Recognition Program(HUVOIS))

  • 김한수;최성희;김재인;임재열;최홍식
    • 대한후두음성언어의학회지
    • /
    • 제15권2호
    • /
    • pp.92-97
    • /
    • 2004
  • Background and Objectives : The purpose of this study was to examine objectively pre and post operative voice quality evaluation and intelligibility of alaryngeal voice using speech recognition program, HUVOIS. Materials and Methods : 2 laryngologists and 1 speech pathologist were evaluated 'G', 'R', 'B' in the GRBAS sclae and speech intelligibility using NTID rating scale from standard paragraph. And also acoustic estimates such as jitter, shimmer, HNR were obtained from Lx Speech Studio. Results : Speech recognition rate was not significantly different between pre and post operation for pathological vocie samples though voice quality(G, B) and acoustic values(Jitter, HNR) were significantly improved after post operation. In Alaryngeal voices, reed type electrolarynx 'Moksori' was the highest both speech intelligibility and speech recognition rate, whereas esophageal speech was the lowest. Coefficient correlation of speech intelligibility and speech recognition rate was found in alaryngeal voices, but not in pathological voices. Conclusion : Current study was not proved speech recognition program, HUVOIS during telephone program was not objective and efficient method for assisting subjective GRBAS scale.

  • PDF

Source controlled variable bit-rate scheme을 이용한 파형 보간 부호화기의 음질 개선 기법 (Enhanced source controlled variable bit-rate scheme in a waveform interpolation coder)

  • 조근석;양희식;정상배;한민수
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.315-318
    • /
    • 2007
  • This paper proposes the methods to enhance the speech quality of source controlled variable bit-rate coder based on the waveform interpolation. The methods are to estimate and generate the parameters that are not transmitted from encoder to decoder by the repetition and extrapolation schemes. For the performance evaluation, the PESQ(Perceptual Evaluation of Speech Quality) scores are measured. The experimental results shows that our proposed method outperforms the conventional source controlled variable bit-rate coder. Especially, the performance of the extrapolation method is better than that of the repetition method.

  • PDF

Evaluation for speech signal based on human sense and signal quality

  • Mekada, Yoshito;Hasegawa, Hiroshi;Kumagai, Takeshi;Kasuga, Masao
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1997년도 Proceedings International Workshop on New Video Media Technology
    • /
    • pp.13-18
    • /
    • 1997
  • Each reproducing speech signal has each particular signal property, because of the processing of encoding and decoding for communications through various media. In this paper, we examine the correlation between speech signal quality and sensory pleasure for the sensory improvement of that signal. In experiments, we evaluate the quality of speech signals through various media by psychological auditory test and physical features of these signals.

  • PDF

다중 주파수 밴드 간섭함수와 스펙트럼 차감법을 이용한 음성 향상 시스템 (Speech enhancement system using the multi-band coherence function and spectral subtraction method)

  • 오인규;이인성
    • 한국음향학회지
    • /
    • 제38권4호
    • /
    • pp.406-413
    • /
    • 2019
  • 본 논문은 두 개의 마이크로폰 환경에서 다중 주파수 대역 이득함수와 주파수 차감법을 결합하여 배경잡음을 억제하는 방법을 제안하였다. 다중 주파수 대역 신호대잡음비 추정을 통해 이득 함수를 얻는 음성 향상 방법은 두 채널 간 잡음신호의 상관성이 큰 경우 잡음 제거 성능이 떨어지는 단점을 가지고 있다. 하나의 채널 에서 스펙트럼 차감법을 통해 얻은 이득함수와 간섭함수 기반의 신호대잡음비 추정을 통해서 얻은 이득함수를 결합하여 가중된 이득함수를 사용하는 음성 향상 방법을 제안하였다. 제안된 방법은 ITU-T(International Telecommunications Union Telecommunication)의 객관적인 품질 평가 방법인 PESQ(Perceptual Evaluation of Speech Quality) 시험과 스펙트로그램을 사용하여 성능 평가 되어졌고 PESQ시험에서 최대 MOS 0.217의 음질 향상을 얻을 수 있었다.

Real-time implementation and performance evaluation of speech classifiers in speech analysis-synthesis

  • Kumar, Sandeep
    • ETRI Journal
    • /
    • 제43권1호
    • /
    • pp.82-94
    • /
    • 2021
  • In this work, six voiced/unvoiced speech classifiers based on the autocorrelation function (ACF), average magnitude difference function (AMDF), cepstrum, weighted ACF (WACF), zero crossing rate and energy of the signal (ZCR-E), and neural networks (NNs) have been simulated and implemented in real time using the TMS320C6713 DSP starter kit. These speech classifiers have been integrated into a linear-predictive-coding-based speech analysis-synthesis system and their performance has been compared in terms of the percentage of the voiced/unvoiced classification accuracy, speech quality, and computation time. The results of the percentage of the voiced/unvoiced classification accuracy and speech quality show that the NN-based speech classifier performs better than the ACF-, AMDF-, cepstrum-, WACF- and ZCR-E-based speech classifiers for both clean and noisy environments. The computation time results show that the AMDF-based speech classifier is computationally simple, and thus its computation time is less than that of other speech classifiers, while that of the NN-based speech classifier is greater compared with other classifiers.

이중 분기 디코더를 사용하는 복소 중첩 U-Net 기반 음성 향상 모델 (Complex nested U-Net-based speech enhancement model using a dual-branch decoder)

  • 황서림;박성욱;박영철
    • 한국음향학회지
    • /
    • 제43권2호
    • /
    • pp.253-259
    • /
    • 2024
  • 본 논문에서는 이중 분기 디코더를 갖는 복소 중첩 U-Net 기반의 새로운 음성 향상 모델을 제안하였다. 제안된 모델은 음성 신호의 크기와 위상 성분을 동시에 추정할 수 있도록 복소 중첩 U-Net으로 구성되며, 디코더는 스펙트럼 사상과 시간 주파수 마스킹을 각각의 분기에서 수행하는 이중 분기 디코더 구조를 갖는다. 이때, 이중 분기 디코더 구조는 단일 디코더 구조에 비하여, 음성 정보의 손실을 최소화하면서 잡음을 효과적으로 제거할 수 있도록 한다. 실험은 음성 향상 모델 학습을 위해 보편적으로 사용되는 VoiceBank + DEMAND 데이터베이스 상에서 이루어졌으며, 다양한 객관적 평가 지표를 통해 평가되었다. 실험 결과, 이중 분기 디코더를 사용하는 복소 중첩 U-Net 기반 음성 향상 모델은 기존의 베이스라인과 비교하여 Perceptual Evaluation of Speech Quality(PESQ) 점수가 0.13가량 증가하였으며, 최근 제안된 음성 향상 모델들보다도 높은 객관적 평가 점수를 보였다.

모바일 VoIP 음성통신을 위한 대화음질 측정 시스템 (Conversational Quality Measurement System for Mobile VoIP Speech Communication)

  • 조재만;김형국
    • 한국ITS학회 논문지
    • /
    • 제10권4호
    • /
    • pp.71-77
    • /
    • 2011
  • 본 논문에서는 고품질 모바일 VoIP 음성통신에 대한 객관적인 QoS를 제공하는 대화음질 측정시스템을 구현하였다. 대화음질 측정을 위해서 VoIP로 연결된 두 대의 스마트폰에 에코 및 잡음 제거, 음성 인코딩 및 디코딩, RTP (Real-TimeProtocol)을 적용한 패킷 생성, 지터버퍼 콘트롤, LC (Loss Concealment)를 포함한 POS (Play-out Schedule)로 구성된 VoIP음성 통화시스템을 구현하였다. 대화음질 측정 시스템은 VoIP로 연결된 두 스마트폰의 마이크, 그리고 스피커와 연결되어 각 화자별로 음성신호를 녹음한 후에, 녹음된 음성신호를 이용하여 CE (Conversational Efficiency), CS (Conversational Symmetry) 및 PESQ (Perceptual Evaluation of Speech Quality)를 측정하고, CE-CS-PESQ에 대한 상관관계를 측정한다. 본 논문에서는 다양한 SNR, IP 네트워크망 변동에 따른 지연, 손실 변화에 따른 CE, CS, PESQ를 측정하여 대화음질 측정시스템을 검증하였다.

음성신호개선을 위한 임계대역 웨이블렛 패킷 기반의 스펙트럼 차감법 (Critical Banded Wavelet Packet-Based Spectral Subtractions for Speech Enhancement)

  • Chang, Sung-Wook;Yang, Sung-Il
    • The Journal of the Acoustical Society of Korea
    • /
    • 제23권4E호
    • /
    • pp.125-133
    • /
    • 2004
  • In this paper, we propose a critical banded wavelet packet-based spectral subtraction for speech enhancement. Critical banded wavelet packet, which reflects the human auditory system, may lead to minimization of intelligibility loss and quality improvement of the enhanced speech in the spectral domain, when combined with an appropriate spectral subtraction gain function. The proposed method shows better performance than the conventional one in comparative assessments. We also show that, for effective evaluation of enhanced speech, it is essential to consider the characteristics of speech quality measures.

VoIP 음질의 주관적 평가에 관한 연구 (A Study of Subjective Speech Quality Measurement in VoIP)

  • 강영도;강진석;최연성;김장형
    • 한국정보통신학회논문지
    • /
    • 제5권2호
    • /
    • pp.279-287
    • /
    • 2001
  • 본 논문은 초고속 인터넷을 이용한 음성전송 방식인 VoIP(Voice over IP) 서비스에서의 음질의 주관적 평가에 관한 연구이다. PSNR이나 지터 갊은 멀티미디어 서비스의 객관적 파라미터는 명료히 정의되어 있고 쉽게 측정되나, 그것이 이용자의 지각적 인지도와는 일치하지 않는다. 본 연구에서는 송화자 내용 발생과정에 있어서 어느 정도 완전히 표현되었는가를 나타내는 송화 품질과 음성이 전송계를 통해 수화자에게 전달되는 과정에서 왜곡이나 잡음 등의 방해요인에 의해 열화 되는 정도를 나타내는 전송 품질, 그리고 수화자가 청각에서 신호처리 과정을 거친 송화자의 내용을 어느 정도 이해할 수 있는지를 나타내는 수화 품질에 대한 주관적 평가법과 그 척도를 제시한다. 또한 제안된 방법으로 실험하여 그 유효성을 검증한다.

  • PDF