• 제목/요약/키워드: Speech activity detection

검색결과 85건 처리시간 0.035초

차량 잡음 환경에서 엔트로피 기반의 음성 구간 검출 (Voice Activity Detection Based on Entropy in Noisy Car Environment)

  • 노용완;이규범;이우석;홍광석
    • 융합신호처리학회논문지
    • /
    • 제9권2호
    • /
    • pp.121-128
    • /
    • 2008
  • 정확한 음성 구간 검출은 음성 인식 및 음성 코딩 그리고 음성 통신 시스템 등과 같은 음성 어플리케이션의 성능에 큰 영향을 미친다. 본 논문에서는 실제 운전하고 있는 상태에서 다양한 차량 노이즈 환경의 음성 구간 검출 방법을 제안한다. 기존의 음성 구간 검출은 시간 에너지, 주파수 에너지, 영 교차율, spectral entropy 등 다양한 방법을 사용하였으며 잡음 환경에서 급격하게 성능이 저하되는 단점이 있었다. 본 논문에서는 기존의 spectral entropy를 기반으로 하여 MFB(Mel-frequency Filter Banks) spectral entropy, 기울기 FFT(Fast Fourier Transform) spectral entropy, 기울기 MFB spectral entropy를 이용한 음성 구간 검출 방법을 제안한다. MFB는 멜 스케일과 FFT를 곱한 것으로 멜 스케일은 인간이 소리를 인지할 때 주파수에 대해 비선형적인 스케일이며 음성의 특징을 잘 반영한다. 제안한 MFB spectral entropy 방법은 다양한 차량 잡음 환경에서 음성 및 비음성 분별 능력을 향상시킬 수 있으며 실험 결과 93.21%의 음성 구간 검출율을 나타내었다. 이는 기존의 spectral entropy 방법과 비교할 때 MFB를 이용한 음성 구간 검출 방법이 3.2%의 검출율이 향상되었다.

  • PDF

이중채널 잡음음성인식을 위한 공간정보를 이용한 통계모델 기반 음성구간 검출 (Statistical Model-Based Voice Activity Detection Using Spatial Cues for Dual-Channel Noisy Speech Recognition)

  • 신민화;박지훈;김홍국;이연우;이성로
    • 말소리와 음성과학
    • /
    • 제2권3호
    • /
    • pp.141-148
    • /
    • 2010
  • In this paper, voice activity detection (VAD) for dual-channel noisy speech recognition is proposed in which spatial cues are employed. In the proposed method, a probability model for speech presence/absence is constructed using spatial cues obtained from dual-channel input signal, and a speech activity interval is detected through this probability model. In particular, spatial cues are composed of interaural time differences and interaural level differences of dual-channel speech signals, and the probability model for speech presence/absence is based on a Gaussian kernel density. In order to evaluate the performance of the proposed VAD method, speech recognition is performed for speech segments that only include speech intervals detected by the proposed VAD method. The performance of the proposed method is compared with those of several methods such as an SNR-based method, a direction of arrival (DOA) based method, and a phase vector based method. It is shown from the speech recognition experiments that the proposed method outperforms conventional methods by providing relative word error rates reductions of 11.68%, 41.92%, and 10.15% compared with SNR-based, DOA-based, and phase vector based method, respectively.

  • PDF

Robust Entropy Based Voice Activity Detection Using Parameter Reconstruction in Noisy Environment

  • Han, Hag-Yong;Lee, Kwang-Seok;Koh, Si-Young;Hur, Kang-In
    • Journal of information and communication convergence engineering
    • /
    • 제1권4호
    • /
    • pp.205-208
    • /
    • 2003
  • Voice activity detection is a important problem in the speech recognition and speech communication. This paper introduces new feature parameter which are reconstructed by spectral entropy of information theory for robust voice activity detection in the noise environment, then analyzes and compares it with energy method of voice activity detection and performance. In experiments, we confirmed that spectral entropy and its reconstructed parameter are superior than the energy method for robust voice activity detection in the various noise environment.

새로운 음성 활동 검출법에 의한 Boll의 스펙트럼 차감 알고리즘 (Boll's Spectral Subtraction Algorithm by New Voice Activity Detection)

  • 류종훈;김대경;박장식;손경식
    • 한국멀티미디어학회논문지
    • /
    • 제4권1호
    • /
    • pp.46-55
    • /
    • 2001
  • 본 논문에서는 확장 스펙트럼 차감 알고리즘으로 처리된 신호의 추정 신호 대 잡음비를 이용한 새로운 음성 활동 검출법을 제안한다. 확장 스펙트럼 차감 알고리즘의 Wiener필터 출력 신호에서 신호 대 잡음비를 추정하기 위한 Wiener 필터를 하나 더 둠으로써 음성 활동을 검출한다. 제안하는 음성 활동 검출기는 계산량이 많지 않으며 낮은 신호 대 잡음비에서도 잘 동작했다. 제안하는 음성 활동 검출기의 응용으로 Boll의 스펙트럼 차감 알고리즘에 제안하는 음성 활동 검출기를 적용한 다음 확장 스펙트럼 차감 알고리즘과 비교하였다. 제안하는 음성 활동 검출법에 의한 Boll의 스펙트럼 타감 알고리즘은 음성/비음성 구간 모두에서 확장스펙트럼 차감 알고리즘보다 우수한 성능을 보였다.

  • PDF

엔트로피와 하모닉 검출을 이용한 잡음환경에 강인한 음성검출 (Robust Voice Activity Detection in Noisy Environment Using Entropy and Harmonics Detection)

  • 최갑근;김순협
    • 대한전자공학회논문지SP
    • /
    • 제47권1호
    • /
    • pp.169-174
    • /
    • 2010
  • 이 논문은 잡음환경에서 음성인식률 향상을 위한 끝점 검출 방법에 대해 소개한다. 제안된 방법은 엔트로피와 음성의 하모닉 검출을 이용해 음성 구간과 비음성 구간을 검출한다. 음성의 스펙트럴 에너지에 대한 엔트로피를 사용하여 끝점검출을 하게 되면 비교적 높은 SNR 환경(SNR 15dB)에서는 성능이 우수하나 잡음환경의 변화에 따라 음성과 비음성의 문턱값이 변화 하여 낮은 SNR환경(SNR 0dB)에서는 정확한 끝점 검출이 어렵다. 본 논문은 낮은 SNR 환경(0dB)에서도 정확한 끝점을 검출할 수 있도록 음성의 스펙트럴 엔트로피와 하모닉 성분을 검출하여 끝점을 검출하는 방법을 제안한다. 실험결과 기존의 엔트로피만을 이용한 방법보다 개선된 성능을 보였다.

음성구간검출을 위한 비정상성 잡음에 강인한 특징 추출 (Robust Feature Extraction for Voice Activity Detection in Nonstationary Noisy Environments)

  • 홍정표;박상준;정상배;한민수
    • 말소리와 음성과학
    • /
    • 제5권1호
    • /
    • pp.11-16
    • /
    • 2013
  • This paper proposes robust feature extraction for accurate voice activity detection (VAD). VAD is one of the principal modules for speech signal processing such as speech codec, speech enhancement, and speech recognition. Noisy environments contain nonstationary noises causing the accuracy of the VAD to drastically decline because the fluctuation of features in the noise intervals results in increased false alarm rates. In this paper, in order to improve the VAD performance, harmonic-weighted energy is proposed. This feature extraction method focuses on voiced speech intervals and weighted harmonic-to-noise ratios to determine the amount of the harmonicity to frame energy. For performance evaluation, the receiver operating characteristic curves and equal error rate are measured.

Voice Activity Detection with Run-Ratio Parameter Derived from Runs Test Statistic

  • Oh, Kwang-Cheol
    • 음성과학
    • /
    • 제10권1호
    • /
    • pp.95-105
    • /
    • 2003
  • This paper describes a new parameter for voice activity detection which serves as a front-end part for automatic speech recognition systems. The new parameter called run-ratio is derived from the runs test statistic which is used in the statistical test for randomness of a given sequence. The run-ratio parameter has the property that the values of the parameter for the random sequence are about 1. To apply the run-ratio parameter into the voice activity detection method, it is assumed that the samples of an inputted audio signal should be converted to binary sequences of positive and negative values. Then, the silence region in the audio signal can be regarded as random sequences so that their values of the run-ratio would be about 1. The run-ratio for the voiced region has far lower values than 1 and for fricative sounds higher values than 1. Therefore, the parameter can discriminate speech signals from the background sounds by using the newly derived run-ratio parameter. The proposed voice activity detector outperformed the conventional energy-based detector in the sense of error mean and variance, small deviation from true speech boundaries, and low chance of missing real utterances

  • PDF

낮은 신호 대 잡음비 환경에서의 퍼지 소속도 천이 C-means 클러스터링을 이용한 음성구간 검출 알고리즘 (Voice Activity Detection Algorithm using Fuzzy Membership Shifted C-means Clustering in Low SNR Environment)

  • 이기현;이윤정;조진호;김명남
    • 한국멀티미디어학회논문지
    • /
    • 제17권3호
    • /
    • pp.312-323
    • /
    • 2014
  • 음성구간 검출은 음성과 잡음이 섞인 신호에서 음성과 잡음이 섞인 신호에서 음성구간을 찾는 과정으로 잡음제거나 음성 향상을 위한 신호처리에서 매우 중요한 과정이다. 지금까지 음성구간 검출에 관한 많은 연구가 있었지만, 낮은 신호 대 잡음비 환경에서 문장형태의 음성신호에 대해서는 좋은 성능을 보이지 못하였다. 본 논문에서는 신호의 엔트로피를 이용한 초기 VAD과정을 거친 후, 퍼지 소속도 천이 c-means 클러스터링 방법을 이용해 주 VAD과정을 거치는 새로운 VAD알고리즘을 제안한다. 제안한 알고리즘의 성능을 비교 평가하기 위하여 백색잡음의 다양한 신호 대 잡음비 환경에서 실험을 수행하였으며 실험결과, 제안한 방법의 우수한 성능을 확인할 수 있었다.

Voice Activity Detection Based on SNR and Non-Intrusive Speech Intelligibility Estimation

  • An, Soo Jeong;Choi, Seung Ho
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제11권4호
    • /
    • pp.26-30
    • /
    • 2019
  • This paper proposes a new voice activity detection (VAD) method which is based on SNR and non-intrusive speech intelligibility estimation. In the conventional SNR-based VAD methods, voice activity probability is obtained by estimating frame-wise SNR at each spectral component. However these methods lack performance in various noisy environments. We devise a hybrid VAD method that uses non-intrusive speech intelligibility estimation as well as SNR estimation, where the speech intelligibility score is estimated based on deep neural network. In order to train model parameters of deep neural network, we use MFCC vector and the intrusive speech intelligibility score, STOI (Short-Time Objective Intelligent Measure), as input and output, respectively. We developed speech presence measure to classify each noisy frame as voice or non-voice by calculating the weighted average of the estimated STOI value and the conventional SNR-based VAD value at each frame. Experimental results show that the proposed method has better performance than the conventional VAD method in various noisy environments, especially when the SNR is very low.

스펙트럼의 변동계수를 이용한 잡음에 강인한 음성 구간 검출 (Noise-Robust Speech Detection Using The Coefficient of Variation of Spectrum)

  • 김영민;한민수
    • 대한음성학회지:말소리
    • /
    • 제48호
    • /
    • pp.107-116
    • /
    • 2003
  • This paper deals with a new parameter for voice detection which is used for many areas of speech engineering such as speech synthesis, speech recognition and speech coding. CV (Coefficient of Variation) of speech spectrum as well as other feature parameters is used for the detection of speech. CV is calculated only in the specific range of speech spectrum. Average magnitude and spectral magnitude are also employed to improve the performance of detector. From the experimental results the proposed voice detector outperformed the conventional energy-based detector in the sense of error measurements.

  • PDF