• 제목/요약/키워드: VAD

검색결과 217건 처리시간 0.026초

Applying the Bi-level HMM for Robust Voice-activity Detection

  • Hwang, Yongwon;Jeong, Mun-Ho;Oh, Sang-Rok;Kim, Il-Hwan
    • Journal of Electrical Engineering and Technology
    • /
    • 제12권1호
    • /
    • pp.373-377
    • /
    • 2017
  • This paper presents a voice-activity detection (VAD) method for sound sequences with various SNRs. For real-time VAD applications, it is inadequate to employ a post-processing for the removal of burst clippings from the VAD output decision. To tackle this problem, building on the bi-level hidden Markov model, for which a state layer is inserted into a typical hidden Markov model (HMM), we formulated a robust method for VAD not requiring any additional post-processing. In the method, a forward-inference-ratio test was devised to detect the speech endpoints and Mel-frequency cepstral coefficients (MFCC) were used as the features. Our experiment results show that, regarding different SNRs, the performance of the proposed approach is more outstanding than those of the conventional methods.

음성구간검출을 위한 비정상성 잡음에 강인한 특징 추출 (Robust Feature Extraction for Voice Activity Detection in Nonstationary Noisy Environments)

  • 홍정표;박상준;정상배;한민수
    • 말소리와 음성과학
    • /
    • 제5권1호
    • /
    • pp.11-16
    • /
    • 2013
  • This paper proposes robust feature extraction for accurate voice activity detection (VAD). VAD is one of the principal modules for speech signal processing such as speech codec, speech enhancement, and speech recognition. Noisy environments contain nonstationary noises causing the accuracy of the VAD to drastically decline because the fluctuation of features in the noise intervals results in increased false alarm rates. In this paper, in order to improve the VAD performance, harmonic-weighted energy is proposed. This feature extraction method focuses on voiced speech intervals and weighted harmonic-to-noise ratios to determine the amount of the harmonicity to frame energy. For performance evaluation, the receiver operating characteristic curves and equal error rate are measured.

음성부호화기에서의 VAD 성능 향상 연구 (Research of Improving the Performance of Voice Activity Detector in Vocoder)

  • 민소연;이광형;배명진
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2007년도 추계학술발표논문집
    • /
    • pp.194-197
    • /
    • 2007
  • .ITU-T 국제 표준화 기구에서 인터넷 폰과 화상회의를 목적으로 개발된 G.723.1 음성 부호화기는 잡음구간에서의 전송률을 낮추기 위한 방법으로 VAD(Voice Activity Detector)와 CNG(Comfort Noise Generator)를 사용하고 있다. 이중 VAD는 최종적으로 현재 프레임의 에너지 레벨을 비교하여 음성의 활동 유무를 판정하고 있다. 하지만 G.723.1 VAD에서는 보다 안정적인 판정을 위해 음성 활동 구간 사이에 삽입되어 있는 묵음 구간에 대해서는 거의 대부분 음성이 활동하는 영역으로 판정을 하고 있다. 따라서 본 논문에서는 묵음 구간에 대해 보다 정확한 판정을 통하여 기존의 방법에 비해 전송율을 더욱 감소시킬 수 있는 방법을 제안한다. 실험에서는 묵음구간을 길게 조절한 문장을 사용하여 측정한 결과, 약 47% 정도의 전송율을 감소시킬 수 있었으며, MOS test 결과, 음질의 열하는 거의 발생하지 않았다.

  • PDF

백두산 분화로 인한 상수도 시설 피해 관리 기준 설정 연구 (An Study on Development of Water Systems Damage Management Standard Caused by Mt. Baekdu Eruption)

  • 최정렬;김민규;이경빈;정일문
    • 지질공학
    • /
    • 제28권2호
    • /
    • pp.259-266
    • /
    • 2018
  • 백두산 분화시 북풍 또는 북동풍이 발달하게 되면 국내에 화산재가 확산될 가능성이 있으며, 화산재에 의해 민감한 영향을 받는 상수도 시설의 관리기준이 필요하다. 본 연구에서는 국내 상수도 시설의 관리기준 수립을 위해 국외의 다양한 화산에 대해 분야별 피해사례를 조사하였으며, 이를 바탕으로 상수도 시설의 피해 요인을 퇴적, 흡착/침착, 마모로 나누어 예상되는 피해 정도를 유형화하였다. 또한 위험평가 결과를 바탕으로 화산재 퇴적 두께에 따라 상수도 시설의 관리 단계를 4단계로 도출하였으며, 0~1 mm은 VAD(Volcanic Ash Degree) I, 1~3 mm는 VAD II, 3~5 mm는 VAD III, 5 mm 이상은 VAD IV로 제시하였다. 최종적으로 도출된 관리 단계별 경보 기준, 화산재 영향, 피해 대응 절차 및 방안 등으로 구성된 상수도 시설 관리 기준(안)을 제시하였다.

관형의 구조적 특징을 갖춘 박동형 관형 심실보조장치의 혈류, 혈압 평가 (Blood Flow and Pressure Evaluation for a Pulsatile Conduit-Shaped Ventricular Assist Device with Structural Characteristic of Conduit Shape)

  • 강성민;최성욱
    • 대한기계학회논문집B
    • /
    • 제35권11호
    • /
    • pp.1191-1198
    • /
    • 2011
  • 심실보조장치는 말기 심부전환자에게 심장이식수술 없이 1 년 생존율을 25%에서 52%까지 증가 시킬 수 있는 유일한 장치이다. 하지만 심실보조장치 이식 후 1 년이 이내에 사망하는 원인 중 기기의 고장으로 인한 사망률이 6%를 차지하기 때문에 심실보조장치의 고장이 환자의 심장 움직임과 혈류 역학적인 상태에 영향을 주지 않는 새로운 방법이 필요하다. 기존의 심실보조장치는 원심형, 축심형으로 혈액을 박출해 주는 방식이어서 동맥압 보다 박출하는 압력이 낮을 때 혈액의 역류가 일어나는 문제점이 있다. 본 논문에서는 박출 압력이 약할 때, 2 개의 밸브에 의하여 혈액의 역류를 방지하고 관형태의 구조에 의해 혈액의 정체량을 줄일 수 있는 새로운 박동형 관형 심실보조장치를 개발하였으며, 체외실험과 동물실험으로 박출량과 펌프의 압력을 측정하여 그 특성을 평가하였다.

원격탐사의 바람벡터 산출 방법에 따른 자료 수집률과 정확도 (Acquisition Rate and Accuracy According to Wind Vector Calculation Method of Remote Sensing )

  • 김유진;권병혁
    • 한국전자통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.965-970
    • /
    • 2023
  • 윈드프로파일러와 윈드라이다는 대기경계층에서 시공간 고해상도 바람의 연직분포를 산출한다. 윈드라이다는 DBS(Doppler Beam Swinging)와 VAD(Velocity Azimuth Display) 방법으로 바람 벡터를 산출한다. DBS 방법은 빠른 스캔 시간으로 바람 프로파일을 획득할 수 있다는 장점이 있다. 반면에 연직 빔을 포함한 최소한 두 빔이 필요한 제약이 있어서 자료 수집률 저하의 원인이 된다. 일반적으로 다섯 빔을 사용하는 윈드프로파일러의 자료 수집률을 향상하기 위해 VAD 방식을 개선하였다. 먼저 DBS 방식의 시선속도 자료로 Fourier series를 산출하였다. 방위각 간격을 결정하여 Fourier series로 계산한 시선속도를 VAD 방식에 적용하여 고도별 바람을 산출하였다. DBS 방식으로 바람을 산출하지 못한 고도에서도 바람 벡터를 산출하였고, 두 방식의 결과가 일치하였다.

이중채널 잡음음성인식을 위한 공간정보를 이용한 통계모델 기반 음성구간 검출 (Statistical Model-Based Voice Activity Detection Using Spatial Cues for Dual-Channel Noisy Speech Recognition)

  • 신민화;박지훈;김홍국;이연우;이성로
    • 말소리와 음성과학
    • /
    • 제2권3호
    • /
    • pp.141-148
    • /
    • 2010
  • In this paper, voice activity detection (VAD) for dual-channel noisy speech recognition is proposed in which spatial cues are employed. In the proposed method, a probability model for speech presence/absence is constructed using spatial cues obtained from dual-channel input signal, and a speech activity interval is detected through this probability model. In particular, spatial cues are composed of interaural time differences and interaural level differences of dual-channel speech signals, and the probability model for speech presence/absence is based on a Gaussian kernel density. In order to evaluate the performance of the proposed VAD method, speech recognition is performed for speech segments that only include speech intervals detected by the proposed VAD method. The performance of the proposed method is compared with those of several methods such as an SNR-based method, a direction of arrival (DOA) based method, and a phase vector based method. It is shown from the speech recognition experiments that the proposed method outperforms conventional methods by providing relative word error rates reductions of 11.68%, 41.92%, and 10.15% compared with SNR-based, DOA-based, and phase vector based method, respectively.

  • PDF

A Weighted Feature Voting Approach for Robust and Real-Time Voice Activity Detection

  • Moattar, Mohammad Hossein;Homayounpour, Mohammad Mehdi
    • ETRI Journal
    • /
    • 제33권1호
    • /
    • pp.99-109
    • /
    • 2011
  • This paper concerns a robust real-time voice activity detection (VAD) approach which is easy to understand and implement. The proposed approach employs several short-term speech/nonspeech discriminating features in a voting paradigm to achieve a reliable performance in different environments. This paper mainly focuses on the performance improvement of a recently proposed approach which uses spectral peak valley difference (SPVD) as a feature for silence detection. The main issue of this paper is to apply a set of features with SPVD to improve the VAD robustness. The proposed approach uses a weighted voting scheme in order to take the discriminative power of the employed feature set into account. The experiments show that the proposed approach is more robust than the baseline approach from different points of view, including channel distortion and threshold selection. The proposed approach is also compared with some other VAD techniques for better confirmation of its achievements. Using the proposed weighted voting approach, the average VAD performance is increased to 89.29% for 5 different noise types and 8 SNR levels. The resulting performance is 13.79% higher than the approach based only on SPVD and even 2.25% higher than the not-weighted voting scheme.

조건 사후 최대 확률과 음성 스펙트럼 변이 조건을 이용한 통계적 모델 기반의 음성 검출기 (A Statistical Model-Based Voice Activity Detection Employing the Conditional MAP Criterion with Spectral Deviation)

  • 김상균;장준혁
    • 한국음향학회지
    • /
    • 제30권6호
    • /
    • pp.324-329
    • /
    • 2011
  • 본 논문에서는 조건 사후 최대 확률 (conditional maximum a posteriori, CMAP)과 음성 스펙트럼 변이 조건을 기반으로 한 새로운 음성 검출기 (voice activity detection, VAD)를 제안한다. 제안된 음성 검출기는 통계적 모델을 기반으로 한 우도비 테스트 (likelihood ratio test, LRT)의 문턱값을 결정하는데 조건 사후 최대 확률과 스펙트럼 변이의 상태 값을 조건부 확률로 부과한다. 제안된 알고리즘을 다양한 잡음 환경에서 기존의 CMAP 기반의 음성 검출기와 비교한 결과 전체적으로 향상된 성능을 보였으며 특히 SNR이 낮은 조건에서 향상 폭이 컸다.

Radial Basis Function Networks를 이용한 이중 임계값 방식의 음성구간 검출기 (Voice Activity Detection Algorithm base on Radial Basis Function Networks with Dual Threshold)

  • 김홍익;박승권
    • 한국통신학회논문지
    • /
    • 제29권12C호
    • /
    • pp.1660-1668
    • /
    • 2004
  • 본 논문에서는 간단한 구조, 적은 계산량과 안정된 빠른 수렴속도를 가진 RBF (Radial Basis Function) 신경회로망을 이용한 이중 임계값 방식의 음성구간 검출기 알고리즘을 제안하고 시뮬레이션을 통해 유용성을 확인하였다. 음성압축기에 사용되는 CELP (Code-Excited Linear Prediction) 파라미터들을 신경회로망 입력으로 하여 잡음에 강하게 반응하게 하였고, 음성구간 검출기의 성능향상을 위해 음성구간과 침묵구간에서 다른 임계값을 사용하는 이중 임계값 방식을 적용하였다. 실험 결과 이중 임계값을 이용한 RBF 신경망 음성구간 검출기는 G.729 Annex B 음성구간 검출기 보다 우수한 성능을 보였고, 기존의 MLP (Multi Layer Perceptron) 신경회로망을 이용한 음성구간 검출기와 비교하여 음성구간에서는 비슷한 성능을 보였으나 침묵구간에서 25% 정도의 성능향상을 보였다.