• Title/Summary/Keyword: 음성검출

Search Result 725, Processing Time 0.023 seconds

Voice Activity Detection Using Global Speech Absence Probability Based on Teager Energy in Noisy Environments (잡음환경에서 Teager Energy 기반의 전역 음성부재확률을 이용하는 음성검출)

  • Park, Yun-Sik;Lee, Sang-Min
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.49 no.1
    • /
    • pp.97-103
    • /
    • 2012
  • In this paper, we propose a novel voice activity detection (VAD) algorithm to effectively distinguish speech from nonspeech in various noisy environments. Global speech absence probability (GSAP) derived from likelihood ratio (LR) based on the statistical model is widely used as the feature parameter for VAD. However, the feature parameter based on conventional GSAP is not sufficient to distinguish speech from noise at low SNRs (signal-to-noise ratios). The presented VAD algorithm utilizes GSAP based on Teager energy (TE) as the feature parameter to provide the improved performance of decision for speech segments in noisy environment. Performances of the proposed VAD algorithm are evaluated by objective test under various environments and better results compared with the conventional methods are obtained.

Endpoint Detection of Speech Signal Using Wavelet Transform (웨이브렛 변환을 이용한 음성신호의 끝점검출)

  • 석종원;배건성
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.6
    • /
    • pp.57-64
    • /
    • 1999
  • In this paper, we investigated the robust endpoint detection algorithm in noisy environment. A new feature parameter based on a discrete wavelet transform is proposed for word boundary detection of isolated utterances. The sum of standard deviation of wavelet coefficients in the third coarse and weighted first detailed scale is defined as a new feature parameter for endpoint detection. We then developed a new and robust endpoint detection algorithm using the feature found in the wavelet domain. For the performance evaluation, we evaluated the detection accuracy and the average recognition error rate due to endpoint detection in an HMM-based recognition system across several signal-to-noise ratios and noise conditions.

  • PDF

Visual Voice Activity Detection and Adaptive Threshold Estimation for Speech Recognition (음성인식기 성능 향상을 위한 영상기반 음성구간 검출 및 적응적 문턱값 추정)

  • Song, Taeyup;Lee, Kyungsun;Kim, Sung Soo;Lee, Jae-Won;Ko, Hanseok
    • The Journal of the Acoustical Society of Korea
    • /
    • v.34 no.4
    • /
    • pp.321-327
    • /
    • 2015
  • In this paper, we propose an algorithm for achieving robust Visual Voice Activity Detection (VVAD) for enhanced speech recognition. In conventional VVAD algorithms, the motion of lip region is found by applying an optical flow or Chaos inspired measures for detecting visual speech frames. The optical flow-based VVAD is difficult to be adopted to driving scenarios due to its computational complexity. While invariant to illumination changes, Chaos theory based VVAD method is sensitive to motion translations caused by driver's head movements. The proposed Local Variance Histogram (LVH) is robust to the pixel intensity changes from both illumination change and translation change. Hence, for improved performance in environmental changes, we adopt the novel threshold estimation using total variance change. In the experimental results, the proposed VVAD algorithm achieves robustness in various driving situations.

Implementation of A REal-time Endpoint Detection Algorithm Using TMS320C30 (TMS320C30을 이용한 실시간 음성부 검출 알고리즘 구현)

  • 이항섭
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1993.06a
    • /
    • pp.229-232
    • /
    • 1993
  • 이 논문은 최근에 개발된 실시간 음성부 검출 알고리즘[1]을 TMS320C30 System board와 IBM PC486을 이용한 implementation에 관한 논문이다. 음성부 검출 알고리즘은 Energy와 LCR(Level Crossing Rate)를 이용하여 각 frame을 음성/묵음으로 분류하는 방법을 사용하였고 DSP 보드를 사용하여 한 frame이 입력되면 다음 frame이 입력되기 전에 그 frame에 대한 음성/묵음 분류를 하여 음성입력이 끝남과 동시에 음성이라고 판단되는 부분만을 DPS moemory상에 저장하므로 불필요한 memory의 낭비를 중이고 다음 단계의 음성처리를 위한 시간을 절약하였다. 이 알고리즘의 성능 평가를 위하여 Rabiner와 Sambur의 알고리즘과 한민수의 알고리즘과를 전문가가 수작업으로 찾아낸 결과와 비교 평가하였다. 알고리즘의 오차는 평균 남성 4.925ms, 여성 5.85ms로 1 frame 이내의 오차를 보였다.

  • PDF

Dimension Reduction Method of Feature Vector for Real-Time Adaptation of Voice Activity Detection (음성 구간 검출기의 실시간 적응화를 위한 특징 벡터의 차원 축소 방법)

  • Kim Pyoung-Hwan;Han Hag-Yong;Kim Chang-Keun;Koh Si-Young;Hur Kang-In
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.53-56
    • /
    • 2004
  • 본 논문은 잡음 환경하에서 특징 벡터의 차원 축소를 통한 음성 구간 검출에 관한 연구이다. 음성/비음성 분류는 통계적 모델을 이용한 분류-기반 방법을 사용한다. 검출기에서 실시간 적응화를 위해 우도-기반의 특징 벡터에 대한 차원 축소 방법을 제안한다. 이 방법은 음성/비음성 클래스에 대한 가우시안 확률 밀도 함수에 의한 비선형적 우도값을 새로운 특징으로 취하는 방법이다. 음성/비음성 결정은 우도비 검증(Likelihood Ratio Test)의 방법을 이용하며, LDA(Linear Discriminant Analys)에 의한 축소 결과와 성능을 비교한다. 실험 결과 제안된 차원 축소 방법을 통하여 2차원으로 축소된 특징 벡터가 고차원에서의 결과와 대등함을 확인하였다.

  • PDF

Speech Recognition for Vowel Detection using by Cepstrum Coefficients (켑스트럼 계수에 의한 모음검출을 위한 음성인식)

  • Choi, Jae-Seung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2011.10a
    • /
    • pp.613-615
    • /
    • 2011
  • 본 논문에서는 켑스트럼 계수를 이용하여 음성인식을 하는 알고리즘을 제안한다. 본 논문에서 제안하는 방법은 사람이 발성한 음성을 두 영역의 켑스트럼 계수로 분리한 후에, 신경회로망을 사용하여 음성인식을 하는 방법이다. 본 논문에서 제안하는 신경회로망은 오차가 거의 없어지는 일정 기간 동안 네트워크를 학습시킨 후에 신경회로망의 학습 데이터와는 다른 새로운 음성이 신경회로망에 입력된 경우에 대하여 각 음성 구간에서 분류가 가능한 모음검출을 위한 음성인식 시스템을 제안한다.

  • PDF

An Efficient Voice Activity Detection Method using Bi-Level HMM (Bi-Level HMM을 이용한 효율적인 음성구간 검출 방법)

  • Jang, Guang-Woo;Jeong, Mun-Ho
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.10 no.8
    • /
    • pp.901-906
    • /
    • 2015
  • We presented a method for Vad(Voice Activity Detection) using Bi-level HMM. Conventional methods need to do an additional post processing or set rule-based delayed frames. To cope with the problem, we applied to VAD a Bi-level HMM that has an inserted state layer into a typical HMM. And we used posterior ratio of voice states to detect voice period. Considering MFCCs(: Mel-Frequency Cepstral Coefficients) as observation vectors, we performed some experiments with voice data of different SNRs and achieved satisfactory results compared with well-known methods.

Voice Activity Detection Algorithm Based on the Power Spectral Deviation of Teager Energy in Noisy Environment (잡음환경에서 Teager 에너지의 전력 스펙트럼 편차에 기반한 음성 검출 알고리즘)

  • Park, Yun-Sik;An, Hong-Sub;Lee, Sang-Min
    • The Journal of the Acoustical Society of Korea
    • /
    • v.30 no.7
    • /
    • pp.396-401
    • /
    • 2011
  • In this paper, we propose a novel voice activity detection (VAD) algorithm to effectively distinguish speech from nonspeech in various noisy environments. The presented VAD utilizes the power spectral deviation (PSD) based on Teager energy (TE) instead of the conventional PSD scheme to improve the performance of decision for speech segments. In addition, the speech absence probability (SAP) is derived in each frequency subband to modify the PSD for further VAD. Performances of the proposed VAD algorithm are evaluated by objective test under various environments and better results compared with the conventional methods are obtained.

VAD By Neural Network Under Wireless Communication Systems (Neural Network을 이용한 무선 통신시스템에서의 VAD)

  • Lee Hosun;Kim Sukyung;Park Sung-Kwon
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.30 no.12C
    • /
    • pp.1262-1267
    • /
    • 2005
  • Elliptical basis function (EBF) neural network works stably under high-level background noise environment and makes the nonlinear processing possible. It can be adapted real time VAD with simple design. This paper introduces VAD implementation using EBF and the experimental results show that EBF VAD outperforms G729 Annex B and RBF neural networks. The best error rates achieved by the EBF networks were improved more than $70\%$ in speech and $50\%$ in silence while that achieved by G.729 Annex B and RBF networks respectively.

A Study on Detection of Accentual Phrase's Boundaries according to Reading Speeds (낭독속도에 따른 강세구 경계 검출에 관한 연구)

  • Ju Jangkyu;Lee Kiyoung;Song Minsuck
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.91-94
    • /
    • 2000
  • 최근 운율 구조와 문장구조 및 음운규칙과 관련 된 많은 언어학적 연구가 이루어져, 언어 이해 차원에서 의미 정보, 문장 구조 정보, discourse structure 등을 위한 운율 정보의 유용성이 입증되었으나, 이러한 결과가 최근의 음성인식 시스템에는 거의 적용되지 못하고 있다. 본 연구에서는 계층적인 방법을 기초로 하여 한국어의 연속음성으로부터 운율구를 검출하는 세그멘테이션법을 제안하였다. 우선, 입력된 음성으로부터 문장단위의 경계를 검출하기 위하여 휴지기를 이용하였으며 에너지, 휴지기의 지속시간 및 피치궤적을 참조하여 강세구의 경계를 검출하였다. 실험음성의 텍스트는 "만물상"이며, 남녀 각 2명의 표준어 화자가 빠른 속도와 보통 속도로 낭독한 음성데이터를 대상으로 비교하였다.

  • PDF