• Title/Summary/Keyword: 음성검출

Search Result 725, Processing Time 0.032 seconds

Time-Frequency Domain Impulsive Noise Detection System in Speech Signal (음성 신호에서의 시간-주파수 축 충격 잡음 검출 시스템)

  • Choi, Min-Seok;Shin, Ho-Seon;Hwang, Young-Soo;Kang, Hong-Goo
    • The Journal of the Acoustical Society of Korea
    • /
    • v.30 no.2
    • /
    • pp.73-79
    • /
    • 2011
  • This paper presents a new impulsive noise detection algorithm in speech signal. The proposed method employs the frequency domain characteristic of the impulsive noise to improve the detection accuracy while avoiding the false-alarm problem by the pitch of the speech signal. Furthermore, we proposed time-frequency domain impulsive noise detector that utilizes both the time and frequency domain parameters which minimizes the false-alarm problem by mutually complementing each other. As the result, the proposed time-frequency domain detector shows the best performance with 99.33 % of detection accuracy and 1.49 % of false-alarm rate.

The Pitch detection of 3 Level Clipping Algorithm using by Pre-Post Processing (전.후 처리를 이용한 3 레벨 클리핑 알고리즘의 피치검출)

  • 최승영
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.167-170
    • /
    • 1998
  • 음성신호의 특징적인 성분인 피치를 검출하는 알고리즘 중 실시산 구현이 손쉬운 3단계를 클리핑 알고리즘을 PC상에서의 처리를 위하여 구현하였다. 이 알고리즘을 통하여 검출되는 피치의 안정성 및 정확성을 높이기 위해서 적용된 창함수, LPF, 클리핑 자기상관값계산, 비선형 감쇄, 등의 전처리 필터링과, 배수피치 검출 및 정정, 메디언 필터링을 사용하여 피치를 검출하였다. 또한 이 알고리즘을 이용하여 DSP의 도움을 얻지 않고 PC상에서 음성을 분석하여 스펙트로그램, 파형, 에너지, 피치 등을 출력하는 프로그램인 Visual Analysis Tool for sounds(VAT)의 출력화면을 통하여 피치검출을 나타내었다.

  • PDF

A Study on Pitch Period Detection of Speech Signal Using Modified AMDF (변형된 AMDF를 이용한 음성 신호의 피치 주기 검출에 관한 연구)

  • Seo, Hyun-Soo;Bae, Sang-Bum;Kim, Nam-Ho
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • v.9 no.1
    • /
    • pp.515-519
    • /
    • 2005
  • Pitch period that is a important factor in speech signal processing is used in various applications such as speech recognition, speaker identification, speech analysis and synthesis. So many pitch detection algoritms have been studied until now. AMDF which is one of pitch period detection algorithms chooses the time interval from valley point to valley point as pitch period. In selection of valley point to detect pitch period, complexity of the algoritm is increased. So in this paper we proposed the simple algorithm using modified AMDF that detects global minimum valley point as pitch period of speech signal and compared existing methods with it through simulation.

  • PDF

연속 숫자음의 음절 수 검출

  • 김득수
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 1998.10a
    • /
    • pp.785-790
    • /
    • 1998
  • 본 논문은 한국어 숫자를 연속적으로 발음한 음성의 음절 개수 검출에 관한 내용이며 음절의 최소구간 및 스펙트럼 에너지에 대한 확률밀도함수를 이용하여 연속 음성에서 음절갯수검출 알고리듬을 제안, 실험을 통하여 그 유효성을 확인하고자한다. 이를 위하여 음성자료로서는 국어 공학센터(KLE)에서 채록한 4연속 숫자음을 사용하며 음향학적 특징을 분석하기 위하여 확률밀도함수 및 음절의 최소구간 및 단위시간의 확률밀도 함수의 값을 이용하였다. 그 결과 KLE 데이터에서 스펙트럼에너지만 이용한 경우 고립음절을 3.7%이며 본 논문의 알고리듬을 적용한 경우 4음절은 약 60%의 결과가 되며 제안한 방법의 유효성을 확인하였다.

A Study on the Extraction of Specific Audio Feature In Basketball Video (농구 비디오에서 특정 음성 특징 추출에 관한 연구)

  • 공현장;김원필;김판구
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.05d
    • /
    • pp.1075-1080
    • /
    • 2002
  • 최근 멀티미디어 정보 시스템에서의 음성 핀 시각적 내용의 분류에 관한 연구가 활발히 진행되고 있다. 이에 본 논문에서는 농구 경기의 비디오 데이터로부터 특정 음성 정보를 추출하는 방법과 이를 농구 게임의 중요 이벤트 검출에 이용하는 방법을 제안한다. MFCC 특징들과 LPC 엔트로피의 조합을 이용하여 검출된 관중들의 환호 소리로부터 중요한 이벤트의 위치를 예측할 수 있다. 농구 경기의 다양한 소리들 중에서 관중들의 환호 소리를 분류하여 이를 농구 비디오 데이터에서 중요한 이벤트들을 검출하는데 사용함으로써 매우 효과적 결과를 얻을 수 있었다.

  • PDF

On a pitch detection with spectrum compensation technique of speech signal (스펙트럼 보상에 의한 피치 검출에 관한 연구)

  • Ahn, Jung-Hyun;Bae, Myung-Jin
    • Proceedings of the IEEK Conference
    • /
    • 2006.06a
    • /
    • pp.401-402
    • /
    • 2006
  • 음성인식, 합성 및 분석과 같은 음성신호처리 분야에 있어서 기본주파수 즉, 피치를 정확히 검출하는 것은 중요하다. 그러나 포만트의 영향과 천이진폭의 영향 때문에 음성신호에서 피치를 정확히 구하는 것은 매우 어렵다. 더구나 노이즈가 포함된 신호에서는 더 더욱 어려워진다. 따라서 본 논문에서는 켑스트럼영역에서 포만트의 영향 을 제거하고 밴드 필터링 한 후 기본 피치 정보를 강조 보상하여 피치주기를 검출하는 방법을 새로이 제안한다.

  • PDF

Voice Activity Detection in Noisy Environment based on Statistical Nonlinear Dimension Reduction Techniques (통계적 비선형 차원축소기법에 기반한 잡음 환경에서의 음성구간검출)

  • Han Hag-Yong;Lee Kwang-Seok;Go Si-Yong;Hur Kang-In
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.9 no.5
    • /
    • pp.986-994
    • /
    • 2005
  • This Paper proposes the likelihood-based nonlinear dimension reduction method of the speech feature parameters in order to construct the voice activity detecter adaptable in noisy environment. The proposed method uses the nonlinear values of the Gaussian probability density function with the new parameters for the speec/nonspeech class. We adapted Likelihood Ratio Test to find speech part and compared its performance with that of Linear Discriminant Analysis technique. In experiments we found that the proposed method has the similar results to that of Gaussian Mixture Models.

DNN based Speech Detection for the Media Audio (미디어 오디오에서의 DNN 기반 음성 검출)

  • Jang, Inseon;Ahn, ChungHyun;Seo, Jeongil;Jang, Younseon
    • Journal of Broadcast Engineering
    • /
    • v.22 no.5
    • /
    • pp.632-642
    • /
    • 2017
  • In this paper, we propose a DNN based speech detection system using acoustic characteristics and context information of media audio. The speech detection for discriminating between speech and non-speech included in the media audio is a necessary preprocessing technique for effective speech processing. However, since the media audio signal includes various types of sound sources, it has been difficult to achieve high performance with the conventional signal processing techniques. The proposed method improves the speech detection performance by separating the harmonic and percussive components of the media audio and constructing the DNN input vector reflecting the acoustic characteristics and context information of the media audio. In order to verify the performance of the proposed system, a data set for speech detection was made using more than 20 hours of drama, and an 8-hour Hollywood movie data set, which was publicly available, was further acquired and used for experiments. In the experiment, it is shown that the proposed system provides better performance than the conventional method through the cross validation for two data sets.

Design and Implementation of a Bimodal User Recognition System using Face and Audio (얼굴과 음성 정보를 이용한 바이모달 사용자 인식 시스템 설계 및 구현)

  • Kim Myung-Hun;Lee Chi-Geun;So In-Mi;Jung Sung-Tae
    • Journal of the Korea Society of Computer and Information
    • /
    • v.10 no.5 s.37
    • /
    • pp.353-362
    • /
    • 2005
  • Recently, study of Bimodal recognition has become very active. In this paper we propose a Bimodal user recognition system that uses face information and audio information. Face recognition consists of face detection step and face recognition step. Face detection uses AdaBoost to find face candidate area. After finding face candidates, PCA feature extraction is applied to decrease the dimension of feature vector. And then, SVM classifiers are used to detect and recognize face. Audio recognition uses MFCC for audio feature extraction and HMM is used for audio recognition. Experimental results show that the Bimodal recognition can improve the user recognition rate much more than audio only recognition, especially in the Presence of noise.

  • PDF

An Endpoint Detection Algorithm for Noise Speech using Band Energy (대역에너지를 이용한 잡음음성의 끝점검출 알고리즘)

  • Park Ki-Sang;Suk Su-Young;Jung Ho-Youl;Chung Hyun-Yeol
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.91-94
    • /
    • 2002
  • 음성인식 시스템의 실용화를 위해서 우선적으로 해결되어야 될 문제중 하나로 잡음환경하에서의 끝점검출을 들 수 있다. 잡음이 존재하지 않는 환경에서는 기존의 에너지 파라미터만으로도 어느정도 신뢰성있는 끝점 구간을 검출할 수 있으나 도심 소음과 같은 실제 잡음환경하에서는 대부분 좋지 않은 결과를 보인다. 본 논문에서는 도심환경의 배경잡음을 제거하는 방법으로 입력되는 음성에 대하여 주변소음에 의해 손상된 음성스펙트럼의 크기 성분만을 제거하는 전처리 기법인 Bark scale에 기반한 스펙트럼 차감법을 사용하고, 인간의 청각특성을 고려하여 음성의 주파수 대역을 3개의 대역으로 분리한 후, 대역별로 세밀한 에너지 문턱치값을 설정하여 음성의 끝점을 탐색하는 방법을 제안한다. 제안한 방법의 유효성을 확인하기 위해 실제 사무실 및 지하철역 등의 잡음환경하에서 녹음된 데이터베이스를 이용하여 끝점검출을 수행한 결과 기존의 에너지와 영교차율을 이용한 방법에 비해 평균 $46\%$의 오차율 감소와 대역에너지만을 사용한 경우에 비해 평균 $17\%$의 오차율 감소를 나타내어 제안한 방법의 유효성을 확인할 수 있었다.

  • PDF