• 제목/요약/키워드: speech preprocessing

검색결과 65건 처리시간 0.022초

음성압축을 위한 전처리기법의 비교 분석에 관한 연구 (A Study on a Analysis and Comparison of Preprocessing Technique for the Speech Compression)

  • 장경아;민소연;배명진
    • 음성과학
    • /
    • 제10권4호
    • /
    • pp.125-136
    • /
    • 2003
  • Speech coding techniques have been studied to reduce the complexity and bit rate but also to improve the sound quality. CELP type vocoder, has used as a one of standard, supports the great sound quality even low bit rate. In this paper, the preprocessing of input speech to reduce the bit rate is the different with the conventional vocoder. The different kinds of parameter are used for the preprocessing so this paper is compared with theses parameters for finding the more appropriate parameter for the vocoder. The parameters are used to synthesize the speech not to encode or decode for coding technique so we proposed the simple algorithm not to have the influence on the processing time or the computation time. The parameters in used the preprocessing step are speaking rate, duration and PSOLA technique.

  • PDF

음성 데이터 전처리 기법에 따른 뉴로모픽 아키텍처 기반 음성 인식 모델의 성능 분석 (Performance Analysis of Speech Recognition Model based on Neuromorphic Architecture of Speech Data Preprocessing Technique)

  • 조진성;김봉재
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권3호
    • /
    • pp.69-74
    • /
    • 2022
  • 뉴로모픽 아키텍처에서 동작하는 SNN (Spiking Neural Network) 은 인간의 신경망을 모방하여 만들어졌다. 뉴로모픽 아키텍처 기반의 뉴로모픽 컴퓨팅은 GPU를 이용한 딥러닝 기법보다 상대적으로 낮은 전력을 요구한다. 이와 같은 이유로 뉴로모픽 아키텍처를 이용하여 다양한 인공지능 모델을 지원하고자 하는 연구가 활발히 일어나고 있다. 본 논문에서는 음성 데이터 전처리 기법에 따른 뉴로모픽 아키텍처 기반의 음성 인식 모델의 성능 분석을 진행하였다. 실험 결과 푸리에 변환 기반 음성 데이터 전처리시 최대 84% 정도의 인식 정확도 성능을 보임을 확인하였다. 따라서 뉴로모픽 아키텍처 기반의 음성 인식 서비스가 효과적으로 활용될 수 있음을 확인하였다.

An Improved Voice Activity Detection Algorithm Employing Speech Enhancement Preprocessing

  • Lee, Yoon-Chang;Ahn, Sang-Sik
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 ITC-CSCC -2
    • /
    • pp.865-868
    • /
    • 2000
  • In this paper we derive a new VAD algorithm, which combines the preprocessing algorithm and the optimum decision rule. To improve the performance of the VAD algorithm we employ the speech enhancement algorithm and then apply the maximal ratio combining technique in the preprocessing procedure, which leads to maximized output SNR. Moreover, we also perform extensive computer simulations to demonstrate the performance improvement of the proposed algorithm under various background noise environments.

  • PDF

음성 향상 전처리와 문턱값 갱신을 적용한 향상된 음성검출 방법 (An Improved VAD Algorithm Employing Speech Enhancement Preprocessing and Threshold Updating)

  • 이윤창;안상식
    • 한국통신학회논문지
    • /
    • 제28권11C호
    • /
    • pp.1161-1168
    • /
    • 2003
  • 본 논문에서는 음성검출의 성능을 향상시킬 목적으로 정합 필터를 이용한 음성향상 전처리 과정을 통하여 SNR을 개선한 후, 이를 LLR(Log Likelihood Ratio) 검사에 의한 최적 결정방법을 적용하여 확률적인 모델을 기준으로 하는 향상된 음성검출 방법을 제안한다. 또한 기존의 음성검출 방법들에서는 제시되지 않았던 문턱값 갱신 알고리즘을 제안하며, 이 방법을 통해서 기존의 방법들에서 성능이 좋지 않았던 낮은 SNR 환경에서도 음성검출을 할 수 있게 되었다. 마지막으로 컴퓨터 시뮬레이션을 통하여 이미 상용화되어 널리 이용중인 G.729B(ITU-TG.729 Annex B)의 음성검출 결과와 비교를 통해서 제안한 음성검출 방법의 성능의 우수성을 검증하며, 실제적인 환경에도 적용이 가능함을 보인다.

윈도우의 영향이 제거된 에너지 파라미터에 관한 연구 (A Study of Energy Parameter without Windowing Influence in Speech Signal)

  • 조태수;신동성;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(4)
    • /
    • pp.277-280
    • /
    • 2001
  • The preprocessing is very important course in speech signal processing. It influence the compression-rate in speech coding and the recognition-rate in speech recognition etc. In this paper, we propose that minimizing window-influence method with pitch period and start points. The proposed method is available for voiced detection and word labeling.

  • PDF

음성통신망에서 디지털 오디오 신호 음질개선을 위한 전처리방법 (Preprocessing method for enhancing digital audio quality in speech communication system)

  • 송근배;안철용;김재범;박호종;김석호
    • 방송공학회논문지
    • /
    • 제11권2호
    • /
    • pp.200-206
    • /
    • 2006
  • 본 논문은 음성 부호화기에서 입력 오디오 신호가 보다 효과적으로 처리되도록 하기 위해 입력오디오신호를 전 처리하는 방법을 소개한다. 이를 위해 본 논문은 잡음억제 및 적응이득제어 방법을 도입한다. 여기서 입력 오디오 신호는 잡음 부가된 신호로 간주되며 그 오디오 신호의 부호화오차신호는 부가된 잡음신호로 간주된다. 입력 오디오 신호는 기존의 잡음억제방식에 따라 잡음신호 즉, 부호화 오차신호가 억제된 뒤 적응이득제어기를 거쳐 최종적으로 음성 부호화기에 인가된다. 결과적으로 이러한 동작을 통하여 입력 오디오 신호의 주파수 스펙트럼 분포가 음성 부호화기 특성에 맞게 재배치된다 이 방법의 하나의 단점은 부호화 오차를 계산하기 위해 사전에 추가적인 부호화 동작이 필요하다는 것이다. 반면, 이 방법은 일반적인 구조를 가지고 있으며 따라서 기존의 여러 음성부호화기에 쉽게 적용될 수 있다는 장점을 가진다. 주관적인 선호도 조사결과 제안된 방법이 복잡한 음악신호로 기인한 성가신 잡음을 사전에 억제해 주며 결과적으로 음질개선을 가져다준다는 것을 확인할 수 있었다.

MMSE-STSA 기반의 음성개선 기법에서 잡음 및 신호 전력 추정에 사용되는 파라미터 값의 변화에 따른 잡음음성의 인식성능 분석 (Performance Analysis of Noisy Speech Recognition Depending on Parameters for Noise and Signal Power Estimation in MMSE-STSA Based Speech Enhancement)

  • 박철호;배건성
    • 대한음성학회지:말소리
    • /
    • 제57호
    • /
    • pp.153-164
    • /
    • 2006
  • The MMSE-STSA based speech enhancement algorithm is widely used as a preprocessing for noise robust speech recognition. It weighs the gain of each spectral bin of the noisy speech using the estimate of noise and signal power spectrum. In this paper, we investigate the influence of parameters used to estimate the speech signal and noise power in MMSE-STSA upon the recognition performance of noisy speech. For experiments, we use the Aurora2 DB which contains noisy speech with subway, babble, car, and exhibition noises. The HTK-based continuous HMM system is constructed for recognition experiments. Experimental results are presented and discussed with our findings.

  • PDF

전화선 채널이 화자확인 시스템의 성능에 미치는 영향 (The Effect of the Telephone Channel to the Performance of the Speaker Verification System)

  • 조태현;김유진;이재영;정재호
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.12-20
    • /
    • 1999
  • 본 논문에서는 깨끗한 환경에서 녹음된 음성데이터와 채널환경에서 수집된 음성데이터의 화자확인 성능을 비교하였다. 채널데이터의 화자확인 성능을 향상시키기 위하여 채널환경에 강인한 특징 파라메타 및 전처리에 대해 연구하였다. 실험을 위한 음성 DB는 어구지시(text-prompted) 시스템을 고려하여 두 자리의 한국어 숫자음으로 구성하였다. 적용한 음성 특징은 LPCC(Linear Predictive Cepstral Coefficient), MFCC(Mel Frequency Cepstral Coefficient), PLP(Perceptually Linear Prediction), LSP(Line Spectrum Pair)이며, 채널 잡음을 제거하기 위한 전처리 과정으로는 음성신호에 대한 필터링을 적용하였다. 추출된 특징으로부터 채널의 영향을 제거 또는 보상하기 위해 cepstral weighting, CMS(Cepstral Mean Subtraction), RASTA(RelAtive SpecTrAl)를 적용하였다. 또한 각각의 특징 및 처리 방법에 대한 음성인식 성능을 제시함으로써 화자확인에서의 성능과 음성인식에서의 성능을 비교하였다. 적용한 음성 특징 및 처리 방법들에 대한 성능 평가를 위해 HTK(HMM Tool Kit) 2.0을 이용하였다. 남자, 여자 화자별로 임계값을 다르게 주는 방법으로 깨끗한 음성데이터와 채널 데이터에 대한 EER(Equal Error Rate)을 구하여 비교하였다. 실험결과 전처리 과정에서 대역통과 필터(150~3800Hz)를 적용하여 저대역 및 고대역의 채널 잡음을 제거하고, 이 신호로부터 MFCC를 추출하였을 때 EER 측면에서의 화자확인 성능이 가장 좋게 나타났다.

  • PDF

음성신호기반의 감정인식의 특징 벡터 비교 (A Comparison of Effective Feature Vectors for Speech Emotion Recognition)

  • 신보라;이석필
    • 전기학회논문지
    • /
    • 제67권10호
    • /
    • pp.1364-1369
    • /
    • 2018
  • Speech emotion recognition, which aims to classify speaker's emotional states through speech signals, is one of the essential tasks for making Human-machine interaction (HMI) more natural and realistic. Voice expressions are one of the main information channels in interpersonal communication. However, existing speech emotion recognition technology has not achieved satisfactory performances, probably because of the lack of effective emotion-related features. This paper provides a survey on various features used for speech emotional recognition and discusses which features or which combinations of the features are valuable and meaningful for the emotional recognition classification. The main aim of this paper is to discuss and compare various approaches used for feature extraction and to propose a basis for extracting useful features in order to improve SER performance.

ON A REDUCTION OF PITCH SEARCHING TIME BY PREPROCESSING IN THE CELP VOCODER

  • Kim, Daesik;Bae, Myungjin;Kim, Jongjae;Byun, Kyungjin;Han, Kichun;Yoo, Hahyoung
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 FIFTH WESTERN PACIFIC REGIONAL ACOUSTICS CONFERENCE SEOUL KOREA
    • /
    • pp.904-911
    • /
    • 1994
  • Code Excited Linear Prediction (CELP) speech coders exhibit good performance at data rates below 4.8 kbps. The major drawback to CELP type coders is their many computation. In this paper, we propose a new pitch search method that preserves the quality of the CELP vocoder with reducing complexity. The basic idea is to apply the preprocessing technique beforehand grasping the autocorrelation property of speech waveform. By using the proposed method, we can get approximately 77% complexity reduction in the pitch search.

  • PDF