• 제목/요약/키워드: Speech signals

검색결과 497건 처리시간 0.021초

멀티미디어 환경을 위한 정서음성의 모델링 및 합성에 관한 연구 (Modelling and Synthesis of Emotional Speech on Multimedia Environment)

  • 조철우;김대현
    • 음성과학
    • /
    • 제5권1호
    • /
    • pp.35-47
    • /
    • 1999
  • This paper describes procedures to model and synthesize emotional speech in a multimedia environment. At first, procedures to model the visual representation of emotional speech are proposed. To display the sequences of the images in synchronized form with speech, MSF(Multimedia Speech File) format is proposed and the display software is implemented. Then the emotional speech sinal is collected and analysed to obtain the prosodic characteristics of the emotional speech in limited domain. Multi-emotional sentences are spoken by actors. From the emotional speech signals, prosodic structures are compared in terms of the pseudo-syntactic structure. Based on the analyzed result, neutral speech is transformed into a specific emotinal state by modifying the prosodic structures.

  • PDF

잡음 환경에서의 음성인식을 위한 온라인 빔포밍과 스펙트럼 감산의 결합 (Combining deep learning-based online beamforming with spectral subtraction for speech recognition in noisy environments)

  • 윤성욱;권오욱
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.439-451
    • /
    • 2021
  • 본 논문에서는 실제 환경에서의 연속 음성 강화를 위한 딥러닝 기반 온라인 빔포밍 알고리듬과 스펙트럼 감산을 결합한 빔포머를 제안한다. 기존 빔포밍 시스템은 컴퓨터에서 음성과 잡음을 완전히 겹친 방식으로 혼합하여 생성된 사전 분할 오디오 신호를 사용하여 대부분 평가되었다. 하지만 실제 환경에서는 시간 축으로 음성 발화가 띄엄띄엄 발성되기 때문에, 음성이 없는 잡음 신호가 시스템에 입력되면 기존 빔포밍 알고리듬의 성능이 저하된다. 이러한 효과를 경감하기 위하여, 심층 학습 기반 온라인 빔포밍 알고리듬과 스펙트럼 감산을 결합하였다. 잡음 환경에서 온라인 빔포밍 알고리듬을 평가하기 위해 연속 음성 강화 세트를 구성하였다. 평가 세트는 CHiME3 평가 세트에서 추출한 음성 발화와 CHiME3 배경 잡음 및 MUSDB에서 추출한 연속 재생되는 배경음악을 혼합하여 구성되었다. 음성인식기로는 Kaldi 기반 툴킷 및 구글 웹 음성인식기를 사용하였다. 제안한 온라인 빔포밍 알고리듬 과 스펙트럼 감산이 베이스라인 빔포밍 알고리듬에 비해 성능 향상을 보임을 확인하였다.

Simulink를 이용한 음원모델 시뮬레이터 구현 (Implementation of Voice Source Simulator Using Simulink)

  • 조철우;김재희
    • 말소리와 음성과학
    • /
    • 제3권2호
    • /
    • pp.89-96
    • /
    • 2011
  • In this paper, details of the design and implementation of a voice source simulator using Simulink and Matlab are discussed. This simulator is an implementation by model-based design concept. Voice sources can be analyzed and manipulated through various factors by choosing options from GUI input and selecting pre-defined blocks or user created ones. This kind of simulation tool can simplify the procedure of analyzing speech signals for various purposes such as voice quality analysis, pathological voice analysis, and speech coding. Also, basic analysis functions are supported to compare the original signal and the manipulated ones.

  • PDF

음성신호의 실시간 처리기법에 관한 연구 (A Study on the Real Time Processing Technique of speech Signal)

  • 이택수;안창;김성락;이상범
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1987년도 전기.전자공학 학술대회 논문집(II)
    • /
    • pp.1094-1096
    • /
    • 1987
  • Zero-crossing analysis techniques have been applied to speech recognition. Zero-crossing rate, level-crossing rate and differentiated zero-crossing rate in time domain we used in analyzing speech signals. Speech samples could be stored in memory buffer in real time.

  • PDF

Analysis of Speech Signals Depending on the Microphone and Micorphone Distance

  • Son, Jong-Mok
    • The Journal of the Acoustical Society of Korea
    • /
    • 제17권4E호
    • /
    • pp.41-47
    • /
    • 1998
  • Microphone is the first link in the speech recognition system. Depending on its type and mounting position, the microphone can significantly distort the spectrum and affect the performance of the speech recognition system. In this paper, characteristics of the speech signal for different microphones and microphone distances are investigated both in time and frequency domains. In the time domain analysis, the average signal-to-noise ration is measure ration is measured for the database we collected depending on the microphones and microphone distances. Mel-frequency spectral coefficients and mel-frequency cepstrum are computed to examine the spectral characteristics. Analysis results are discussed with our findings, and the result of recognition experiments is given.

  • PDF

Information Dimensions of Speech Phonemes

  • Lee, Chang-Young
    • 음성과학
    • /
    • 제3권
    • /
    • pp.148-155
    • /
    • 1998
  • As an application of dimensional analysis in the theory of chaos and fractals, we studied and estimated the information dimension for various phonemes. By constructing phase-space vectors from the time-series speech signals, we calculated the natural measure and the Shannon's information from the trajectories. The information dimension was finally obtained as the slope of the plot of the information versus space division order. The information dimension showed that it is so sensitive to the waveform and time delay. By averaging over frames for various phonemes, we found the information dimension ranges from 1.2 to 1.4.

  • PDF

Diagnosis of Pathological Speech Signals Using Wavelet Transform

  • Jo, Cheol-Woo;Kim, Dae-Hyun
    • 음성과학
    • /
    • 제4권2호
    • /
    • pp.17-24
    • /
    • 1998
  • In this paper a method to diagnose pathological voices using wavelet transform is sug gested. Pathological voices are collected from hospital and analyzed by the suggested method. Normal voices are collected separately and analyzed. Then the results are compared to find the differences in their characteristics. Three level wavelet transform is used. Normalized energy ratios between the levels and normalized peak-to-peak values are used as parameters. As a result, it was possible to distinguish between normal and pathological voices.

  • PDF

차량환경에서 음성명령어기 사용을 위한 음성개선방법 (Speech Enhancement for Voice commander in Car environment)

  • 백승권;한민수;남승현;이봉호;함영권
    • 방송공학회논문지
    • /
    • 제9권1호
    • /
    • pp.9-16
    • /
    • 2004
  • 본 논문에서는 차량용 음성명령어기의 사용을 위한 전처리 과정으로 음성개선 방법을 다룬다 특히 보다 주위 소음에 자유롭고 단말 조작에 있어 안정성을 보장하기 위하여 일반적 단일 마이크로폰으로 처리되는 잡음뿐만 아니라 음성명령어를 제외한 오디오 신호 등 비정적 통계적 특성을 갖는 소음들도 제거 될 수 있도록 음성개선 방법을 제안한다. 우리는 2개의 마이크로폰을 가지고 BSS 알고리즘을 적용하여 비정적 신호들을 분리하고, 분리된 신호에 대하여 Kalman 필터를 이용하여 시간상 단구간 정적 잡음을 제거한다. 인식 실험 결과를 통하여 공간적, 시간적 음성개선 방법이 순차적으로 적용될 때, 실제 차량 환경에서 음성 개선 알고리즘으로 적용될 수 있음을 보였다.

음성신호의 단일입력 적응잡음제거 (A Single Channel Adaptive Noise Cancellation for Speech Signals)

  • 강해동;배건성
    • 한국음향학회지
    • /
    • 제13권3호
    • /
    • pp.16-24
    • /
    • 1994
  • 음성신호에 내재한 배경잡음을 제거하는 단일입력 적응잡음제거 시스템을 구성하였다. 기존 방법에서는 프레임 단위로 분석된 음성신호의 피치 정보를 이용하여 적응여파기의 기준신호를 얻는데 비해 제안된 방법에서는 매 샘플마다 지연 정보를 추정하여 기준신호를 만든다. 입력되는 음성신호로부터 매 샘플시간마다 지연 정보를 구하기 위하여 일반적인 자기상관 함수와 평균절대차 함수로부터 재귀적 자기상관함수와 재귀적 평균절대차함수를 유도하였다. 정규화된 최소평균자승(NLMS) 적응알고리듬을 사용하는 단일입력 잡음제거 시스템에 제안된 지연추정 방법을 적용하여 백색 가우시안 잡음에 왜곡된 음성에 대해 음성개선 실험을 하였으며, 기존 방법과의 성능비교 실험을 하였다. 제안된 방법에 의한 음성개선이 기존 방법보다 음질 및 SNR면에서 더 좋은 결과를 보였다.

  • PDF

Single-Channel Non-Causal Speech Enhancement to Suppress Reverberation and Background Noise

  • Song, Myung-Suk;Kang, Hong-Goo
    • 한국음향학회지
    • /
    • 제31권8호
    • /
    • pp.487-506
    • /
    • 2012
  • This paper proposes a speech enhancement algorithm to improve the speech intelligibility by suppressing both reverberation and background noise. The algorithm adopts a non-causal single-channel minimum variance distortionless response (MVDR) filter to exploit an additional information that is included in the noisy-reverberant signals in subsequent frames. The noisy-reverberant signals are decomposed into the parts of the desired signal and the interference that is not correlated to the desired signal. Then, the filter equation is derived based on the MVDR criterion to minimize the residual interference without bringing speech distortion. The estimation of the correlation parameter, which plays an important role to determine the overall performance of the system, is mathematically derived based on the general statistical reverberation model. Furthermore, the practical implementation methods to estimate sub-parameters required to estimate the correlation parameter are developed. The efficiency of the proposed enhancement algorithm is verified by performance evaluation. From the results, the proposed algorithm achieves significant performance improvement in all studied conditions and shows the superiority especially for the severely noisy and strongly reverberant environment.