• 제목/요약/키워드: Log-Spectral Amplitude

검색결과 11건 처리시간 0.033초

커널 스펙트럼 모델 backfitting 기반의 로그 스펙트럼 진폭 추정을 적용한 배경음과 보컬음 분리 (Music and Voice Separation Using Log-Spectral Amplitude Estimator Based on Kernel Spectrogram Models Backfitting)

  • 이준용;김형국
    • 한국음향학회지
    • /
    • 제34권3호
    • /
    • pp.227-233
    • /
    • 2015
  • 본 논문은 커널 스펙트럼 모델 backfitting 기반의 로그 스펙트럼 진폭 추정부를 적용한 배경음과 보컬음 분리를 제안한다. 기존의 커널 스펙트럼 모델 기반의 배경음과 보컬음 분리는 추출하고자하는 객체의 모델을 기반으로 위너형태의 평균 제곱의 오차의 이득값을 학습함으로써 배경음과 보컬음을 분리하는 기술이다. 본 논문은 기존의 커널 스펙트럴 모델 기반의 배경음과 보컬음 분리 방식에서 위너형태의 이득값 대신 로그 스펙트럼 진폭 추정을 적용하여 기존 방식 보다 명료한 배경음과 보컬음을 추출한다. 실험결과는 본 논문에서 제안한 방식이 기존의 방식들보다 더 우수하다는 것을 보인다.

잡음에 강인한 음성인식을 위한 Generalized Gamma 분포기반과 Spectral Gain Floor를 결합한 음성향상기법 (Speech Estimators Based on Generalized Gamma Distribution and Spectral Gain Floor Applied to an Automatic Speech Recognition)

  • 김형국;신동;이진호
    • 한국ITS학회 논문지
    • /
    • 제8권3호
    • /
    • pp.64-70
    • /
    • 2009
  • 본 논문은 잡음에 강인한 음성인식 성능을 획득하기 위해 generalized Gamma 분포기반의 음성향상 기법을 제안한다. 우수한 음성향상을 위해서 제안된 방식에서는 generalized Gamma분포와 spectral gain floor를 이용한 음성추적 기법에 스펙트럼 최소잡음성분에 의한 희귀적인 평균 스펙트럼 값으로부터 유도되는 잡음추정을 결합하여 음질을 향상시켜 음성인식에 적용하였다. Spectral component, spectral amplitude 그리고 log spectral amplitude에 기반하여 제안된 음성향상 기법을 잡음환경에서의 음성인식에 적용하여 그 성능을 측정하였다.

  • PDF

Push-to-talk 통신을 위한 진폭 및 위상 복원 기반의 단일 채널 음성 향상 방식 (A single-channel speech enhancement method based on restoration of both spectral amplitudes and phases for push-to-talk communication)

  • 조혜승;김형국
    • 한국음향학회지
    • /
    • 제36권1호
    • /
    • pp.64-69
    • /
    • 2017
  • 본 논문에서는 PTT(Push-To-Talk) 기반의 무선 통신을 위한 진폭 및 위상 복원 기반의 단일 채널 음성 향상 방식을 제안한다. 제안한 방식은 신호의 진폭만을 대상으로 음성 향상을 진행했던 기존의 방식들과 달리, 음성 신호의 진폭과 위상을 분리하여 각각 향상시켜 다시 결합함으로써 더욱 양질의 음성을 제공한다. 본 논문에서 제안하는 방식의 성능을 평가하기 위해 동적 잡음 환경에서의 단계별 비교 실험을 실시하였으며, 실험 결과를 통해 제안한 방식이 다양한 잡음 환경에서 양질의 음성을 제공하는 것을 확인할 수 있다.

Speech Processing System Using a Noise Reduction Neural Network Based on FFT Spectrums

  • Choi, Jae-Seung
    • Journal of information and communication convergence engineering
    • /
    • 제10권2호
    • /
    • pp.162-167
    • /
    • 2012
  • This paper proposes a speech processing system based on a model of the human auditory system and a noise reduction neural network with fast Fourier transform (FFT) amplitude and phase spectrums for noise reduction under background noise environments. The proposed system reduces noise signals by using the proposed neural network based on FFT amplitude spectrums and phase spectrums, then implements auditory processing frame by frame after detecting voiced and transitional sections for each frame. The results of the proposed system are compared with the results of a conventional spectral subtraction method and minimum mean-square error log-spectral amplitude estimator at different noise levels. The effectiveness of the proposed system is experimentally confirmed based on measuring the signal-to-noise ratio (SNR). In this experiment, the maximal improvement in the output SNR values with the proposed method is approximately 11.5 dB better for car noise, and 11.0 dB better for street noise, when compared with a conventional spectral subtraction method.

시간 변화에 따른 사전 정보와 이득 함수를 적용한 NMF 기반 음성 향상 기법 (A NMF-Based Speech Enhancement Method Using a Prior Time Varying Information and Gain Function)

  • 권기수;진유광;배수현;김남수
    • 한국통신학회논문지
    • /
    • 제38C권6호
    • /
    • pp.503-511
    • /
    • 2013
  • 본 논문은 비음수 행렬 인수분해(NMF)를 이용한 음성향상 기법을 다루고 있다. 음성과 잡음에서 적절한 훈련을 통해 각각의 기저(basis) 행렬을 구하고 이 행렬들을 이용하여 두 음원을 분리 하는 것이다. 이 때 훈련으로부터, 시간 흐름에 따른 기저 사용량의 변화량을 각기 독립적인 가우시안 모델들로 만들고, 이를 이용하여 매 시간 프레임에서 주어진 모델들에 일정 가중치만큼 가까워지는 방향으로 최적화를 수행하였다. 또한 매 시간 얻은 NMF의 부호화 행렬의 결과를 이전 시간 프레임의 부호화 행렬 값과 평활화(smoothing) 과정을 수행하였다. 향상 과정에서는 Log-spectral Amplitude를 이용하여 이득(gain) 함수를 구하였다. 실험 결과에서는 PESQ 값을 지표로 사용하였고, 기존의 NMF를 이용한 음성 향상 보다 이 두 과정을 적용한 방법이 뛰어남을 확인 했다.

Improved Single Channel Speech Enhancement Algorithm Using Adaptive Postfiltering

  • 송은우;강홍구
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 하계학술대회
    • /
    • pp.122-125
    • /
    • 2011
  • In real environment, background noise exists everywhere and degrades the performance of system. To reduce this distortion, a speech enhancement algorithm can be very useful and variety methods have been proposed. In this paper, we propose a postfilter to improve the performance of optimally modified log-spectral amplitude (OM-LSA) estimator. Proposed algorithm uses the formant postfilter to minimize perceptual distortion caused by background noise. We adjust an emphasizing parameter which is varied by spectral flatness and first reflection coefficient. The performance of the proposed algorithm is evaluated by measuring the log-spectral distance (LSD) and the perceptual evaluation of speech quality (PESQ) score. The test results show the improvement of proposed algorithm compared to conventional OM-LSA.

  • PDF

CASA 기반의 마이크간 전달함수 비 추정 알고리즘 (CASA Based Approach to Estimate Acoustic Transfer Function Ratios)

  • 신민규;고한석
    • 한국음향학회지
    • /
    • 제33권1호
    • /
    • pp.54-59
    • /
    • 2014
  • 본 논문은 비정상 (nonstationary)특성을 가지는 잡음환경에서 마이크간 전달함수 비 (RTF, Relative Transfer Function) 추정 알고리즘을 제안한다. 음성을 이용한 다양한 기기에 다중 마이크를 이용한 잡음제거 기술은 널리 사용되며, 이때 각 마이크간의 입력 신호 사이의 관계는 필수적으로 추정되어야 한다. 본 논문에서는 기존의 OM-LSA(Optimally-Modified Log-Spectral Amplitude)기반의 추정 방식에 CASA (Computational Auditory Scene Analysis)를 접목시킨 방식을 제안한다. 제안한 방법의 성능 검증을 위하여 비정상 백색 잡음 (nonstationary white Gaussian noise) 환경에서 10명 화자 발음을 이용한 마이크간 전달함수 비 추정 성능 평가 실험을 수행하였다. 잡음 신호가 초당 8dB 증감하는 환경에서 SBF (Signal Blocking Factor)가 평균 2.65dB 개선됨을 확인하였다.

Detection of formation boundaries and permeable fractures based on frequency-domain Stoneley wave logs

  • Saito Hiroyuki;Hayashi Kazuo;Iikura Yoshikazu
    • 지구물리와물리탐사
    • /
    • 제7권1호
    • /
    • pp.45-50
    • /
    • 2004
  • This paper describes a method of detecting formation boundaries, and permeable fractures, from frequency-domain Stoneley wave logs. Field data sets were collected between the depths of 330 and 360 m in well EE-4 in the Higashi-Hachimantai geothermal field, using a monopole acoustic logging tool with a source central frequency of 15 kHz. Stoneley wave amplitude spectra were calculated by performing a fast Fourier transform on the waveforms, and the spectra were then collected into a frequency-depth distribution of Stoneley wave amplitudes. The frequency-domain Stoneley wave log shows four main characteristic peaks at frequencies 6.5, 8.8, 12, and 13.3 kHz. The magnitudes of the Stoneley wave at these four frequencies are affected by formation properties. The Stoneley wave at higher frequencies (12 and 13.3 kHz) has higher amplitudes in hard formations than in soft formations, while the wave at lower frequencies (6.5 and 8.8 kHz) has higher amplitudes in soft formations than in hard formations. The correlation of the frequency-domain Stoneley wave log with the logs of lithology, degree of welding, and P-wave velocity is excellent, with all of them showing similar discontinuities at the depths of formation boundaries. It is obvious from these facts that the frequency-domain Stoneley wave log provides useful clues for detecting formation boundaries. The frequency-domain Stoneley wave logs are also applicable to the detection of a single permeable fracture. The procedure uses the Stoneley wave spectral amplitude logs at the four frequencies, and weighting functions. The optimally weighted sum of the four Stoneley wave spectral amplitudes becomes almost constant at all depths, except at the depth of a permeable fracture. The assumptions that underlie this procedure are that the energy of the Stoneley wave is conserved in continuous media, but that attenuation of the Stoneley wave may occur at a permeable fracture. This attenuation may take place at anyone of the four characteristic Stoneley wave frequencies. We think our multispectral approach is the only reliable method for the detection of permeable fractures.

시간-주파수 영역에서의 국지 미소지진과 지하인공폭발의 구별 (Discrimination of Local Microearthquakes and Artificial Underground Explosions on the Basis of Time-Frequency Domain)

  • 김소구;박용철
    • 지질공학
    • /
    • 제7권1호
    • /
    • pp.63-79
    • /
    • 1997
  • 본 연구의 목적은 시간-주파수 영역에서의 미소지진과 인공폭발을 구별하는 것으로 미소지진과 인공폭발의 주파수특성을 연구하기 위해서 3차원 스펙트로그램(주파수, 시간, 진폭)을 이용하였다. 3차원 스펙트로그램은 국지 및 광역 거리에서 관측된 자료에 대하여 각각의 위상에 대한 주파수대역의 연구에 매우 유용한 방법이다. 채석장 발파로부터 관측된 P파와 S파는 Hz 이상에서 큰 진폭을 가졌고 또한 가까운 거리에서는 뚜렷한 Rg파가 관측되었다. 미소 지진의 경우 P파와 S파는 넓은 주파수 대역에서 큰 진폭이나타났다. 인공 폭발과 미소지진의 구별을 위해서는 10Hz 이하에서 Pg/Lg 스펙트럼 비를 이용하였고 각각의 위상에서의 정확한 시간창(time window)을 구하기 위해서 다중 필터 방법(MFM)을 이용하여 군속도를 계산하였다. 또한 3 성분 자료에 관해서는 자료의 순수한 P, SV, SH 성질을 구하기 위해 자유 표면에서의 영향을 보정하고 각각의 위상에 대하여 FFT을 실시하여 7개의 주파수 대역(0.5-3, 2-4, 3-5, 4-6, 5-7, 6-8, 8-10Hz)에서 Pg/Lg 스펙트럼 비를 계산하였다. 위의 과정을 통해 6-8Hz 대역에서 미소지진과 인공폭발이 가장 잘 구별되었다.

  • PDF

자동 음성 인식기를 위한 단채널 음질 향상 알고리즘의 성능 분석 (Performance Analysis of a Class of Single Channel Speech Enhancement Algorithms for Automatic Speech Recognition)

  • 송명석;이창헌;이석필;강홍구
    • The Journal of the Acoustical Society of Korea
    • /
    • 제29권2E호
    • /
    • pp.86-99
    • /
    • 2010
  • This paper analyzes the performance of various single channel speech enhancement algorithms when they are applied to automatic speech recognition (ASR) systems as a preprocessor. The functional modules of speech enhancement systems are first divided into four major modules such as a gain estimator, a noise power spectrum estimator, a priori signal to noise ratio (SNR) estimator, and a speech absence probability (SAP) estimator. We investigate the relationship between speech recognition accuracy and the roles of each module. Simulation results show that the Wiener filter outperforms other gain functions such as minimum mean square error-short time spectral amplitude (MMSE-STSA) and minimum mean square error-log spectral amplitude (MMSE-LSA) estimators when a perfect noise estimator is applied. When the performance of the noise estimator degrades, however, MMSE methods including the decision directed module to estimate a priori SNR and the SAP estimation module helps to improve the performance of the enhancement algorithm for speech recognition systems.