• 제목/요약/키워드: Non stationary sound

검색결과 22건 처리시간 0.018초

임베디드 연산을 위한 잡음에서 음성추출 U-Net 설계 (Design of Speech Enhancement U-Net for Embedded Computing)

  • 김현돈
    • 대한임베디드공학회논문지
    • /
    • 제15권5호
    • /
    • pp.227-234
    • /
    • 2020
  • In this paper, we propose wav-U-Net to improve speech enhancement in heavy noisy environments, and it has implemented three principal techniques. First, as input data, we use 128 modified Mel-scale filter banks which can reduce computational burden instead of 512 frequency bins. Mel-scale aims to mimic the non-linear human ear perception of sound by being more discriminative at lower frequencies and less discriminative at higher frequencies. Therefore, Mel-scale is the suitable feature considering both performance and computing power because our proposed network focuses on speech signals. Second, we add a simple ResNet as pre-processing that helps our proposed network make estimated speech signals clear and suppress high-frequency noises. Finally, the proposed U-Net model shows significant performance regardless of the kinds of noise. Especially, despite using a single channel, we confirmed that it can well deal with non-stationary noises whose frequency properties are dynamically changed, and it is possible to estimate speech signals from noisy speech signals even in extremely noisy environments where noises are much lauder than speech (less than SNR 0dB). The performance on our proposed wav-U-Net was improved by about 200% on SDR and 460% on NSDR compared to the conventional Jansson's wav-U-Net. Also, it was confirmed that the processing time of out wav-U-Net with 128 modified Mel-scale filter banks was about 2.7 times faster than the common wav-U-Net with 512 frequency bins as input values.

음성 및 오디오 부호화기를 위한 저지연 윈도우 스위칭 modified discrete cosine transform (Low delay window switching modified discrete cosine transform for speech and audio coder)

  • 김영준;이인성
    • 한국음향학회지
    • /
    • 제37권2호
    • /
    • pp.110-117
    • /
    • 2018
  • 본 논문에서는 음성/오디오 부호화기를 위한 저지연 윈도우 스위칭 MDCT(Modified Discrete Cosine Transform) 방법을 제안한다. 윈도우 스위칭 알고리즘을 사용하여 신호의 특성이 빨리 변하는 전이 구간에서 음질 저하를 개선하고, 저지연 TDAC(Time Domain Aliasing Cancellation)를 사용하여 알고리즘 지연을 1/2로 줄일 수 있는 MDCT 방법을 제안한다. 제안된 윈도우 스위칭 방법은 기존 윈도우 스위칭 알고리즘이 다른 길이의 중첩합(overlap-add)을 사용하는 것과 달리, 일정한 길이의 중첩합을 사용하여 알고리즘 지연을 1/2로 줄일 수 있었고, 신호의 특성에 따라 윈도우의 종류를 2개로 줄여 프레임 상태를 표현하는 정보 비트를 1 bit 감소시킬 수 있었다. 제안한 알고리즘을 MDCT 기반의 음성/오디오 부호화기인 ITU-T(International Telecommunication Union - Telecommunication) G.729.1 부호화기에 적용하여 성능을 확인하였으며, 알고리즘 지연을 절반으로 감소시키면서 동일한 음질을 유지할 수 있었다.