• 제목/요약/키워드: Time-frequency Masking

검색결과 28건 처리시간 0.024초

시간-주파수 마스킹과 고차 신호 통계를 이용한 음향 반향신호 제거 (Acoustic Echo Cancellation using Time-Frequency Masking and Higher-order Statistics)

  • 김경재;남상원
    • 전기학회논문지
    • /
    • 제56권3호
    • /
    • pp.629-631
    • /
    • 2007
  • In hands-free full-duplex communication systems, acoustic signals picked up by the microphones can be mixed with echo signals as well as noises, which may result in poor performance of the corresponding communication system. Also, the system performance may decrease further if the reverberation occurs since it is harder to estimate the impulse response of the demixing system. For blind source separation (BSS) in such cases, a time-frequency masking approach can be employed to separate undesired echo signals and noises, but, permutation ambiguities also should be solved for the echo cancellation. In this paper, we propose a new acoustic echo cancellation (AEC) approach utilizing the time-frequency masking and higher-order statistics, whereby a desired signal selection, based on coherence and third-order statistics (i.e., kurtosis), is introduced along with output signal normalization. Simulation results demonstrate that the proposed approach yields better echo and noise cancellation performances than the conventional AEC approaches.

64채널 소음 차폐 디지털 보청기 펌웨어 개발 (64 Channel Noise Masking Digital Hearing Aid Firmware Development)

  • 장순석
    • 한국음향학회지
    • /
    • 제31권6호
    • /
    • pp.367-372
    • /
    • 2012
  • 본 논문은 64채널 디지털 보청기를 위한 소음 차폐 알고리즘을 소개한다. 125 Hz에서 8000 Hz 주파수 대역 사이에서 64채널을 위해, 125 Hz의 주파수 분해도를 유지하였다. 사람의 달팽이관과 유사한 스펙트럼 차폐 처리 효과를 보청기 소음 감쇠 처리 알고리즘에 적용하였다. 이론적 알고리즘은 어셈블러 언어의 프로그램 소프트웨어로 변환하여 디지털 보청기용 DSP IC 칩으로 이식하였다. 일부 소음 차폐 프로그램 코드를 보여주며 설명하였고, 실시간으로 소음 처리 되는 결과를 전기음향 실험에 의해 증명하였다.

시간 마스킹이 음상정위에 미치는 영향 (The effects of a temporal masking on the sound laterlization)

  • 이채봉
    • 한국전자통신학회논문지
    • /
    • 제5권4호
    • /
    • pp.352-356
    • /
    • 2010
  • 본 연구에서는 선행음과 후속음의 영향이 음상정위에 어떠한 영향을 미치는지에 대하여 실험을 하였다. 음원은 양귀간 시간차(Interaural Time Difference ; ITD)를 0.5ms로 한 기준음을 사용하였다. 이러한 기준음과 5종류의 레벨차를 가진 방해음(선행음 및 후속음) 및 기준음과 방해음의 시간차(Inter-Stimuli Interval ; ISI) 4종류를 조합하여 피실험자에게 제공하였다. 그리고 주파수에 대한 의존성을 알아보기 위해 기준음과 방해음을 2kHz, 4kHz, 백색 잡음을 이용하였다. 피실험자는 헤드폰을 사용하여 기준음이 좌우 어느 쪽에서 들리는지를 판단하도록 하였다. 그 결과 음상정위에 미치는 영향은 후속음보다는 선행음이 크게 나타났다. 이것은 시간 마스킹과 같은 경향이라고 생각되어 진다. 음상정위에 있어서는 기준음과 방해음 사이의 주파수 의존성은 적게 나타났다.

주파수 영역 심층 신경망 기반 음성 향상을 위한 실수 네트워크와 복소 네트워크 성능 비교 평가 (Performance comparison evaluation of real and complex networks for deep neural network-based speech enhancement in the frequency domain)

  • 황서림;박성욱;박영철
    • 한국음향학회지
    • /
    • 제41권1호
    • /
    • pp.30-37
    • /
    • 2022
  • 본 논문은 주파수 영역에서 심층 신경망 기반 음성 향상 모델 학습을 위하여 학습 대상과 네트워크 구조에 따라 두 가지 관점에서 성능을 비교 평가한다. 이때, 학습 대상으로는 스펙트럼 매핑과 Time-Frequency(T-F) 마스킹 기법을 사용하였고 네트워크 구조는 실수 네트워크와 복소 네트워크를 사용하였다. 음성 향상 모델의 성능은 데이터 셋 규모에 따라 Perceptual Evaluation of Speech Quality(PESQ)와 Short-Time Objective Intelligibility(STOI) 두 가지 객관적 평가지표를 통해 평가하였다. 실험 결과, 네트워크의 종류와 데이터 셋 종류에 따라 적정한 훈련 데이터의 크기가 다르다는 것을 확인하였다. 또한, 데이터의 크기와 학습 대상에 따라 복소 네트워크보다 실수 네트워크가 비교적 높은 성능을 보이기 때문에 총 파라미터의 수를 고려한다면 경우에 따라 실수 네트워크를 사용하는 것이 보다 현실적인 해결책일 수 있다는 것을 확인하였다.

음성 명료도 향상을 위한 학습 기반의 신호 대 잡음 비 추정을 이용한 이산 마스크 추정 방법 (Binary Mask Estimation using Training-based SNR Estimation for Improving Speech Intelligibility)

  • 김기백
    • 방송공학회논문지
    • /
    • 제17권6호
    • /
    • pp.1061-1068
    • /
    • 2012
  • 본 논문에서는 시간-주파수 영역에서의 이산 마스킹을 이용하여 잡음환경 음성의 음성 명료도를 높이는 방법에 대해 다루고자 한다. 잡음이 섞여 있는 음성신호를 시간-주파수 영역으로 분해하여, 상대적으로 잡음이 많이 섞여 있는 시간-주파수 영역의 신호를 마스크 "0"을 할당하여 제거함으로써 음성명료도를 향상시킬 수 있다. 이러한 이산 마스크를 추정하기 위해서는 각 시간-주파수 영역에서 신호 대 잡음 비를 추정하여 문턱값과 비교해야 하는데, 본 논문에서는 학습 기반의 신호 대 잡음 비 추정방법을 사용하여 문턱값과 비교하여 이산 마스크를 추정한다. 신호 대 잡음 비와 비교하기 위한 문턱값은 모든 주파수 대역에 대해 동일한 값을 이용하는 고정 문턱값 외에도 주파수 대역에 따라 학습 데이터의 분포로부터 최적의 값을 사용하는 최적 문턱값을 제안한다. 제안된 이산 마스크 추정 방법은 잡음 환경 데이터에 적용한 후, 피험자에게 들려주어 음성 명료도를 측정한다.

잡음 차폐를 이용한 온라인 모델 보상 (On-line model compensation using noise masking effect for robust speech recognition)

  • 정규준;조훈영;오영환
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.215-218
    • /
    • 2003
  • In this paper we apply PMC (parallel model combination) to speech recognition system online. As a representative of model based noise compensation techniques, PMC compensates environmental mismatch by combining pretrained clean speech models and real-time estimated noise information. This is very effective approach for compensating extreme environmental mismatch but is inadequate to use in on-line system for heavy computational cost. To reduce the computational cost and to apply PMC online, we use a noise masking effect - the energy in a frequency band is dominated either by clean speech energy or by noise energy - in the process of model compensation. Experiments on artificially produced noisy speech data confirm that the proposed technique is fast and effective for the on-line model compensation.

  • PDF

이중 분기 디코더를 사용하는 복소 중첩 U-Net 기반 음성 향상 모델 (Complex nested U-Net-based speech enhancement model using a dual-branch decoder)

  • 황서림;박성욱;박영철
    • 한국음향학회지
    • /
    • 제43권2호
    • /
    • pp.253-259
    • /
    • 2024
  • 본 논문에서는 이중 분기 디코더를 갖는 복소 중첩 U-Net 기반의 새로운 음성 향상 모델을 제안하였다. 제안된 모델은 음성 신호의 크기와 위상 성분을 동시에 추정할 수 있도록 복소 중첩 U-Net으로 구성되며, 디코더는 스펙트럼 사상과 시간 주파수 마스킹을 각각의 분기에서 수행하는 이중 분기 디코더 구조를 갖는다. 이때, 이중 분기 디코더 구조는 단일 디코더 구조에 비하여, 음성 정보의 손실을 최소화하면서 잡음을 효과적으로 제거할 수 있도록 한다. 실험은 음성 향상 모델 학습을 위해 보편적으로 사용되는 VoiceBank + DEMAND 데이터베이스 상에서 이루어졌으며, 다양한 객관적 평가 지표를 통해 평가되었다. 실험 결과, 이중 분기 디코더를 사용하는 복소 중첩 U-Net 기반 음성 향상 모델은 기존의 베이스라인과 비교하여 Perceptual Evaluation of Speech Quality(PESQ) 점수가 0.13가량 증가하였으며, 최근 제안된 음성 향상 모델들보다도 높은 객관적 평가 점수를 보였다.

선 스펙트럼 주파수의 청각 적응 부호화 (Perceptual and Adaptive Quantization of Line Spectral Frequency Parameters)

  • 한우진;김은경;오영환
    • 한국음향학회지
    • /
    • 제19권8호
    • /
    • pp.68-77
    • /
    • 2000
  • 선 스펙트럼 주파수를 양자화하기 위한 대부분의 방법들이 가중 유클리드 거리에 기반하고 있는 반면, 본 논문에서는 청각 마스킹 효과에 기반한 에러 척도를 사용하여 선 스펙트럼 주파수를 효과적으로 양자화하는 방법을 제안하였다. 제안한 방법에서는 noise-to-mask ratio (NMR)를 선 스펙트럼 주파수의 양자화에 적합하도록 변형한 새로운 에러 척도를 유도하고, 이를 사용하여 선 스펙트럼 주파수를 양자화한다. 한편, 본 논문에서는 양자화하고자 하는 음성 프레임이 갖는 청각적인 특성을 고려하여 동적으로 비트를 할당하는 적응 양자화 알고리즘을 제안하였다. 성능 평가를 위해서 11948 프레임의 테스트 자료를 기존의 방법과 제안한 방법으로 각자 양자화하고 perceptually transparent frame의 비운 및 이때의 평균 비트율을 비교한 결과, 기존의 방법이 1800 bps의 비트율에서 89.9%의 perceptually transparent frame을 얻은 데 비해, 제안한 방법은 770 bps의 평균 비트율에서 95.5%의 perceptually transparent frame을 얻음으로써 제안한 방법이 효과적임을 보였다.

  • PDF

Robust video watermarking algorithm for H.264/AVC based on JND model

  • Zhang, Weiwei;Li, Xin;Zhang, Yuzhao;Zhang, Ru;Zheng, Lixin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권5호
    • /
    • pp.2741-2761
    • /
    • 2017
  • With the purpose of copyright protection for digital video, a novel H.264/AVC watermarking algorithm based on JND model is proposed. Firstly, according to the characteristics of human visual system, a new and more accurate JND model is proposed to determine watermark embedding strength by considering the luminance masking, contrast masking and spatial frequency sensitivity function. Secondly, a new embedding strategy for H.264/AVC watermarking is proposed based on an analysis on the drift error of energy distribution. We argue that more robustness can be achieved if watermarks are embedded in middle and high components of $4{\times}4$ integer DCT since these components are more stable than dc and low components when drift error occurs. Finally, according to different characteristics of middle and high components, the watermarks are embedded using different algorithms, respectively. Experimental results demonstrate that the proposed watermarking algorithm not only meets the imperceptibility and robustness requirements, but also has a high embedding capacity.

잡음환경 음성명료도 향상을 위한 이진 마스크 추정 후처리 알고리즘 (A Post-processing for Binary Mask Estimation Toward Improving Speech Intelligibility in Noise)

  • 김기백
    • 방송공학회논문지
    • /
    • 제18권2호
    • /
    • pp.311-318
    • /
    • 2013
  • 시간-주파수 영역에서의 이진 마스킹을 이용하여 잡음환경에서 잡음을 제거하여 음질을 향상하는 방법에 대해 논하고자 한다. 잡음이 섞여 있는 음성신호를 시간-주파수 영역으로 분해하여, 상대적으로 잡음이 많이 섞여 있는 시간-주파수 영역 (시간-주파수 유닛의 신호 대 잡음 비 (Signal-to-Noise Ratio: SNR)가 낮은 영역)의 신호에 마스크 "0"을 할당하여 제거함으로써 음성명료도를 향상시킬 수 있다. 이전의 연구에서는 가우시안 혼합 모델을 이용하여 마스크 "0"과 마스크 "1"을 분류하는 방법을 사용하였다. 각 주파수 밴드별로 수집된 데이터를 이용하여 가우시안 혼합 모델을 학습하고 테스트 데이터가 들어오면 현재의 시간-주파수 마스크가 "0"인지 "1"인지 판별하게 된다. 본 논문에서는 이러한 알고리즘에 주파수 영역에서의 종속성을 고려하여 추정된 마스크에 대해 후처리를 수행하는 알고리즘을 제안한다. 주파수 영역에서의 종속성에 관한 후처리는 비터비 (Viterbi) 알고리즘을 이용하며, 제안된 후처리 알고리즘을 적용하여 이진 마스크 추정 오차를 줄여 음성 명료도 향상을 기대할 수 있다.