DOI QR코드

DOI QR Code

Baleen Whale Sound Synthesis using a Modified Spectral Modeling

수정된 스펙트럴 모델링을 이용한 수염고래 소리 합성

  • 전희성 (울산대학교 컴퓨터정보통신공학부) ;
  • 파르나브 다르 (울산대학교 컴퓨터정보통신공학부) ;
  • 김철홍 (전남대학교 전자컴퓨터공학부) ;
  • 김종면 (울산대학교 컴퓨터정보통신공학부)
  • Published : 2010.02.28

Abstract

Spectral modeling synthesis (SMS) has been used as a powerful tool for musical sound modeling. This technique considers a sound as a combination of a deterministic plus a stochastic component. The deterministic component is represented by the series of sinusoids that are described by amplitude, frequency, and phase functions and the stochastic component is represented by a series of magnitude spectrum envelopes that functions as a time varying filter excited by white noise. These representations make it possible for a synthesized sound to attain all the perceptual characteristics of the original sound. However, sometimes considerable phase variations occur in the deterministic component by using the conventional SMS for the complex sound such as whale sounds when the partial frequencies in successive frames differ. This is because it utilizes the calculated phase to synthesize deterministic component of the sound. As a result, it does not provide a good spectrum matching between original and synthesized spectrum in higher frequency region. To overcome this problem, we propose a modified SMS that provides good spectrum matching of original and synthesized sound by calculating complex residual spectrum in frequency domain and utilizing original phase information to synthesize the deterministic component of the sound. Analysis and simulation results for synthesizing whale sounds suggest that the proposed method is comparable to the conventional SMS in both time and frequency domain. However, the proposed method outperforms the SMS in better spectrum matching.

스펙트럴 모델링 합성 (Spectral Modeling Synthesis, SMS)은 뮤지컬 사운드 모델링을 위한 강력한 툴로써 사용되어 왔다. 이 기술은 사운드를 결정적 (deterministic) 성분과 통계적 (stochastic) 성분의 조합으로 간주한다. Deterministic 성분은 크기 (amplitude), 주파수 (frequency), 위상 (phase) 함수에 따른 사인파의 연속으로 표현되는 반면, stochastic 성분은 백색 잡음 (white noise)으로 자극된 시간 변화 필터로서 동작하는 크기 스펙트럼 엔블로프 (spectrum envelop)의 연속으로 표현된다. 이러한 표현들은 원음의 모든 지각적인 특징들을 활용해 합성된 사운드를 구현 가능케 한다. 하지만, 고래 소리와 같은 복잡한 사운드에 대해 기존의 SMS를 사용할 때 연속적인 프로임에 있는 부분 주파수가 다른 경우 결정적 성분에서 상당한 위상 변화가 발생한다. 왜냐하면 기존의 SMS는 사운드의 결정적 성분을 합성하기 위해서 계산된 위상을 이용하기 때문이다. 그 결과 기존의 SMS는 높은 주파수 영역에서 원래 스펙트럼과 합성된 스펙트럼 사이에서 좋은 스펙트럼 매칭을 제공하지 못한다. 이러한 문제를 해결하기 위해 본 논문은 수정된 SMS를 제안한다. 제안하는 SMS는 결정적 성분을 합성하기 위해 원래 주파수 정보를 이용할 뿐만 아니라 주파수 영역에서 복잡한 잔재 (residual) 스펙트럼을 계산함으로써 원음과 합성음 사이에서 좋은 스펙트럼 매칭을 제공한다. 다양한 고래 소리 합성을 모의 실험한 결과, 제안된 방법은 시간 및 주파수 영역에서 기존의 SMS와 유사한 성능을 보였다. 하지만, 제안된 방법은 기존의 SMS보다 스펙트럼 매칭에서 더 좋은 성능을 보였다.

Keywords

References

  1. X. Serra, 'Musical Sound Modeling with Sinusoid plus Noise,' Musical Sound Processing, published in C. Roads, S. Pope, A. Picialli, G.De Poli editors by Sweets and Zeitlinger Publishers, pp.91-122, 1997.
  2. X., Serra and J. Smith, “Spectral Modeling Synthesis: A sound Analysis/Synthesis system based on a Deterministic plus Stochastic Decomposition,” Computer Music Journal, Vol.14, No.4, pp.12-24, 1990. https://doi.org/10.2307/3680788
  3. X. Serra, “A System for Sound Analysis/Transformation/Synthesis based on a Deterministic plus Stochastic Decomposition,” Ph.D Thesis, Stanford University, 1989.
  4. E. B. George and M. J. T. Smith, “Analysis-by-Synthesis/Overlap-add Sinusoidal Modeling applied to the Analysis and Synthesis of Musical Tones,” Journal of Audio Engineering Society, Vol.40, No.6, pp.497-516, 1992.
  5. Ph. Depalle, G. Garcia and X. Rodet, “Tracking of Partials for Additive Sound Synthesis Using Hidden Markov Models,” in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Vol.1, pp.225-228, 1993. https://doi.org/10.1109/ICASSP.1993.319096
  6. J. B Allen, “Short term spectral analysis, synthesis and modification by discrete Fourier transform,” IEEE transaction on Acoustics, Speech and Signal Processing, Vol. ASSP-25, pp.235-238, 1977.
  7. R. J. McAulay and T. F. Quatieri, “Speech Analysis/Synthesis based on a Sinusoidal Representation,” IEEE transaction on Acoustics, Speech and Signal Processing, Vol.34, No.4, pp. 744-754, 1986. https://doi.org/10.1109/TASSP.1986.1164910
  8. J. B. Allen and R. Lawrenc, “A Unified Approach to Short-Time Fourier analysis and Synthesis,” in Proceedings of IEEE, Vol.65, pp.1556-1564, 1977.
  9. D. M. Green et. Al., 'Low-frequency Sound and Marine Mammals: Current Knowledge and Research needs,' National Academy Press, 1994.

Cited by

  1. Multi-Core Processor for Real-Time Sound Synthesis of Gayageum vol.18A, pp.1, 2011, https://doi.org/10.3745/KIPSTA.2011.18A.1.001