Spectral Modeling of Haegeum Using Cepstral Analysis

캡스트럼 분석을 이용한 해금의 스펙트럼 모델링

  • 홍연우 (울산대학교 컴퓨터정보통신공학부) ;
  • 강명수 (울산대학교 컴퓨터정보통신공학부) ;
  • 조상진 (울산대학교 전기전자정보시스템공학부) ;
  • 김종면 (울산대학교 컴퓨터정보통신공학부) ;
  • 이정철 (울산대학교 컴퓨터정보통신공학부) ;
  • 정의필 (울산대학교 컴퓨터정보통신공학부)
  • Received : 2010.02.08
  • Accepted : 2010.03.23
  • Published : 2010.05.31

Abstract

This paper proposes a spectral modeling of Korean traditional instrument, Haegeum, using cepstral analysis to naturally describe Haegeum sounds varying with time. To get a precise result of cepstral analysis, we set the frame size to 3 periods of input signal and more cepstral coefficients are used to extract formants. The performance is enhanced by flexibly controlling the cutoff frequency of bandpass filter depending on the resonances in the synthesis process of sinusoidal components and the deleting peaks remained in the residual signal. To detect the change of pitch, we divide the input frames into silence, attack, and sustain region and determine which region the current frame is involved in. Then, the proposed method readjusts the frame size according to the fundamental frequency in the case of the current frame is in attack region and corrects the extraction errors of the fundamental frequency for the frames in sustain region. With these processes, the synthesized sounds are much more similar to the originals. The evaluation result through the listening test by a Haegeum player says that the synthesized sounds are almost similar to originals (96~100 % similar to the original sounds).

본 논문에서는 해금 소리의 시간에 따른 변화를 사실적으로 묘사하기 위해 캡스트럼 분석을 이용한 전통 악기 해금의 스펙트럼 모델링을 제안한다. 정확한 캡스트럼 분석 결과를 얻기 위해 프레임 사이즈는 입력 신호의 3주기로 하였고 포만트 추출에 더 많은 캡스트럼 계수를 활용하였다. 정현파 성분 합성 과정에서 대역통과 필터의 차단주파수를 공명점 별로 유동적으로 조절하고 노이즈 성분에 남아있는 피크 성분들을 제거하는 과정을 추가하여 성능을 향상시켰다. 음 높이의 변화를 판단하기 위해 입력 프레임을 묵음구간, 어택구간, 지속구간으로 분류하였고 기본주파수에 따라 프레임 사이즈를 가변적으로 조절하였으며 지속구간에서의 기본주파수 검출 오류를 수정함으로써 정확도를 향상시켰다. 해금 연주 전문가의 청취테스트를 통해 원음과 합성음이 96~100 % 유사하다는 평가 결과를 얻었다.

Keywords

References

  1. Bonada, J., Loscos, A., Cano, P., Serra, X., "Spectral Approach to the Modeling of the Singing Voice", in Proc. of the 111th AES Convention, 2001.
  2. J. O. Smith, Spectral Audio Signal Processing, http://ccrma.stanford.edu/-jos/sasp/, Online Book, 2007.
  3. R. W. Schafer and J. D. Markel, eds., Speech Analysis, New York: IEEE Press, 1979.
  4. J. L. Flanagan and R. M. Golden, "Phase vocoder," Bell System Technical Journal, vol. 45, pp. 1493-1509, 1966. https://doi.org/10.1002/j.1538-7305.1966.tb01706.x
  5. X. Serra and J. O. Smith, "PARSHL: An Analysis/Synthesis Program for Non-Harmonic Sounds based on a Sinusoidal Representation," in Proc. of the 1987 International Computer Music Conference, Computer Music Association, 1987.
  6. McAulay, R.J. and T.F. Quatieri, "Magnitude-only Reconstruction using a Sinusoidal Speech Model," in Proc. of the 1984 IEEE International Conference on Acoustics, Speech and Signal Processing, New-York: IEEE Press, 1984.
  7. McAulay, R.J. and T.F. Quatieri. 1986. "Speech Analysis/ Synthesis based on a Sinusoidal Representation," IEEE Trans. on Acoust., Speech and Signal Processing vol. 34, no. 4, pp. 744-754, 1986. https://doi.org/10.1109/TASSP.1986.1164910
  8. X. Serra and J. Smith, "Spectral Modeling Synthesis: A Sound Analysis/Synthesis System based on a Deterministic plus Stochastic Decomposition," Computer Music Journal, vol. 14, no. 4, pp. 12-24, 1990. https://doi.org/10.2307/3680788
  9. X. Serra and J. O. Smith, "Residual Minimization in a Musical Signal Model based on a Deterministic plus Stochastic Decomposition," J. Acoust. Soc. Am., vol. 95, no. 5-2, pp.2958-2959, 1994.
  10. Serra, X. Bonada, J. "Sound Transformations Based on the SMS High Level Attributes," in Proc. of International Conference on Digital Audio Effects (DAFX98 ), 1998.
  11. Verma, T. S., T. H. Y. Meng., "Time Scale Modification Using a Sines+Transients+Noise Signal Model," in Proc. of International Conference on Digital Audio Effects (DAFX98 ), 1998.
  12. Tony S. Verma and Teresa H. Y. Meng, "An analysis/ synthesis tool for transient signals," in Proc. 16th International Congress on Acoustics/135th Meeting of the Acoustical Society of America, vol. 1, pp. 77-78, 1998.
  13. Verma, T. S., T. H. Y. Meng., "Extending Spectral Modeling Synthesis with Transient Modeling Synthesis", Computer Music Journal, vol. 24, no. 2, pp. 47-59, 2000. https://doi.org/10.1162/014892600559317
  14. 조상진, 정의필, "산조가야금의 물리적 모델링," 한국음향학회지, 23권, 7호, 521-531쪽, 2004.
  15. 조상진, 최진규, 정의필, "안족과 몸통의 임펄스 응답을 이용한 가야금 사운드 합성", 한국신호처리및시스템학회논문지, 7권, 3 호, 102-107쪽, 2006.
  16. 조상진, 정의필, "개선된 산조 가야금의 물리적 모델링을 이용한 오른손 주법의 음 합성", 한국음향학회지, 25권, 8호, 325-332쪽, 2006.
  17. 조상진, 정의필,"안족이 있는 악기의 개선된 현의 모델 개발", 한국음향학회지, 26권, 7호, 328-333쪽, 2007.
  18. 변중배, 조상진, 홍연우, 정의필, "태평소의 음향분석을 통한 팔 랑 특성 추출", 한국음향학회지, 27권 1호, 12-17쪽, 2008.
  19. 강명수, 홍연우, 조상진, 정의필, "디지털 피리 구현을 위한 개선 된 스펙트럼 모델링 합성 알고리듬", 한국공학예술학회논문지, 1 권, 1호, 5-11쪽, 2009.
  20. Kieu Huu Thu, Sangjin Cho, Yeonwoo Hong, Myeongsu Kang, Uipil Chong, "Synthesis of Piri Based on the Modified SMS," The 10th Western Pacific Acoustics Conference, CD Proceeding, pp. 45, 2009.
  21. 변중배, 조상진, 정의필, "주파수 영역에서의 상관함수를 이용한 피리의 FM합성 파라미터 추출," 한국디지털아트미디어학회 학술 발표대회 논문집, 4권, 1호, 85-88쪽, 2006.
  22. 변중배, 조상진, 정의필, "비대칭 FM합성방식을 이용한 피리 소리의 합성," 한국신호처리시스템학회 하계학술대회 논문집, 7권, 1호, 37-40쪽, 2006.
  23. 홍연우, 조상진, 변중배, 정의필, "운지법에 따른 해금 소리의 배 음 구조 분석," 한국신호처리시스템학회 하계학술대회논문집, 8(1), pp. 58-61, 2007.
  24. 홍연우, 조상진, 최명환, 정의필, "해금 소리 합성을 위한 스펙트럼 파라미터 추출," 한국디지털아트미디어학회 학술발표대회 논문집, 5권, 1호, 7-10쪽, 2007.
  25. Yeonwoo Hong, Sangjin Cho, Myeongsu Kang, Hyungseob Han, Uipil Chong, "Spectrum modeling of Haegum using format extracted from cepstral envelope," The 10th Western Pacific Acoustics Conference, CD Proceeding, pp. 44, 2009.
  26. 홍연우, 조상진, 김종면, 정의필, "캡스트럼 포락선을 이용한 해금 소리의 포만트 합성," 한국음향학회지, 28권, 6호, 526-533쪽, 2009.