DOI QR코드

DOI QR Code

Fundamental Frequency Estimation of Voiced Speech Signals Based on the Inflection Point Detection

변곡점 검출에 기반한 음성의 기본 주파수 추정

  • Byeonggwan Iem (Dept. of Electronic Eng., Gangneung-Wonju Nat. Univ.)
  • Received : 2023.11.24
  • Accepted : 2023.12.07
  • Published : 2023.12.31

Abstract

Fundamental frequency/pitch period are major characteristics of speech signals. They are used in many speech applications like speech coding, speech recognition, speaker identification, and so on. In this paper, some of inflection points are used to estimate the pitch which is the inverse of the fundamental frequency. The inflection points are defined as points where local maxima, local minima or the slope changes occur. The speech signal is preprocessed to remove unnecessary inflection points due to the high frequency components using a low pass filter. Only the inflection points from local maxima are used to get the pitch period. While the existing pitch estimation methods process speech signals in blockwise, the proposed method detects the inflection points in sample and produces the pitch period/fundamental frequency estimates along the time. Computer simulation shows the usefulness of the proposed method as a fundamental frequency estimator.

피치 혹은 기본 주파수는 음성 신호의 주요 특성 인자이며 음성 부호화, 음성인식, 화자인식 등의 다양한 음성 관련 응용에 활용된다. 본 논문에서는 기본 주파수의 역수인 음성의 피치 주기를 추정하기 위해서 음성 신호의 변곡점을 이용한다. 변곡점은 국소적인 최대값, 최소값 혹은 신호의 기울기가 변하는 지점으로 정의된다. 음성 신호는 저역통과 필터로 먼저 전처리되어 고주파 성분이 제거된다. 이를 통해 불필요한 변곡점들이 제거되며, 피치 주기 추정에 유용한 국소적인 최대값만을 변곡점 검출법을 이용하여 추출한다. 얻어진 변곡점 간의 시간 간격을 측정하여 피치 주기를 추정하며, 그 역수로 기본 주파수 추정치를 얻는다. 기존의 피치 추정 방법은 음성이 국소적으로 시불변이라는 가정하에 음성을 블록 단위로 처리하여 블록당 피치 주기를 구하지만, 제안된 방법은 음성을 샘플 단위로 처리하여 변곡점을 검출하며, 그 결과 피치 주기를 시간 경과에 따라 얻게 되어 음성의 시변성이 반영된 기본 주파수 추정치를 얻는다. 컴퓨터 모의실험으로 기본 주파수 추정기로서 제안된 방법의 유용성을 볼 수 있다.

Keywords

References

  1. L. R. Rabiner and R. W. Schafer, Digital Processing of Speech Signals, Englewood Cliffs, NJ, Prentice-Hall, 1978.
  2. T. F. Quatieri, Discrete-Time Speech Signal Processing: Principles and Practice, Upper Saddle River, NJ, Prentice-Hall, 2002.
  3. A. M. Kondoz, Digital Speech: Coding for Low Bit Rate Communication Systems, West Sussex, England, Wiley, 1994.
  4. D. O'Shaughnessy, Speech Communication: Human and Machine, MA, Addison-Wesley, 1987.
  5. B. Iem, "Instantaneous frequency estimation of AM-FM signals using the inflection point detection," Journal of Inst. Korean Electrical and Electronics Engineers, vol.24, no.4, pp.1081-1085, 2020. DOI: 10.7471/ikeee.2020.24.4.1081
  6. B. Iem, "Power disturbance detection using the inflection point estimation," Journal of Inst. Korean Electrical and Electronics Engineers, vol.25, no.4, pp.710-715, 2021. DOI: 10.7471/ikeee.2021.25.4.710
  7. B. Iem, "A Nonuniform Sampling Technique based on Inflection Point Detection and its Application to Speech Coding," Journal of Acoustical Society of America, vol.136, no.2, pp.903-909, 2014. DOI: 10.1121/1.4884882