예술인문사회 융합 멀티미디어 논문지 (Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology)
- 제7권4호
- /
- Pages.235-242
- /
- 2017
- /
- 2383-5281(pISSN)
- /
- 2383-7268(eISSN)
DOI QR Code
AMDF 함수를 이용한 음성 신호의 피치 추정 Algorithm들에 관한 연구
A Study of the Pitch Estimation Algorithms of Speech Signal by Using Average Magnitude Difference Function (AMDF)
- So, Shinae (Dept. Korean Language and Literature, Soongsil Univ.) ;
- Lee, Kang Hee (Dept. Digital Media, Soongsil Univ.) ;
- You, Kwang-Bock (School of Electronic Engineering, Soongsil Univ.) ;
- Lim, Ha-Young (School of Electronic Engineering, Soongsil Univ.) ;
- Park, Jisu (School of Electronic Engineering, Soongsil Univ.)
- 투고 : 2017.02.08
- 심사 : 2017.03.02
- 발행 : 2017.04.30
초록
본 논문은 음성 신호의 Average Magnitude Difference Function (AMDF)에서 peaks (혹은 nulls)들을 찾는 알고리즘들을 제안하였다. AMDF 함수는 Autocorrelation Function (ACF)과 같이 음성 신호의 피치를 추정하는 함수로 널리 사용 하고 있다. 음성신호에서 fundamental frequency (F0)를 estimation하는 것은 매우 중요한 task이며 또한 상당한 어려움이 따른다는 것이 여러 연구들을 통해서 잘 알려진 사실이다. 본 논문에서는 AMDF 함수의 특성을 이용하여 개발한 두 가지의 알고리즘을 제시하였다. 첫째는 Local Minima에 Threshold 값을 적용하여 피치 주기를 측정 할 수 있는 nulls들을 찾아내는 알고리즘이고, 다음은 AMDF 함수와 ACF 함수 사이의 관계식을 응용한 알고리즘이다. 한국어의 감정 표현 언어들로 구성된 제시문을 널리 사용하고 있는 상용 기기로 녹음한 음성 신호를 본 논문이 제안한 알고리즘들에 적용하여서 시뮬레이션을 통해 음성 신호의 피치 주기를 측정하여서 그 성능을 알아보았다.
Peaks (or Nulls) finding algorithms for Average Magnitude Difference Function (AMDF) of speech signal are proposed in this paper. Both AMDF and Autocorrelation Function (ACF) are widely used to estimate a pitch of speech signal. It is well known that the estimation of the fundamental requency (F0) for speech signal is not only important but also very difficult. In this paper, two algorithms, are exploited the characteristics of AMDF, are proposed. First, the proposed algorithm which has a Threshold value is applied to the local minima to detect a pitch period. The Other proposed algorithm to estimate a pitch period of speech signal is utilized the relationship between AMDF and ACF. The data in this paper, is recorded by using general commercial device, is composed of Korean emotion expression words. The recorded speech data are applied to two proposed algorithms and tested their performance.
키워드