DOI QR코드

DOI QR Code

Audio /Speech Codec Using Variable Delay MDCT/IMDCT

가변 지연 MDCT/IMDCT를 이용한 오디오/음성 코덱

  • Sangkil Lee (School of Information Communication Eng., Chungbuk National University) ;
  • In-Sung Lee (School of Information Communication Eng., Chungbuk National University)
  • Received : 2023.03.15
  • Accepted : 2023.04.05
  • Published : 2023.04.28

Abstract

A high-quality audio/voice codec using the MDCT/IMDCT process can perfectly restore the current frame through an overlap-add process with the previous frame. In the overlap-add process, an algorithm delay equal to the frame length occurs. In this paper, we propose a MDCT/IMDCT process that reduces algorithm delay by using a variable phase shift in MDCT/IMDCT process. In this paper, a low-delay audio/speech codec was proposed by applying the low delay MDCT/IMDCT algorithm to the ITU-T standard codec G.729.1 codec. The algorithm delay in the MDCT/IMDCT process can be reduced from 20 ms to 1.25 ms. The performance of the decoded output signal of the audio/speech codec to which low-delay MDCT/IMDCT is applied is evaluated through the PESQ test, which is an objective quality test method. Despite of the reduction in transmission delay, it was confirmed that there is no difference in sound quality from the conventional method.

MDCT/IMDCT 과정을 사용하는 고품질 오디오/음성 코덱은 이전 프레임 과의 중첩-합(Overlap-add) 과정을 통해 현재 프레임을 완벽 복원 가능하다. 중첩-합 과정에서 프레임 길이 만큼의 알고리즘 지연이 발생하게 된다. 본 논문에서는 알고리즘 지연을 줄이기 위해 MDCT/IMDCT에 가변적인 위상변이를 사용하여 알고리즘 지연을 줄인 MDCT/IMDCT 과정을 제안한다. 가변 지연 MDCT/IMDCT알고리즘을 ITU-T 표준 코덱 G.729.1 코덱에 적용하여 저지연 오디오/음성 코덱을 제안하였다. MDCT/IMDCT 과정에서의 알고리즘 지연은 기존 20 ms에서 1.25ms 까지 감소시킬 수 있다. 저지연 MDCT/IMDCT를 적용한 오디오/음성 코덱의 복호화된 출력신호는 객관적 음질 시험 방법인 PESQ 시험을 통해 성능 평가하였다. 전송 지연이 감소 됨에도 불구하고 기존 방법과 음질 차이가 없음을 확인할 수 있었다.

Keywords

1. 서론

음성 통신의 전송 대역폭은 기존의 50 Hz ~7,000 Hz의 광대역(Wide Band) 음성에서 LTE나 BcN과 같은 고속통신망에서 소비자 요구를 충족시키기 위해 오디오 신호를 포함하는 20 Hz~14,000 Hz의 초광대역(Super Wide Band) 오디오로 전송 대역폭이 확장되고 있다[1][2]. 패킷교환망을 통한 음성 서비스는 기존의 회선 교환망에서 발생되었던 알고리즘 지연과 프로세싱 지연뿐만 아니라, 네트워크 상태에 따라 통신 지연이 추가적으로 발생하기 때문에 회선교환망을 이용한 음성 서비스보다 더 많은 지연이 발생하게 된다[3]. 패킷교환망을 이용하여 음성데이터를 전송하기 때문에 해커로부터 정보를 보호하기 위해 전송시 데이터 암호화 방법이 필요로 하게 되며 이는 더 큰 지연을 발생하게 된다[4]. 전송 지연이 길어지면 사용자가 불편함을 느끼게 되며 패킷교환망 음성 통신 서비스에서 알고리즘 지연은 코덱의 성능을 결정짓는 중요한 부분이 된다.

MDCT(Modified Discrete Cosine Transform)는 DCT-Ⅳ(Discrete Cosine Transform-IV)을 기반으로 만들어진 주파수 변환 방법으로 다양한 음성/오디오 코덱에서 사용되고 있다[5]-[7]. 그러나 영상 신호처리에 많이 사용되는 DCT 방법을 음성이나 오디오 전송에 사용할 때에는 몇 가지 문제가 발생하게 된다[8]. DCT나 FFT(Fast Fourier Transform)와 같은 주파수 변환 방법을 사용하여 50% 중첩- 합(Overlap-Add) 과정을 수행하면 코덱에서 처리해야 할 프레임 수가 증가되는 문제점이 발생하게 된다. 심리음향모델을 적용한 AAC[9]나 MPEG-Layer 3[10]와 같은 손실압축 오디오 코덱에서 DCT를 사용할 경우 신호가의 손실된 부분에서 인공음이 발생하여, 음질 저하가 발생하게 된다. 이와 같은 DCT의 문제점을 보완하기 위해 MDCT 방법이 개발되었다[11]. 하지만 MDCT는 DCT나 FFT와 다르게 IMDCT(Inverse Modified Discrete Cosine Transform)를 통해 원래의 신호로 완벽하게 복원되지 않는다. 따라서 신호를 완벽 복원하기 위해서 시간 영역 알리아싱 제거(Time Domain Aliasing Cancellation) 알고리즘을 사용되며 이 과정에서 프레임 크기 만큼의 알고리즘 지연이 발생하게 된다[12].

본 연구에서는 알고리즘 지연을 줄이기 위해 중첩 창의 크기 조절과 위상 편이를 사용한 MDCT/IMDCT 방법울 제안한다. 중첩 창의 크기를 임의로 선택하여 알고리즘 지연을 조절할 수 있다.

임베디드 가변비트율 코덱 방식인 G.729.1 코덱[13][14]은 기존의 통신 시스템에 대한 영향을 최소로 하면서 초광대역 음성 및 오디오 품질을 필요로 하는 응용분야에 사용 가능하다. G.729a 코덱을 사용하는 VoIP 시스템과의 호환성을 유지하기 위해 임베디드 형태의 분할대역 구조를 취하고 있으며 코어계층을 두고 그 비트열을 쌓아가면서 점진적으로 품질을 향상시킬 수 있는 구조로 구성된다.

본 연구에서는 제안된 저지연 MDCT/IMDCT를 G.729,1 오디오 코덱에 적용하여. 알고리즘 지연을 감소하는 방안을 제안한다. 중첩합의 길이를 변화하며 전송 지연을 조정 가능하며 겹쳐지는 구간에 따른 윈도우 함수를 제안한다. 제안된 저지연 G.729.1 코덱은 객관적인 음질 평가 방법을 통해 성능 시험한다.

2. 저지연 MDCT/IMDCT

2.1 저지연 MDCT/IMDCT의 정의

알리아싱을 제거하기 위해 MDCT 과정은 50 % 중첩합 과정을 요구하며 이 과정에서 알고리즘 지연이 발생한다. N 포인트 MDCT와 2N 포인트 IMDCT 과정은 식 Eq. (1)과 같이 주어진다.

\(\begin{aligned}\begin{array}{c}X(k)=\sqrt{\frac{2}{N}} \sum_{n=0}^{2 N-1} w(k) x(n) \cos ( \\ \left.\frac{(2 n+1+D)(2 k+1) \pi}{4 N}\right), k=0, \ldots, N-1 \\ \hat{x}(n)=w(n) \sqrt{\frac{2}{N}} \sum_{k=0}^{2 N-1} X(k) \cos ( \\ \left.\frac{(2 k+1+D)(2 k+1) \pi}{4 N}\right), n=0, \ldots, 2 N-1\end{array}\end{aligned}\)       (1)

여기서 X(k)은 N-point MDCT 계수를 나타내며, \(\begin{aligned}\hat{x}(n)\end{aligned}\)(n)은 IMDCT를 통해 복원된 시간 영역 신호이다. 기존의 MDCT 방법에서는 중첩-합 구간의 크기 D의 값을 프레임 크기 N으로 주어진다. 제안된 저지연 MDCT/IMDCT 알고리즘에서는 지연 변수 D를 Eq. (2)와 같이 주어진다.

\(\begin{aligned}D=\frac{N}{2^{d-1}}, d^{d-1}<N\end{aligned}\)       (2)

여기서 d는 양의 정수이다.

Eq. (1)을 행렬식으로 나타내면 Eq. (3)과 같이 나타낼 수 있다.

X = Mx       (3)

여기서 M은 N × 2N 크기의 MDCT 변환 행렬로 구성요소는 Eq. (4)와 같이 주어진다.

\(\begin{aligned} m(i, j)= & \cos \left[\frac{\pi}{2 N}(2 j+1+D)(2 i+1)\right] \\ & i=0,1 \ldots N-1 ; j=0,1, \ldots ., 2 N-1\end{aligned}\)       (4)

M은 행렬식으로 Eq. (5)와 같이 나타낸다.

\(\begin{aligned} M & =\sqrt{\frac{N}{2}}\left(C_{N}^{I V}\right)^{T} S^{T} P^{T} \\ & =\sqrt{\frac{N}{2}} C_{N}^{I V} S P^{T}\end{aligned}\)       (5)

여기서 CIVN의 구성 요소는 Eq. (6)과 같이 주어진다.

\(\begin{aligned} c_{N}^{I V}(i, j) & =\sqrt{\frac{2}{N}} \cos \left[\frac{\pi}{2 N}(2 i+1)(2 j+1)\right] \\ i & =0,1 \ldots N-1 ; j=0,1, \ldots ., 2 N-1\end{aligned}\)       (6)

그리고, S는 N × N 행렬로, P는 2N × 2N 로 다음과 같이 나타낼 수 있다.

\(\begin{aligned}S=\left(\begin{array}{cc}-I_{N / 2} & 0 \\ 0 & I_{N / 2}\end{array}\right), \quad P=\left(\begin{array}{cc}0 & I_{N / 2} \\ 0 & -J_{N / 2} \\ J_{N / 2} & 0 \\ I_{N / 2} & 0\end{array}\right)\end{aligned}\)

여기서 IN/2는 N/2 × N/2 단위행렬(Identity Matrix)이고 JN/2는 N/2 × N/2 반대각 행렬(Antidiagonal Matrix)이다. SPTx 는 Malvar의 순열을 사용하여 다음과 같이 나타낼 수 있다.

\(\begin{aligned}\begin{array}{l}s p[n]=\left(-x\left[n+\left(2 N-\frac{D}{2}\right)\right]-\right. \\ \left.x\left[\left(2 N-\frac{D}{2}\right)-1-n\right]\right) \quad n=0, \ldots, \frac{D}{2}-1 \\ s p[n]=\left(x\left[n-\frac{D}{2}\right]-\right. \\ \left.x\left[\left(2 N-\frac{D}{2}\right)-1-n\right]\right) \quad n=\frac{D}{2}, \ldots, D\end{array}\end{aligned}\)       (7)

따라서 저지연 MDCT 계수 X는 다음과 같은 행렬로 나타낼 수 있다.

\(\begin{aligned}X=\sqrt{\frac{N}{2}} C_{N}^{I V} S P^{T} x\end{aligned}\)       (8)

저지연 IMDCT 값은 \(\begin{aligned}\hat x\end{aligned}\)로 표현하며 Eq. (9)과 같은 행렬식으로 나타낼 수 있다.

\(\begin{aligned}\hat{x}=M^{T} X\end{aligned}\)       (9)

\(\begin{aligned}\hat{x}\end{aligned}\)는 다음과 같은 대칭 특성을 갖는다.

\(\begin{aligned}\begin{array}{c}\hat{x}\left(n+\left(2 N-\frac{D}{2}\right)\right)=\hat{x}\left(\left(2 N-\frac{D}{2}\right)-1-n\right), \\ n=0, \ldots, \frac{D}{2}-1 \\ \hat{x}\left(n+\frac{D}{2}\right)=-\hat{x}\left(\left(2 N-\frac{D}{2}\right)-1-n\right), \\ n=\frac{D}{2}, \ldots, D\end{array}\end{aligned}\)

이와 같은 대칭 특성을 이용하여 저지연 MDCT와 IMDCT 과정을 실행한다. 기존 MDCT의 대칭특성과 저지연 MDCT의 대칭특성은 그림 1과 같이 나타낼 수 있다. 그림 1은 저지연 MDCT를 이용하여 지연은 기존의 MDCT보다 N/2으로 줄였을 때 나타나는 대칭 특성으로 중첩-합 영역이 절반으로 감소하는 것을 볼 수 있다.

JBJTBH_2023_v16n2_69_f0001.png 이미지

그림 1. 저지연 MDCT/MDCT의 대칭특성

Fig. 1. Symmetric Characteristics of Low Delay MDCT/IMDCT

2.2 KBD 윈도우를 이용한 저지연 윈도우

저지연 MDCT는 기존의 MDCT와 다른 대칭 특성을 갖기 때문에 기존 MDCT에서 사용한 윈도우를 그대로 사용할 수 없다. 따라서 저지연 MDCT에 맞는 새로운 윈도우 함수를 제안한다. 저지연 MDCT에 사용하는 윈도우 함수는 KBD 윈도우 함수를 사용한다[15].

\(\begin{aligned}w(n)=\left\{\begin{array}{ll}0 & 0 \leq n<N-D \\ w_{K B}(n-N+D) & N-D \leq n<N \\ 1 & N \leq n<2 N-D \\ w_{K B}(n-2 N+2 D) & 2 N-D \leq n<2 N\end{array}\right.\end{aligned}\)

여기서 wKB는 KBD윈도우 함수를 나타낸다.

KBD 윈도우 함수는 Kaiser 윈도우 wk(n)을 이용하여 정의된다.

\(\begin{aligned}w_{K B}(n)=\left\{\begin{array}{ll}\sqrt{\frac{\sum_{j=0}^{n} w_{k}(j)}{\sum_{j=0}^{D} w_{k}(j)},} \quad 0 \leq n<D-1 \\ \sqrt{\frac{\sum_{j=0}^{2 D-1-n} w_{k}(j)}{\sum_{j=0}^{D} w_{k}(j)}}, \quad D \leq n<2 D\end{array}\right.\end{aligned}\)

여기서,

\(\begin{aligned}w_{k}(n)=\frac{I_{0}\left(\pi \alpha \sqrt{1-\left(\frac{2 n}{D}-1\right)^{2}}\right)}{I_{0}(\pi \alpha)}, 0 \leq n<D\end{aligned}\)

여기서 I0함수는 0차 베셀 함수로 Eq. (10)와 같이 정의된다.

\(\begin{aligned}I_{0}(x)=\sum_{k=0}^{\infty}\left(\frac{(x / 2)^{k}}{k !}\right)^{2}\end{aligned}\)       (10)

저지연 MDCT.IMDCT를 위한 윈도우 함수는 그림2에 나타나 있다.

JBJTBH_2023_v16n2_69_f0002.png 이미지

Fig. 2. Window Function of Overlap-Add Process

그림 2. 중첩-합 과정을 위한 윈도우함수

2.3 저지연 MDCT/IMDCT 전체 과정

저지연 MDCT와 저지연 IMDCT의 전체 과정은 그림 3에 나타나 있다. 그림 3의(a)에는 입력신호 x(n)와 저지연 윈도우를 나타내고 있으며, i는 프레임 인덱스를 나타낸다. 그림3(b)와 그림3(c)는 저지연 MDCT계수 값을 나타내며 그림3(d)와 그림3(e)는 저지연 IMDCT 값을 나타낸다. 그림3(d)와 그림3(e)의 \(\begin{aligned}\hat{x}_{i}\end{aligned}\)(n)은 원신호로 완벽 복원되지 않으며 다음과 같은 엘리어싱된 신호를 얻을 수 있다.

JBJTBH_2023_v16n2_69_f0003.png 이미지

그림 3. 저지연 MDCT/IMDCT 전체 과정 (a)입력 신호, (b)이전 프레임의 저지연 MDCT계수, (c)현재 프레임의 저지연 MDCT계수, (d)이전 프레임의 IMDCT 값, (e)현재 프레임의 IMDCT 값, (f) 중첩-합을 통한 완벽 복원된 신호

Fig. 3. Overall Process of LD-MDCT/IMDCT (a) Input Signal, (b) LD-MDCT Coefficients of Previous Frame, (c) LD-MDCT Coefficients of Present Frame, (d) IMDCT Values of Previous Frame, (d) IMDCT Values of Present Frame, (e) Perfectly Reconstructed Signal by Overlap-Add

\(\begin{aligned}\hat{x}_{i}(n)=\left\{\begin{array}{l}\hat{x}_{i}(n)-\hat{x}_{i}(2 N-D-1-n) n=0 \ldots, 2 N-D-1 \\ \hat{x}_{i}(n)+\hat{x}_{i}(4 N-D-1-n) n=2 N-D, \ldots 2 N-1\end{array}\right.\\\end{aligned}\)

엘리어싱 성분을 제거하기 위해 현재 프레임의 앞 부분은 이전 프레임의 look-ahead로 사용된 부분과 중첩-합을 통해 현재 프레임을 완벽하게 복원하게 되고, 뒷 부분은 프레임 앞쪽에 0으로 zero padding된 영역으로 인해 중첩-합 없이 원신호가 완벽 복원된다. 중첩-합 과정은 다음과 같은 과정을 통해 얻어진다.

\(\begin{aligned}\hat{x}_{i}^{r}(n)=\left\{\begin{array}{cc}\hat{x}_{i-1}(2 N-D+n) & \\ +\hat{x}_{i}(N-D+n) & n=0, \ldots, D-1 \\ \hat{x}_{i}(N+n) & n=D, \ldots, N-1\end{array}\right.\end{aligned}\)

여기서 \(\begin{aligned}{\hat{x_{i}}}^{r}\end{aligned}\)(n)는 완벽 복원된 최종 신호를 나타낸다.

3. 저지연 MDCT 오디오/음성 코덱

G.729.1은 CELP(Code Excited Linear Prediction), TDBWE, TDAC세 개의 모듈로 구성되어 있으며 그림 4과 그림 5는 G.729.1의 부호화기와 복호화기를 나타낸다[13]. 본 연구에서 부호화기의 MDCT와 복호화기의 IMDCT 부분을 저지연 MDCT/IMDCT를 사용한다. 8 kHz와 16 kHz의 입력 신호를 사용하며, 입력된 신호는 QMF(Quadrature Mirror Filter) 필터를 통과하며 저주파수 신호와 고주파수 신호로 나뉘게 된다. 저주파수 신호는 CELP 모듈을 통해 부호화 되고, CELP의 잔여신호는 저지연 MDCT를 통해 MDCT 계수를 복호화기로 전송하게 된다. 고주파수 신호는 TDBWE 모듈과 저지연 MDCT를 이용하여 부호화를 한다. 이와 같은 부호화 과정에서 프레임 길이는 20 ms 이며, MDCT look-ahead 1.25 ms, CELP의 LPC분석의 look-ahead 5 ms, QMF 3.9375 ms의 알고리즘 지연이 발생하여 총 30.1875 ms의 지연이 발생한다. 기존의 MDCT/IMDCT 방법을 사용하는 것보다 18.75 ms 알고리즘 지연을 줄일 수 있다.

JBJTBH_2023_v16n2_69_f0004.png 이미지

그림 4. G.729.1 부호화기 블록도

Fig. 4. Block Diagram of G.729.1 Encoder

JBJTBH_2023_v16n2_69_f0005.png 이미지

그림 5. G.729.1 복호화기 블록도

Fig. 5. Block Diagram of G.729.1 Decoder

4. 저지연 MDCT 오디오/음성 코덱의 성능

4.1 PESQ 시험을 통한 성능 평가

음질 시험 신호로는 성인 남성과 여성의 한국어 문장과 영어 문장을 사용하였다. 16kHz로 샘플링된 입력신호와 16 kbps의 전송률 환경에서 실험하였다. 표1은 지연변화에 따른 원신호와 복호화된 신호의 PESQ(Perceptual Evaluation of Speech Quality) 음질 시험[16] 결과를 나타낸다. 처음 20 ms의 지연은 기존의 MDCT를 사용한 결과이고, 나머지는 저지연 MDCT/IMDCT를 사용하여 지연을 10 ms에서 1.25 ms까지 감소시키면서 실험한 결과이다. 제안된 저지연 MDCT는 기존의 MDCT보다 짧은 영역 중첩-합과정을 통해 감소된 지연을 가지며 기존의 MDCT 방법과 같은 성능을 나타낸다. 표1에서 보듯이 지연이 감소됨에도 불구하고 객관적인 음질 테스트인 PESQ 값의 변화가 없음을 볼 수 있다.

표 1. PESQ 시험 결과

JBJTBH_2023_v16n2_69_t0001.png 이미지

Table 1. Results of PESQ Test

4.2 스펙트로그램을 이용한 성능 평가

저지연 MDCT를 이용하여 중첩-합 영역을 감소시킴에 따라 스펙트럼 파워가 작은 부분에서 인공음이 발생하는지 여부를 확인하기 위해 스펙트로그램을 사용하였다. 시험에 사용된 신호는 16 kHz로 샘플링된 한국인 남성음성 신호를 사용하였고, 프레임 길이는 20ms로 주어졌다. 그림 6에서 그림 9 까지 나타난 것과 같이 제안된 저지연 MDCT/IMDCT 알고리즘은 기존의 MDCT/IMDCT 방법과 마찬가지로 스펙트럼 파워가 작은 부분에서도 어떠한 인공음도 발생하지 않는 것을 볼 수 있다. 중첩-합 영역을 1.25ms로 낮추어도 기존의 MSCT/IMDCT 방법과 차이가 없음을 확인할 수 있다. 기존의 MDCT를 대신하여 AAC나 MP3와 같은 손실 압축 여러 오디오 코덱에 적용 가능하다.

JBJTBH_2023_v16n2_69_f0006.png 이미지

그림 6. 기존 MDCT/IMDCT(20ms 지연)를 사용한 출력 음성 스펙트로그램

Fig. 6. Spectrogrma of Output Speech Using the Conventional MDCT/IDCT(20 ms Delay)

JBJTBH_2023_v16n2_69_f0007.png 이미지

그림 7. 저지연 MDCT/IMDCT(10ms 지연)를 사용한 출력 음성 스펙트로그램

Fig. 7. Spectrogrma of Output Speech Using the Low Delay MDCT/IDCT (10ms Delay)

JBJTBH_2023_v16n2_69_f0008.png 이미지

그림 8. 저지연 MDCT/IMDCT(5ms 지연)를 사용한 출력 음성 스펙트로그램

Fig. 8. Spectrogrma of Output Speech Using the Low Delay MDCT/IDCT( 5 ms Delay)

JBJTBH_2023_v16n2_69_f0009.png 이미지

그림 9. 저지연 MDCT/IMDCT(1.25ms 지연)를 사용한 출력 음성 스펙트로그램

Fig. 9. Spectrogrma of Output Speech Using the Low Delay MDCT/IDCT( 1.25ms Delay)

5. 결론

MDCT는 DCT나 DFT와 다르게 원신호로 완벽 복원되지 않는다. 따라서 TDAC 기술을 사용하여 이전 프레임과의 중첩-합 과정을 통해 현재 프레임을 완벽 복원하게 된다. 하지만 이 과정에서 프레임 길이 N만큼의 알고리즘 지연이 발생하게 된다. 이러한 알고리즘 지연을 줄이기 위해 기존 MDCT/IMDCT에 가변적인 위상변이를 줌으로써 중첩-합 영역을 감소시켜 지연을 감소시키는 저지연 MDCT/IMDCT 알고리즘을 제안하였다. 저지연 MDCT는 기존의 MDCT와 대칭 특성이 다르기 때문에 KBD윈도우를 사용하였다.

저지연 MDCT 알고리즘을 MDCT기반의 오디오/음성 코덱인 G.729.1 코덱에 적용하여 알고리즘 지연을 18.75 ms까지 줄인 저지연 오디오/음성 코덱을 제안하였다. 저지연 MDCT를 적용한 오디오/음성 코덱의 성능은 원신호와 복호화된 신호의 PESQ 시험을 통해 성능 평가하였다. PESQ 시험 결과 지연을 감소시켰음에도 불구하고 기존 방법과 음질 차이가 없음을 확인할 수 있었다. 또한 스펙트로그램 분석을 통한 시각적인 성능평가를 수행하였다. 저지연 MDCT 방법을 사용하였으나 스펙트럼상에 아무런 손실이 없음을 확인할 수 있었다. 제안된 방법은 기존의 MDCT/IMDCT 방법보다 윈도우 함수의 복잡도는 증가하였으나 윈도우 함수 값을 메모리에 저장하여 사용한다면 계산량의 증가는 기존의 방법과 동일하게 계산되어진다. 저지연 MDCT/IMDCT방법은 다양한 MDCT/IMDCT 기반의 음성/오디오 코덱에 적용하여 알고리즘 지연을 효율적으로 감소시킬 수 있다.

References

  1. N, Souviraa-Labastie, S. Ragot, "On the applicability of SBC codec to support super-wideband speech in Bluetooth handsfree communications", Proc. of IEEE 18th International Workshop on Multimedia Signal Processing, pp.1-6, Sep., 2016.
  2. Thomas J. Kostas, etc. "Real-Time Voice Over Packet-Switched Networks", IEEE Network, Jan., 1998.
  3. M. Jelinek, "G.718: A new embedded speech and audio coding standard with high resilience to error-prone transmission channels", IEEE Communication Magazine, 117-123. 2009.
  4. Rolf Oppliger, "Security at the Internet layer", IEEE Computer, vol.31, pp. 43-47, Sep. 1998. https://doi.org/10.1109/2.708449
  5. Ning Guo, "Frequency Domain Long-term Prediction fo Low Delay General Audio Coding", IEEE Signal Procesing Letters, vol.28, pp.1185-1189, June, 2021. https://doi.org/10.1109/LSP.2021.3084503
  6. Chen Li, Xue Zhang, Tao Luo, Lihua Tian, "Audio Steganography Algorithm Based on Generic Algorithm for MDCT Coefficient Adjustment for AAC", 2020 IEEE International Symposium om Multimedia(ISM), pp.111-112, Dec., 2020.
  7. Nils Werner and Bernd Edler, "Perceptual Audio Coding with Adaptive Non-Uniform Time/Frequency Tilings Using Subband Merging and Time Domain Aliasing Reduction ", 2019 IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 740-744, May, 2019.
  8. L. Yaroslavsky, Y. Wang, "DFT, DCT, MDCT, DST and signal Fourier spectrum analysis", EUSIPCO 10th European Signal Processing Conference, pp. 1065-1068, Sep., 2000,
  9. ISO/IEC 13818-3: Information technology - Generic Coding of Moving Pictures and Associated Audio Information - Part 3: Audio, 1998.
  10. ISO/IEC 14496-3:2005/FPDAM9, "Enhanced Low Delay AAC", Apr., 2007.
  11. H.S. Malvar, "Lapped Transforms for Efficient Transform/Subband Coding", IEEE Trans. Acoustics, Speech, Signal Processing, vol. 38, no. 7, pp. 969-978, June, 1990.  https://doi.org/10.1109/29.56057
  12. J. P. Princen and A. B. Bradley, "analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation," IEEE Trans. Acoustics, Speech, Signal Processing, Vol.34, no.5, pp. 1153-1161,Oct., 1986. https://doi.org/10.1109/TASSP.1986.1164954
  13. S. Ragot et al. "ITU-T G.729.1: An 8-32 kbit/s Scalable Wideband Coder Bitstream Interoperable with G.729 for Wideband Telephony and Voice Over IP," IEEE int. Conf. Acoustics, Speech, Signal Processing Honolulu, USA, pp. IV:529-IV:532, Apr., 2007.
  14. ITU-T Rec. G.729.1, "An 8-32kbit/s Scalable Wideband Coder Bitstream Interoperable with G.729," June, 2006.
  15. Sankil Lee and Insung Lee, "A Low-Delay MDCT/IMDCT", ETRI Journal, Vol 35, no.5, pp.939-942, Oct., 2013, https://doi.org/10.4218/etrij.13.0213.0087
  16. ITU-T Recommendation, "Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs," ITU-T Recommendation , Feb., 2001.