DOI QR코드

DOI QR Code

Data Augmentation for DNN-based Speech Enhancement

딥 뉴럴 네트워크 기반의 음성 향상을 위한 데이터 증강

  • Received : 2019.04.05
  • Accepted : 2019.06.10
  • Published : 2019.07.31

Abstract

This paper proposes a data augmentation algorithm to improve the performance of DNN(Deep Neural Network) based speech enhancement. Many deep learning models are exploring algorithms to maximize the performance in limited amount of data. The most commonly used algorithm is the data augmentation which is the technique artificially increases the amount of data. For the effective data augmentation algorithm, we used a formant enhancement method that assign the different weights to the formant frequencies. The DNN model which is trained using the proposed data augmentation algorithm was evaluated in various noise environments. The speech enhancement performance of the DNN model with the proposed data augmentation algorithm was compared with the algorithms which are the DNN model with the conventional data augmentation and without the data augmentation. As a result, the proposed data augmentation algorithm showed the higher speech enhancement performance than the other algorithms.

Keywords

1. 서론

휴대폰, 전화기, 음성 인식 스피커, 보청기 등 음성과 관련된 장치들은 주변 잡음에 따라 성능이 저하될수 있기 때문에 잡음을 제거하는 전처리 기술인 음성 향상 기술의 사용이 필수적이다. 때문에 스펙트럼 차감법(spectral subtraction)[1]부터 위너 필터링(Wie-nerfiltering)[2], 서브스페이스 방법(subspaceme-thods)[3], 칼만 필터링(Kalmanfiltering)[4] 까지 다양한 음성향상 알고리즘들이 연구되어 왔다. 최근에는 딥 뉴럴 네트워크(deepneuralnetwork)를 기반으로 하는 음성 향상 알고리즘[5]이 우수한 성과를 보여주고 있다.

잘 훈련된 딥 뉴럴 네트워크 모델을 만들기 위해서는 많은 양의 훈련 데이터를 필요로 하지만 물리적으로 데이터의 양은 한정되어 있으며, 데이터의 수집에는 많은 비용과 시간을 필요로 한다. 때문에 데이터가 한정된 상황에서 성능을 높일 수 있는 다양한 기술들이 연구되고 있으며, 가장 대표적으로 데이터를 가공하여 데이터의 양을 증대시키는 방법인 데이터 증강(dataaugmentation) 방법이 있다. 본 논문에서는 음성의 공명 주파수이자 언어의 명료도를 관장하는 포먼트 주파수에 가중치를 부여하는 포먼트 강화(formantenhancement)를 이용하여 훈련 데이터의 양을 증대시키는 데이터 증강 알고리즘을 연구하였다.

제안한 데이터 증강 알고리즘을 사용하여 훈련된딥 뉴럴 네트워크 모델은 객관적 음질 평가 방법인 ITU-T P.862 PESQ(Perceptual Evaluation of Speech Quality)[6]와 명료도 평가 방법인 STOI(Short Time Objective Intelligibility)[7]를 사용하여 음성 향상 성능을 평가 하였다. 그 결과 본 논문에서 제안한 포먼트 강화를 이용한 데이터 증강 알고리즘을 사용한 경우 기존의 데이터 증강 알고리즘과 데이터 증강 알고리즘을 사용하지 않은 경우와 비교해더 높은 음성 향상 성능을 보여주었다.

2. 이론

2.1 딥 뉴럴 네트워크 기반의 음성 향상

딥 뉴럴 네트워크 기반의 음성 향상 방법은 Fig. 1에서 확인 할 수 있듯이 크게 훈련을 하는 훈련 단계(training stage)와 훈련된 모델을 기반으로 노이즈를 제거하여 음성 품질을 향상 시키는 향상 단계(enhancementstage)로 나누어진다[5]. 훈련 단계에서는 잡음이 존재하는 음성 신호와 잡음이 존재하지 않는 깨끗한 음성 신호를 각각 입력 특징 벡터와 목표 특징 벡터로 사용하여 매핑 기능을 훈련하며, 평균제곱오차(mean square error) 손실함수를 사용하여 보다 정확하게 잡음을 추정 할 수 있도록 훈련시킨다. 향상 단계에서는 앞서 훈련시킨딥 뉴럴 네트워크 모델을 사용하여 잡음이 존재하는 음성에서 잡음을 추정하고 제거하여 향상된 음성 신호를 얻을 수 있다.

본 논문에서는 딥 뉴럴 네트워크 모델의 훈련 단계에서 포먼트 강화를 이용한 데이터 증강 알고리즘을 사용하여 음성 향상의 성능을 향상 시킬 수 있는 방법을 제안하였다.

2.2 기존의 데이터 증강 알고리즘

딥 뉴럴 네트워크의 성능을 높이기 위해서는 충분한 양의 훈련 데이터가 필수적이다. 하지만 물리적으로 데이터의 양은 한정되어 있으며 더 많은 데이터의 수집은 곧 많은 시간과 비용이 소요됨을 의미한다.

때문에 이미지 분류부터 음성과 음악 분류, 의학 이미지 분류[8] 까지 다양한 딥 러닝 분야에서 훈련 데이터를 가공하여 유사한 데이터를 생성하는 데이터증강 방법을 사용하여 딥 뉴럴 네트워크의 성능을 높이고 있다.Fig.2는 이미지 분류를 위한 딥 뉴럴 네트워크에서 주로 사용하는 데이터 증강 알고리즘의 예시를 나타내고 있다.1개의 자동차 이미지 데이터에 다양한 효과를 적용하여 원본 대비 5배로 증강시켰다.

음성인식 또는 음성분류 같은 음성 딥러닝 분야에서의 데이터 증강 방법으로는 VTLP(Vocal Track Length Perturbation)[9], 피치 변경(pitch perturba-tion)과 다이나믹레인지 변경(dynamic range per-turbation)[10], 속도 변경(speedperturbation)과 템포 변경(tempoperturbation)[11] 등의 다양한 방법들이 사용되어 왔다. 다수 논문의 실험 결과에 따르면 다음과 같은 두 가지 알고리즘이 다른 알고리즘에 비해 높은 성능을 보여주었다.

MTMDCW_2019_v22n7_749_f0001.png 이미지

Fig. 1. A block diagram of the speech enhancement based on DNN. (a) Training stage, (B) Enhance- ment stage.

MTMDCW_2019_v22n7_749_f0002.png 이미지

Fig. 2. Example of data augmentation method using car image.

MTMDCW_2019_v22n7_749_f0003.png 이미지

Fig. 3. Formant on speech waveform and spectrogram.

2.2.1 속도 변경 기반의 데이터 증강

음성 신호를 재 샘플링 하여 신호의 속도를 수정하는 방법이다. 사운드 프로세싱 프로그램인 SoX 툴을 사용하여 구현이 가능하다. 속도를 원래 속도의 90%와 110%로 수정한 데이터를 추가하여 원본 대비 3배로 증강 시킨 경우 가장 좋은 성능을 보여주었다.

2.2.2 템포 변경 기반의 데이터 증강

음성 신호의 피치와 스펙트럼이 변하지 않도록 주의하면서 신호의 템포 즉 말의 속도를 수정하여 데이터를 증강 시키는 방법이다. 속도 변화 방법과 동일하게 SoX 툴을 사용하여 구현이 가능하다. 템포를원래 속도의 90%와 110%로 수정한 데이터를 추가하여 원본 대비 3배로 증강 시킨 경우 가장 띄어난 성능을 보여주었다.

2.3 포먼트 강화

인간의 성대에서 형성된 음성은 성도(vocaltract)를 통과하면서 공명이나 간섭 등의 영향을 받게 되어진폭이 일정하게 커지고 작아지는 것을 반복한다. 이러한 일련의 변화에서 진폭과 에너지가 높은 정점을 포먼트 주파수(formantfrequency)[12]라 하며, 만들어진 순서에 따라 F1,F2,F3,...,Fn으로 표현한다.

사람에 따라서 조금씩 차이가 있지만 일반적으로 3-5개 정도의 포먼트가 형성된다.Fig.3은 특정 화자의 발화 파형과 스펙트로그램을 나타내고 있다. 특정 주파수 대역에 형성되어 있는 에너지군인 포먼트를 확인 할 수 있다.

Table1은 Peterson&Barney가 총 76명의 사람을 대상으로 연구한 영어 모음과 성별에 따른 포먼트 주파수를 나타내고 있다[13].F1 주파수는 270-860Hz 구간에,F2 주파수는 840-2790Hz 구간에,F3 주파수는 2240-3310Hz 구간에 분포되어 있는 것을 확인 할 수 있다.F1,F2 포먼트는 모음을 인식하는데 영향을 미치기 때문에 모음 음형대(vowelformant)라고 부르며,F3 이후의 포먼트들은 목소리의 특성에 영향을 미치기 때문에 가수 음형대(singer ‘sfar-mant)라고 부른다.

보청기에서는 음성의 인지도를 높이기 위하여 음성 데이터에서 포먼트를 찾아내어 가중치를 부가하는 포먼트 강화(formantenhancement)를 사용한다. 본 논문에서는 Peterson&Barney가 연구한 F1,F2

포먼트 주파수 구간을 기반으로 포먼트 강화를 사용하여 데이터를 증강하는 방법을 연구하였다.

Table 1. F1, F2, F3 frequencies by gender and English vowels studied by Peterson & Barney

MTMDCW_2019_v22n7_749_t0001.png 이미지

3. 제안한 방법

3.1 제안한 포먼트 강화를 이용한 데이터 증강 알고리즘

첫 번째로 데이터 증강에 사용할 포먼트를 선택하였다. F3는 음소의 음질과 음색을 결정하지만 F1, F2에 비해 언어의 인지에 미치는 영향은 크지 않다고 알려져 왔다.F3의 사용 여부를 결정하기 위하여 F1, F2를 증강시켜 원본 대비 3배로 증강시킨 경우와,F1, F2, F3를 증강시켜 원본 대비 4배로 증강시킨 경우로 나누어 딥 뉴럴 네트워크를 각각 훈련시킨 후 성능을 비교해 보았다. 그 결과 Table2에서 확인할 수 있듯이 F1,F2를 증강시킨 경우가 F1, F2, F3를 증강시킨 경우보다 총 6개 잡음 중 5개 잡음에서 더 높은 잡음 제거 성능을 보였다.

두 번째로 F1,F2 포먼트 강화를 위하여 적용할 최적의 가중치를 연구하였다. 데이터 증강 알고리즘에서 너무 미세한 변화는 효과가 없고, 큰 변화는 도리어 왜곡으로 작용해 오히려 성능을 떨어뜨리는 원인이 될 수 있다. 때문에 가장 효과적으로 성능을 높일 수 있는 가중치를 찾는 것이 중요하다. 가장 효과적인 가중치를 찾기 위하여 F1,F2 포먼트 주파수 구간에 1.3에서 3.5까지 다양한 가중치를 적용한 훈련 데이터를 준비하여 딥 뉴럴 네트워크를 훈련 후 성능을 비교하였다. 그 결과 Table3에서 확인 할 수 있듯이 1.5의 가중치를 적용한 경우 다른 가중치에 비해 높은 향상율을 확인 할 수 있었다.

Table 2. The average PESQ improvement rate of the enhanced speech by using F1, F2 augmentation and F1, F2, F3 augmentation.

MTMDCW_2019_v22n7_749_t0002.png 이미지

Table 3. The average PESQ improvement rate by weight

MTMDCW_2019_v22n7_749_t0003.png 이미지

MTMDCW_2019_v22n7_749_f0004.png 이미지

Fig. 4. The weight applied to the formant frequency. (a) Weight for F1 formant enhancement, (b) Weight for F2 formant enhancement

Fig.4는 포먼트 주파수에 최종적으로 적용된 가중치를 나타내고 있다. 포먼트 향상을 위해 필터 뱅크를 사용하여 F1에 해당하는 270-860Hz 구간에 1.5의 가중치를 부여 하였으며, F2에 해당하는 840-2790Hz 구간에도 1.5의 가중치를 적용 하였다. 갑작스러운 변화로 인한 데이터의 왜곡이 발생하는 것을 방지하기 위하여 경계 부분의 주파수 대역에도 1.0에서 1.5의 가중치를 적용 하였다.

MTMDCW_2019_v22n7_749_f0005.png 이미지

Fig. 5. A block diagram of data augmentation using the formant enhancement.

Fig.5는 최종적으로 제안한 포먼트 강화를 이용한 데이터 증강 알고리즘의 블록도를 나타내고 있다.딥 뉴럴 네트워크의 훈련을 위하여 준비된 잡음이 존재하지 않는 깨끗한 음성 데이터와 잡음이 존재하는 음성 데이터에 F1가 강화된 데이터와 F2가 강화된 데이터가 각각 더해져 전체 데이터의 양은 각각원본 대비 3배로 증가하였다.

3.2 실험 방법

본 논문에서 제안한 데이터 증강 알고리즘을 사용한 훈련 데이터, 기존의 음성 딥 러닝 분야에서 사용된 데이터 증강 알고리즘을 사용한 훈련 데이터, 데이터 증강 알고리즘을 사용하지 않은 훈련 데이터를 사용하여 딥 뉴럴 네트워크 모델을 훈련 후 테스트 데이터를 사용하여 음성 향상 성능을 각각 비교하였다.

실험은 다양한 딥 뉴럴 네트워크 모델을 사용하여 훈련과 평가가 가능한 speechenhancement toolkit [14]을 기반으로 진행하였다. 딥 뉴럴 네트워크 모델로는 최근 음성 향상과 음성 인식 등의 분야에서 높은 성과를 보여주고 있는 LSTM(Long Short Term Memory)[15]을 사용하여 훈련하였다. LSTM은 RNN(Recurrent Neural Network)의 변형 모델로서 메모리 셀(memorysell)과 셀 스테이트(sellstate)을 사용하여 오래된 정보를 지속적으로 유지할 수 있도록 설계되었다. 때문에 학습 초기에 입력된 정보가 학습의 마지막까지 영향을 줄 수 있는 이점이 있다.

3.2.1 훈련 데이터

딥 뉴럴 네트워크의 훈련을 위해 약 6시간(7,000문장) 분량의 잡음이 존재하지 않는 깨끗한 음성 데이터와 잡음이 존재하는 음성 데이터를 각각 준비하였다. 잡음이 존재하지 않는 깨끗한 음성 데이터는 TIMIT[16] 음성 데이터를 그대로 사용 하였으며, 잡음이 존재하는 음성 데이터의 경우 TIMIT 음성 데이터에 NOISEX-92[17]의 잡음 데이터를 이용하여 음성 신호를 오염시켰다. 먼저 NOISEX-92의 14가지 잡음 데이터에서 무작위로 1개의 잡음을 선택 한후 -5dB,0dB,5dB,10dB,15dB,20dB 중 무작위로 1개의 SNR 레벨을 선택하여 오염시켰다. 이후 본 논문에서 제안한 포먼트 향상을 이용한 데이터 증강알고리즘과 기존 음성 딥 러닝 분야에서 사용된 속도변경, 템포 변경을 이용한 데이터 증강 알고리즘을 사용한 훈련 데이터를 생성하였다.

Table4는 딥 뉴럴 네트워크의 훈련을 위해 최종적으로 준비된 4가지 훈련 데이터를 나타내고 있다. 첫 번째로 데이터 증강을 사용하지 않은 훈련 데이터가 준비되었다. 약 6시간(7,000문장) 분량의 깨끗한 음성 데이터와 잡음이 존재하는 음성 데이터가 각각준비되었다. 두 번째로 본 논문에서 제안한 포먼트 향상을 이용한 데이터 증강 알고리즘을 사용한 훈련 데이터를 제작하였다.F1와 F2 포먼트 향상을 통하여 원본데이터 대비 3배 증강된 약 18시간(21,000문장) 분량의 깨끗한 음성 데이터와 잡음이 존재하는 음성 데이터가 각각 준비되었다. 세 번째로 속도 변경을 이용한 데이터 증강 알고리즘을 사용한 훈련 데이터를 제작하였다. 속도를 원본 대비 90%와 110%로 변경하여 원본 데이터 대비 3배 증강된 약 18시간(21,000문장) 분량의 데이터가 준비되었다. 마지막으로 템포 변경을 이용한 데이터 증강 알고리즘의 사용한 훈련 데이터를 제작하였다. 템포를 원본 대비 90%와 110%로 변경하여 원본 데이터 대비 3배 증강된약 18시간(21,000문장) 분량의 데이터가 준비되었다.

3.2.2 테스트 데이터

훈련이 끝난 모델의 잡음 제거 성능 테스트를 위하여 TIMIT 데이터를 NOISEX-92의 잡음 데이터로 오염시켰다. 먼저 TIMIT에서 10개의 문장을 무작위로 선택한 후 babble,factory,volvo,white 등14개의 잡음을 0dB,5dB,10dB의 3가지 SNR 레벨로 적용시켜 총 420개의 테스트 데이터를 준비하였다.

3.2.3 객관적 음질 및 명료도 평가 방법

본 논문에서 제안한 알고리즘과 기존 알고리즘을 성능을 평가하기 위하여 가장 대표적인 객관적 음질평가 방법인 ITU-TP.862PESQ(Perceptual Evalu-ation of Speech Quality)[6]와 명료도의 평가 방법인 STOI(Short Time Objective Intelligibility)[7]를 사용하였다.

PESQ는 인간의 지각 요소를 기초로 한 주관적인 음질을 객관적 수치로 평가 할 수 있기 때문에 음질을 평가하는 객관적인 방법으로 널리 사용되고 있다. 점수의 범위는 -0.5에서 4.5까지의 값을 가지게 된다. 점수가 4.5에 가까울수록 음질이 좋음을 의미하며, -0.5에 가까울수록 음질이 나쁨을 의미한다.

STOI는 기준 신호와 테스트 신호의 짧은 구간을 시간-주파수 영역에서 주파수 가중치를 두어 상관도를 계산하는 방법으로 인간의 음성 청취 관점에서 평가되는 음성의 명료도와 높은 상관관계가 있는 것으로 알려져 있다. 점수의 범위는 0에서 1까지의 값을 가지게 된다.1에 가까울수록 음성의 명료도가 좋음을 의미하고,0에 가까울수록 음성의 명료도가 나쁨을 의미한다.

Table 4. Four training data sets prepared for the training of DNN

MTMDCW_2019_v22n7_749_t0004.png 이미지

4. 실험 결과 및 고찰

Table5는 잡음으로 오염된 음성신호, 데이터 증강 없이 딥 뉴럴 네트워크를 사용하여 음성 향상된 신호, 본 논문에서 제안한 포먼트 향상을 이용한 데이터 증강 알고리즘을 사용하여 음성 향상된 신호, 속도 변경을 이용한 데이터 증강 알고리즘을 사용하여 음성 향상된 신호, 템포 변경을 이용한 데이터 증강 알고리즘을 사용하여 음성 향상된 신호의 잡음별PESQ 점수를 나타낸다. 결과를 살펴보면 본 논문에서 제안한 포먼트 향상을 이용한 데이터 증강 알고리즘을 사용한 경우 14개 잡음 중 12개의 잡음에서, 속도 변경과 템포 변경을 이용한 데이터 증강 알고리즘의 경우 각각 1개의 잡음에서 다른 알고리즘에 비해 우수한 잡음 제거 성능을 보여 주었다. 전체 실험에서 제안한 알고리즘의 평균 PESQ 향상율은 27.4%로 가장 높은 성능을 보여 주었으며, 템포 변경을 이용한 알고리즘의 경우 23.4%, 속도 변경을 이용한 알고리즘의 경우 21.7%, 데이터 증강을 사용하지 않은 경우 21.2%로 그 뒤를 이었다.

Table 5. Evaluation results using PESQ

MTMDCW_2019_v22n7_749_t0005.png 이미지

Table 6. Evaluation results using STOI Noise type Noisy W

MTMDCW_2019_v22n7_749_t0006.png 이미지

Table6은 각 신호별 STOI 점수를 나타낸다. 결과를 살펴보면 본 논문에서 제안한 포먼트 향상을 이용한 데이터 증강 알고리즘을 사용한 경우 14개 잡음중 9개의 잡음에서, 템포 변경을 이용한 데이터 증강알고리즘의 경우 3개의 잡음에서 다른 알고리즘에 비해 우수한 잡음 제거 성능을 보여 주었다. machi-negun 잡음의 경우 모든 알고리즘에서 음성 향상 이후 STOI 점수가 오히려 악화되었는데 짧은 구간을 분할하여 평가하는 방법상의 한계로 인한 문제로 추정된다.

전체 실험에서 제안한 알고리즘의 평균 STOI 향상율은 5.2%로 가장 높은 성능을 보여 주었으며, 템포 변경을 이용한 경우 4.9%, 데이터 증강을 사용하지 않은 경우 3.7%, 속도 변경을 이용한 경우 3.3%,로 그 뒤를 이었다.

5. 결론

본 논문에서는 음성의 공명 주파수이자 언어의 명료도를 영향을 미치는 포먼트 주파수에 가중치를 부여하는 포먼트 강화를 이용하여 훈련 데이터의 양을증대시키는 데이터 증강 알고리즘이 제안하였다. 결과적으로 PESQ 테스트에서는 총 14개중 12개의 잡음 환경에서,STOI 테스트에서는 총 14개중 9개의 잡음 환경에서 데이터 증강 알고리즘 사용하지 않거나 기존의 데이터 증강 알고리즘을 사용하여 훈련한 경우 보다 높은 음질 및 명료도 평가 지수를 얻을 수 있었다. 각 평가 지표별 음성향상 전후의 점수를 비교한 경우 PESQ의 경우 평균 27.4%,STOI의 경우 5.2% 향상되어 데이터 증강 알고리즘 사용하지 않거나 기존의 데이터 증강 알고리즘을 사용하여 훈련한 경우 보다 높은 점수 향상율을 보여주었다.

destroyerengine을 포함한 일부 잡음의 경우 제안한 데이터 증강 알고리즘 보다 속도와 템포 변경 기반의 데이터 증강 알고리즘을 사용한 경우에 더 높은 음성 향상 성능을 보여 주었다. 주기성 잡음(periodic noise)의 경우 주파수 영역에서의 데이터 증강 알고리즘 보다는 시간 영역에서의 데이터 증강 알고리즘이 더 효과적인 것으로 추정된다. 잡음 특성별로 최적화된 데이터 증강 방법에 대한 연구가 진행된다면추가적인 성능 향상이 가능할 것으로 예상된다.

본 연구의 가장 큰 의의는 많은 시간과 비용이 소모되는 데이터의 수집이나 추가적인 컴퓨팅 파워의 투입 없이도 제안한 데이터 증강 알고리즘만으로 음성 향상의 성능을 높일 수 있었다는 것이다. 본 연구가 적은 훈련 데이터로도 빠른 훈련과 최상의 성능을 보장해야 하는 인공지능 보청기나 음성인식 스피커등의 분야에서 좋은 역량을 발휘 할 것으로 기대된다.

References

  1. S. Boll, “Suppression of Acoustic Noise in Speech Using Spectral Subtraction,” IEEE Transactions on Acoustic, Speech, and Signal Processomg, Vol. ASSP-27, No. 2, pp. 113-120, 1979. https://doi.org/10.1109/TASSP.1979.1163209
  2. P. Scalart and J.V. Filho, "Speech Enhancement Based on a Priori Signal to Noise Esti-mation," Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. 629-632, 1996.
  3. Y. Ephraim and H.L. Van Trees, "A Signal Subspace Approach for Speech Enhancement," Proceedings of 1993 IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. 355-358, 1993.
  4. K.K. Paliwal and A. Basu, "A Speech Enhancement Method Based on Kalman Filtering," Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. 177-180, 1987.
  5. Y. Xu, J. Du, L. Dai, and C. Lee, “An Experimental Study on Speech Enhancement Based on Deep Neural Networks,” IEEE Signal Processing Letters, Vol. 21, No. 1, pp. 65-68, 2014. https://doi.org/10.1109/LSP.2013.2291240
  6. ITU-T P.862, Perceptual Evaluation of Speech Quality (PESQ), an Objective Method for End-to-End Speech Quality Assessment of Narrow-band Telephone Networks and Speech Codecs, 2001.
  7. C.H. Taal, R.C. Hendrilks, R. Heusdens, and J. Jensen, “An Algorithm for Intelligibility Prediction of Time Frequency Weighted Noisy Speech,” IEEE Transaction on Audio, Speech, and Language Processing, Vol. 19, No. 7, pp. 2125-2136, 2011. https://doi.org/10.1109/TASL.2011.2114881
  8. T. Tran, J. Park, O. Kwon, K. Moon, S. Lee, K. Kwon, et al., “Classification of Leukemia Disease in Peripheral Blood Cell Images Using Convolutional Neural Network,” Journal of Korea Multimedia Society, Vol. 21, No. 10, pp. 1150-1161, 2018. https://doi.org/10.9717/KMMS.2018.21.10.1150
  9. N. Jaitly and G.E. Hinton, "Vocal Tract Length Perturbation (VTLP) Improves Speech Recognition," Proceedings of International Conference on Machine Learning Workshop on Deep Learning for Audio, Speech and Language, pp. 925-660, 2013.
  10. J. Salamon and J.P. Bello, “Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification,” IEEE Signal Processing Letters, Vol. 24, No. 3, pp. 279-283, 2017. https://doi.org/10.1109/LSP.2017.2657381
  11. T. Ko, V. Peddinti, D. Povey, and S. Khudanpur, "Audio Augmentation for Speech Recognition," Proceeding of Sixteenth Annual Conference of the International Speech Communication Association, pp3586-3589, 2015.
  12. L.J. Raphael, G.J. Borden, and K.S. Harris, Speech Science Primer: Physiology, Acoustics, and Perception of Speech: Sixth Edition, Lippincott Williams and Wilkins, Philadelphia, United States, 2012.
  13. D. Maurer, Acoustics of the Vowel-Preliminaries, Peter Lang AG, International Academic Publishers, Bern, Switzerland, 2016.
  14. J. Kim and M. Hahn, “Speech Enhancement Using a Two-Stage Network for an Efficient Boosting Strategy,” IEEE Signal Processing Letters, Vol. 26, No. 5, pp. 770-774, 2019. https://doi.org/10.1109/LSP.2019.2905660
  15. A. Graves, A. Mohamed, and G. Hinton, "Speech Recognition with Deep Recurrent Neural Networks," Proceeding of 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 6645-6649, 2013.
  16. J.S. Garofolo, L.F. Lamel, W.M. Fisher, J.G. Fiscus, and D.S. Pallett, "DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus CD-ROM," National Institute of Standards and Technology, 1993.
  17. A. Varga and H.J.M. Steeneken, “Assessment for Automatic Speech Recognition II: Noisex-92: A Database and an Experiment to Study the Effect of Additive Noise on Speech Recognition Systems,” Speech Communication, Vol. 12, No. 3, pp. 247-251, 1993. https://doi.org/10.1016/0167-6393(93)90095-3