• 제목/요약/키워드: Noisy Speech

검색결과 395건 처리시간 0.022초

Class-Based Histogram Equalization for Robust Speech Recognition

  • Suh, Young-Joo;Kim, Hoi-Rin
    • ETRI Journal
    • /
    • 제28권4호
    • /
    • pp.502-505
    • /
    • 2006
  • A new class-based histogram equalization method is proposed for robust speech recognition. The proposed method aims at not only compensating the acoustic mismatch between training and test environments, but also at reducing the discrepancy between the phonetic distributions of training and test speech data. The algorithm utilizes multiple class-specific reference and test cumulative distribution functions, classifies the noisy test features into their corresponding classes, and equalizes the features by using their corresponding class-specific reference and test distributions. Experiments on the Aurora 2 database proved the effectiveness of the proposed method by reducing relative errors by 18.74%, 17.52%, and 23.45% over the conventional histogram equalization method and by 59.43%, 66.00%, and 50.50% over mel-cepstral-based features for test sets A, B, and C, respectively.

  • PDF

SPLICE 방법에 기반한 잡음 환경에서의 음성 인식 성능 향상 (Performance Improvement ofSpeech Recognition Based on SPLICEin Noisy Environments)

  • 김종현;송화진;이종석;김형순
    • 대한음성학회지:말소리
    • /
    • 제53호
    • /
    • pp.103-118
    • /
    • 2005
  • The performance of speech recognition system is degraded by mismatch between training and test environments. Recently, Stereo-based Piecewise LInear Compensation for Environments (SPLICE) was introduced to overcome environmental mismatch using stereo data. In this paper, we propose several methods to improve the conventional SPLICE and evaluate them in the Aurora2 task. We generalize SPLICE to compensate for covariance matrix as well as mean vector in the feature space, and thereby yielding the error rate reduction of 48.93%. We also employ the weighted sum of correction vectors using posterior probabilities of all Gaussians, and the error rate reduction of 48.62% is achieved. With the combination of the above two methods, the error rate is reduced by 49.61% from the Aurora2 baseline system.

  • PDF

독립성분분석을 이용한 강인한 음성인식 (Robust Speech Recognition Using Independent Component Analysis)

  • 임형규;이창기
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권2호
    • /
    • pp.269-274
    • /
    • 2004
  • 기존 음성 인식의 실세계 적용에서 큰 문제점은 잡음이다. 본 논문에서는 잡음이 섞인 음성 신호로부터 잡음 성분을 분리해 내는 방법을 제안한다. 이 방법은 잡음이 섞인 음성 신호에 독립성분분석(ICA:Independent Component Analysis)을 사용한 암묵신호 분리(blind source separation)를 적용하여 잡음 성분을 제거하게 된다. 잡음이 혼합된 음성 신호에 독립성분분석을 전처리(preprocessing) 과정에 이용함으로써 인식성능을 향상시킬 수 있다. 깨끗한 음성 신호에 음악과 거리잡음을 섞었을 경우 인식률이 잡음 없는 음성의 인식률보다 각각 최대 14.98%, 13.78%까지 저하되었다. 그러나 독립성분분석으로 복원된 음성의 경우 잡음 없는 음성의 인식률 수준(각각 97.39%, 96.49%)으로 나타났으며, 독립성분분석을 이용한 음성의 잡음 제거가 인식률 향상에 좋은 결과를 가져옴을 확인 할 수 있다.

  • PDF

결정적/확률적 요소로의 음성 분해와 심리음향 모델 기반 잡음 제거 기법 (Speech Enhancement with Decomposition into Deterministic and Stochastic components and Psychoacoustic Model)

  • 조석환;유창동
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2007년도 하계종합학술대회 논문집
    • /
    • pp.301-302
    • /
    • 2007
  • A speech enhancement algorithm based on both a decomposition of speech into deterministic and stochastic components and a psychoacoustic model is proposed. Noisy speech is decomposed into deterministic and stochastic components, and then each component is enhanced preserving its individual characteristics. A psychoacoustic model is taken into account when enhancing the stochastic component. Simulation results show that the proposed algorithm performs better than some of the more popular algorithms.

  • PDF

Speech Enhancement Based on Psychoacoustic Model

  • Lee, Jingeol;Kim, Soowon
    • The Journal of the Acoustical Society of Korea
    • /
    • 제19권3E호
    • /
    • pp.12-18
    • /
    • 2000
  • Psychoacoustic model based methods have recently been introduced in order to enhance speech signals corrupted by ambient noise. In particular, the perceptual filter is analytically derived where the frequency content of the input noisy signal is made the same as that of the estimated clean signal in auditory domain. However, the analytical derivation should rely on the deconvolution associated with the spreading function in the psychoacoustic model, which results in an ill-conditioned problem. In order to cope with the problem associated with the deconvolution, we propose a novel psychoacoustic model based speech enhancement filter whose principle is the same as the perceptual filter, however the filter is derived by a constrained optimization which provides solutions to the ill-conditioned problem. It is demonstrated with artificially generated signals that the proposed filter operates according to the principle. It is shown that superior performance results from the proposed filter over the perceptual filter provided that a clean speech signal is separable from noise.

  • PDF

주행중인 자동차 환경에서의 음성인식 연구 (A Study on Speech Recognition in a Running Automobile)

  • 양진우;김순협
    • 한국음향학회지
    • /
    • 제19권5호
    • /
    • pp.3-8
    • /
    • 2000
  • 본 논문은 주행중인 자동차 환경에서의 음성인식에 대하여 연구하였다. 여기에서 사용한 기준패턴(reference pattern)은 DMS(Dynamic Multi-Section)이며, 인식율을 높이기 위하여 2모델을 제안하였다. 또한 가변적인 차량의 잡음환경에 강인하기 위하여 일반주행(80km/h 이내), 고속주행(80km/h 이상)등으로 나누었으며 차량의 잡음에 따라 자동으로 선택하도록 하였다. 음성의 특징 벡터와 인식 알고리즘은 PLP(Perceptual Linear Predictive) 13차와 OSDP(One-Stage Dynamic Programming)를 사용하였다. 그리고 핸드폰을 사용하는 운전자의 안전을 위하여 음성으로 전화를 걸 수 있도록 하는 전화번호 등록 및 제어기능의 Voice Dialing 기능을 추가하였다. 실험결과 주행중인 자동차 환경에서 자주 사용되는 차량 편의장치 제어명령 33개에 대하여 중부, 영동 고속도로(시멘트 도로 80km/h이상)에서 남성 화자독립 89.75%의 인식율을 구하였으며, 경부고속도로(아스팔트 도로 80km/h이상)에서는 남성화자독립 92.29%의 인식율을 구하였다.

  • PDF

잡음 환경에서 심리음향모델 기반 음성 에너지 최대화를 이용한 음성 검출 방법 (Voice Activity Detection Method Using Psycho-Acoustic Model Based on Speech Energy Maximization in Noisy Environments)

  • 최갑근;김순협
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.447-453
    • /
    • 2009
  • 이 논문은 음성 에너지를 최대화 하여 낮은 SNR환경에서 음성 존재 여부를 판단하고 정확한 끝점을 검출하는 방법에 대한 것이다. 전통적인 VAD (Voice Activity Detection) 알고리듬은 잡음의 추정치를 이용해 음성과 비음성 구간을 선택하여 낮은 SNR환경이나 비안정 잡음환경에서는 정확하지 못한 문턱값으로 인해 부정확한 끝점검출을 하였다. 또한 잡음의 시간적 변화를 반영하기 위해 비교적 큰 분석 구간을 두어 계산량이 증가함에 따라 실제 응용에 적합하지 않은 단점이 있다. 이 논문은 잡음환경에서 정확한 음성 구간의 검출을 위해 심리음향 모델에 기반 한 바크 스케일 필터 뱅크를 이용하여 주어진 프레임에서 음성 에너지를 최대화 시키고 잡음을 억제하는 SEM-VAD (Speech Energy Maximization-Voice Activity Detection) 방법을 제안하였다. 다양한 잡음환경, SNR 15 dB, 10 dB 5 dB 0 dB 상황에서 실험한 결과 SNR의 변화에 안정적인 문턱값을 얻었고, 음성 검출을 위한 실험에서 자동차 잡음 환경에 대한 PHR (Pause Hit Rate)은 모든 잡음 환경에서 100%의 정확도를 보였고, FAR (False Alarm Rate)는 SNR 15 dB와 10 dB에서는 0%, SNR 5 dB에서 5.6% SNR 0 dB에서 9.5%의 성능을 보였다.

음성 통계 모형에 따른 음성 왜곡량 감소를 위한 비선형 음성강조법 (Nonlinear Speech Enhancement Method for Reducing the Amount of Speech Distortion According to Speech Statistics Model)

  • 최재승
    • 한국전자통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.465-470
    • /
    • 2021
  • 잡음이 존재하는 실제 환경에서 음성인식을 실시하는 경우에 음성인식의 성능 열화 및 음성의 품질이 저화되지 않는 강건한 음성인식 기술이 필요하다. 이러한 음성인식 기술을 개발함으로써 사람의 음성 스펙트럼과 유사한 잡음 환경에서도 안정되고 높은 음성인식률이 실현되는 어플리케이션이 요구된다. 따라서 본 논문에서는 최소 평균 제곱의 오차를 기반으로 한 단시간 스펙트럼 진폭 방법인 MMSA-STSA 추정 알고리즘에 기초한 잡음억압을 처리하는 음성강조 알고리즘을 제안한다. 이 알고리즘은 단일 채널 입력에 기초한 효과적인 비선형 음성강조 알고리즘이며, 높은 잡음억제 성능을 가지고 있으며 음성의 통계적인 모델에 기초하여 음성의 왜곡량을 줄이는 기법이다. 본 실험에서는 MMSA-STSA 추정 알고리즘의 유효성을 확인하기 위하여 입력 음성파형과 출력 음성파형을 비교하여 제안한 알고리즘의 효과를 확인한다.

바이모달 음성인식의 음성정보와 입술정보 결합방법 비교 (Comparison of Integration Methods of Speech and Lip Information in the Bi-modal Speech Recognition)

  • 박병구;김진영;최승호
    • 한국음향학회지
    • /
    • 제18권4호
    • /
    • pp.31-37
    • /
    • 1999
  • 잡음환경에서 음성인식 시스템의 성능을 향상시키기 위해서 영상정보와 음성정보를 이용한 바이모달(bimodal)음성인식이 제안되어왔다. 영상정보와 음성정보의 결합방식에는 크게 분류하여 인식 전 결합방식과 인식 후 결합방식이 있다. 인식 전 결합방식에서는 고정된 입술파라미터 중요도를 이용한 결합방법과 음성의 신호 대 잡음비 정보에 따라 가변 입술 파라미터 중요도를 이용하여 결합하는 방법을 비교하였고, 인식 후 결합방식에서는 영상정보와 음성정보를 독립적으로 결합하는 방법, 음성 최소거리 경로정보를 영상인식에 이용 결합하는 방법, 영상 최소거리 경로정보를 음성인식에 이용 결합하는 방법, 그리고 음성의 신호 대 잡음비 정보를 이용하여 결합하는 방법을 비교했다. 6가지 결합방법 중 인식 전 결합방법인 파라미터 중요도를 이용한 결합방법이 가장 좋은 인식결과를 보였다.

  • PDF

음성 신호의 의사 켑스트럼 표현 및 음성 인식에의 응용 (Pseudo-Cepstral Representation of Speech Signal and Its Application to Speech Recognition)

  • 김홍국;이황수
    • The Journal of the Acoustical Society of Korea
    • /
    • 제13권1E호
    • /
    • pp.71-81
    • /
    • 1994
  • 본 논문에서는 line spectrum pair (LSP)의 의사 켑스트럼 표현을 제안하고 이 의사 켑스트럼에 켑스트럼 lifter를 적용하여 얻은 특징 벡타를 이용하는 음성 인식 시스템의 성능을 평가한다. 의사 켑스트럼 표현은 LSP와 LPC 켑스터럼 사이의 관계로부터 근사적으로 유도된다. 이때 음성 인식 시스템의 성능을 더욱 향상 시키기 위하여 root-power-sums lifter, general exponential lifter (GEL), 그리고 bandpass lifter 등과 같은 켑스터럼 liter가 의사 켑스터럼에 적용된다. 또한 mel 주파수로의 변환도 행해진다. 인식 결험 결과, GEL로 liftering된 mel 주파수 의사 켑스터럼이 가장 좋은 성능을 나타내며, LSP에 비해 5~6dB정도의 신도대잡음비의 개선을 얻을 수 있다.

  • PDF