• 제목/요약/키워드: Post-processing for Speech Recognition

검색결과 36건 처리시간 0.026초

가변어휘 핵심어 검출을 위한 비핵심어 모델링 및 후처리 성능평가 (Performance Evaluation of Nonkeyword Modeling and Postprocessing for Vocabulary-independent Keyword Spotting)

  • 김형순;김영국;신영욱
    • 음성과학
    • /
    • 제10권3호
    • /
    • pp.225-239
    • /
    • 2003
  • In this paper, we develop a keyword spotting system using vocabulary-independent speech recognition technique, and investigate several non-keyword modeling and post-processing methods to improve its performance. In order to model non-keyword speech segments, monophone clustering and Gaussian Mixture Model (GMM) are considered. We employ likelihood ratio scoring method for the post-processing schemes to verify the recognition results, and filler models, anti-subword models and N-best decoding results are considered as an alternative hypothesis for likelihood ratio scoring. We also examine different methods to construct anti-subword models. We evaluate the performance of our system on the automatic telephone exchange service task. The results show that GMM-based non-keyword modeling yields better performance than that using monophone clustering. According to the post-processing experiment, the method using anti-keyword model based on Kullback-Leibler distance and N-best decoding method show better performance than other methods, and we could reduce more than 50% of keyword recognition errors with keyword rejection rate of 5%.

  • PDF

구문형태소 단위를 이용한 음성 인식의 후처리 모델 (A Model for Post-processing of Speech Recognition Using Syntactic Unit of Morphemes)

  • 양승원;황이규
    • 한국산업정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.74-80
    • /
    • 2002
  • 한국어 연속 음성 인식결과의 성능향상을 위해서 자연어 처리 기술을 이용한 후처리 기법이 사용된다. 그러나 자연어 처리 기법이 대부분 띄어쓰기가 있는 정형화된 입력 문장에 대한 분석을 수행하여 왔기 때문에 형태소 분석기를 직접 음성인식 결과의 향상에 사용하는 데에는 어려운 점이 많다. 본 논문에서는 띄어쓰기를 고려하지 않는 기능어 기반의 최장일치 형태소 해석 방법인 구문 형태소 단위의 분석을 이용한 음정인식 결과의 향상 모델을 제안한다. 제안된 모델을 통해 연속음성 인식 결과에서 자주 발생하는 용언과 보조 용언 및 의존 명사 사이의 음운들 사이의 구조적 정보를 활용함으로써 음성 인식 결과의 성능을 향상시키는 방법에 대해 기술한다.

  • PDF

자동차 잡음 및 오디오 출력신호가 존재하는 자동차 실내 환경에서의 강인한 음성인식 (Robust Speech Recognition in the Car Interior Environment having Car Noise and Audio Output)

  • 박철호;배재철;배건성
    • 대한음성학회지:말소리
    • /
    • 제62호
    • /
    • pp.85-96
    • /
    • 2007
  • In this paper, we carried out recognition experiments for noisy speech having various levels of car noise and output of an audio system using the speech interface. The speech interface consists of three parts: pre-processing, acoustic echo canceller, post-processing. First, a high pass filter is employed as a pre-processing part to remove some engine noises. Then, an echo canceller implemented by using an FIR-type filter with an NLMS adaptive algorithm is used to remove the music or speech coming from the audio system in a car. As a last part, the MMSE-STSA based speech enhancement method is applied to the out of the echo canceller to remove the residual noise further. For recognition experiments, we generated test signals by adding music to the car noisy speech from Aurora 2 database. The HTK-based continuous HMM system is constructed for a recognition system. Experimental results show that the proposed speech interface is very promising for robust speech recognition in a noisy car environment.

  • PDF

모바일 기기를 위한 음성인식의 사용자 적응형 후처리 (User Adaptive Post-Processing in Speech Recognition for Mobile Devices)

  • 김영진;김은주;김명원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권5호
    • /
    • pp.338-342
    • /
    • 2007
  • 본 논문에서는 모바일 환경에서 고립단어 음성인식을 할 경우 화자종속 방법을 이용하여 성능을 높이는 사용자 적응형 후처리 방법을 제안한다. 이 방법은 인식기의 정확한 인식 결과를 위한 추가적인 처리들로 구성된다. 즉 인식기의 출력과 정확한 최종 결과들 간의 관계를 학습하여 이를 잘못된 인식기의 출력을 수정하는 데에 사용한다. 학습에는 패턴인식에 강인한 다층 퍼셉트론을 사용하며 학습 시간을 고려하여 모델을 세분화하고 동적으로 동작할 수 있도록 구현한다. 이 결과 인식기의 오류에 대해 41%를 수정하는 성과(오류 수정률: 41%)를 보였다.

CRFs와 TBL을 이용한 자동화된 음성인식 후처리 방법 (An Automatic Post-processing Method for Speech Recognition using CRFs and TBL)

  • 선충녕;정형일;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권9호
    • /
    • pp.706-711
    • /
    • 2010
  • 음성 인식기의 오류는 음성기반 응용 시스템들의 성능에 크게 영향을 주기 때문에 오류를 줄이기 위한 효과적인 처리 방법이 필요하다. 기존의 후처리 기법들은 수동 작업을 통한 코퍼스나 규칙으로 후처리를 수행하는 것이 일반적이다. 본 논문에서는 문제나 인식기의 특성에 무관하게 자동으로 학습할 수 있는 후처리 모델을 제안한다. 후처리의 문제를 오류의 인식과 수정으로 구분하고 오류 검출 문제는 순차적인 분류 문제로 간주하여 conditional random fields(CRFs)를 사용하고 오류 수정 규칙은 transformation-based learning(TBL)을 이용하여 자동 생성하여 적용하였다. 제안한 방법을 여행 예약 영역의 음성 인식기에 적용한 결과 삽입, 삭제, 치환 오류를 각각 25.85%, 3.57%, 7.42%을 수정하였으며, 이로 인해 인식기의 어휘 오류율을 2% 감소시킬 수 있었다.

Multiple Acoustic Cues for Stop Recognition

  • Yun, Weon-Hee
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.3-16
    • /
    • 2003
  • ㆍAcoustic characteristics of stops in speech with contextual variability ㆍPosibility of stop recognition by post processing technique ㆍFurther work - Speech database - Modification of decoder - automatic segmentation of acoustic parameters

  • PDF

음성 질의 처리를 위한 의미 기반 오류 수정 (Semantic-oriented Error Correction for Spoken Query Processing)

  • 정민우;김병창;이근배
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.153-156
    • /
    • 2003
  • Voice input is often required in many new application environments such as telephone-based information retrieval, car navigation systems, and user-friendly interfaces, but the low success rate of speech recognition makes it difficult to extend its application to new fields. Popular approaches to increase the accuracy of the recognition rate have been researched by post-processing of the recognition results, but previous approaches were mainly lexical-oriented ones in post error correction. We suggest a new semantic-oriented approach to correct both semantic level and lexical errors, which is also more accurate for especially domain-specific speech error correction. Through extensive experiments using a speech-driven in-vehicle telematics information application, we demonstrate the superior performance of our approach and some advantages over previous lexical-oriented approaches.

  • PDF

Recognition Performance Improvement of Unsupervised Limabeam Algorithm using Post Filtering Technique

  • Nguyen, Dinh Cuong;Choi, Suk-Nam;Chung, Hyun-Yeol
    • 대한임베디드공학회논문지
    • /
    • 제8권4호
    • /
    • pp.185-194
    • /
    • 2013
  • Abstract- In distant-talking environments, speech recognition performance degrades significantly due to noise and reverberation. Recent work of Michael L. Selzer shows that in microphone array speech recognition, the word error rate can be significantly reduced by adapting the beamformer weights to generate a sequence of features which maximizes the likelihood of the correct hypothesis. In this approach, called Likelihood Maximizing Beamforming algorithm (Limabeam), one of the method to implement this Limabeam is an UnSupervised Limabeam(USL) that can improve recognition performance in any situation of environment. From our investigation for this USL, we could see that because the performance of optimization depends strongly on the transcription output of the first recognition step, the output become unstable and this may lead lower performance. In order to improve recognition performance of USL, some post-filter techniques can be employed to obtain more correct transcription output of the first step. In this work, as a post-filtering technique for first recognition step of USL, we propose to add a Wiener-Filter combined with Feature Weighted Malahanobis Distance to improve recognition performance. We also suggest an alternative way to implement Limabeam algorithm for Hidden Markov Network (HM-Net) speech recognizer for efficient implementation. Speech recognition experiments performed in real distant-talking environment confirm the efficacy of Limabeam algorithm in HM-Net speech recognition system and also confirm the improved performance by the proposed method.

음성 개선 기반의 모델 보상 기법을 이용한 강인한 잡음 음성 인식 (A Noise Robust Speech Recognition Method Using Model Compensation Based on Speech Enhancement)

  • 신광호;정호열;정현열
    • 한국음향학회지
    • /
    • 제27권4호
    • /
    • pp.191-199
    • /
    • 2008
  • 본 논문에서는 잡음 환경하의 음성 인식을 위해 전처리 단계에서 Mel-warped Wiener Filtering (MWF) 기법을 이용하여 입력 음성을 개선하고 후처리 단계에서 PMC (Parallel Model Combination) 기법을 이용하여 인식 모델을 보상하는 MWF-PMC잡음 처리 기법을 제안한다. PMC 기법은 전처리 단계에서 개선된 음성의 묵음 구간으로부터 잔류 잡음을 취하여 깨끗한 음성을 이용하여 작성한 인식 모델을 보상함으로써 잡음 환경하의 음성 인식 성능을 향상시킬 수 있다. 인식 실험을 위한 음성 데이터는 국어공학연구소 (KLE)에서 작성한 PBW (Phoneme Balanced Words) 452 단어 음성 데이터를 8 kHz로 다운 샘플링한 후 Subway, Car 및 Exhibition 잡음을 5단계의 신호 대 잡음비 (SNR)를 0, 5, 10, 15, 2003로 부가하여 구성하였다. 인식 실험 결과, 본 논문에서 제안한 MWF-PMC 기법이 기존의 결합된 기법보다 전반적으로 향상된 인식 성능을 얻어 그 유효성을 확인할 수 있었다.

Adaptive Post Processing of Nonlinear Amplified Sound Signal

  • Lee, Jae-Kyu;Choi, Jong-Suk;Seok, Cheong-Gyu;Kim, Mun-Sang
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.872-876
    • /
    • 2005
  • We propose a real-time post processing of nonlinear amplified signal to improve voice recognition in remote talk. In the previous research, we have found the nonlinear amplification has unique advantage for both the voice activity detection and the sound localization in remote talk. However, the original signal becomes distorted due to its nonlinear amplification and, as a result, the rest of sequence such as speech recognition show less satisfactorily results. To remedy this problem, we implement a linearization algorithm to recover the voice signal's linear characteristics after the localization has been done.

  • PDF