• 제목/요약/키워드: Out-of-vocabulary rejection

검색결과 17건 처리시간 0.02초

New Postprocessing Methods for Rejectin Out-of-Vocabulary Words

  • Song, Myung-Gyu
    • The Journal of the Acoustical Society of Korea
    • /
    • 제16권3E호
    • /
    • pp.19-23
    • /
    • 1997
  • The goal of postprocessing in automatic speech recognition is to improve recognition performance by utterance verification at the output of recognition stage. It is focused on the effective rejection of out-of vocabulary words based on the confidence score of hypothesized candidate word. We present two methods for computing confidence scores. Both methods are based on the distance between each observation vector and the representative code vector, which is defined by the most likely code vector at each state. While the first method employs simple time normalization, the second one uses a normalization technique based on the concept of on-line garbage mode[1]. According to the speaker independent isolated words recognition experiment with discrete density HMM, the second method outperforms both the first one and conventional likelihood ratio scoring method[2].

  • PDF

Utterance Verification Using Search Confusion Rate and Its N-Best Approach

  • Kim, Kyu-Hong;Kim, Hoi-Rin;Hahn, Min-Soo
    • ETRI Journal
    • /
    • 제27권4호
    • /
    • pp.461-464
    • /
    • 2005
  • Recently, a variety of confidence measures for utterance verification has been studied to improve speech recognition performance by rejecting out-of-vocabulary inputs. Most of the conventional confidence measures for utterance verification are based primarily on hypothesis testing or an approximated posterior probability, and their performances depend on the robustness of an alternative hypothesis or the prior probability. We introduce a novel confidence measure called a search confusion rate (SCR), which does not require an alternative hypothesis or the approximation of posterior probability. Our confusion-based approach shows better performance in additive noise-corrupted speech as well as in clean speech.

  • PDF

고립단어 인식 시스템에서의 거절기능 구현 (An Implementation of Rejection Capabilities in the Isolated Word Recognition System)

  • 김동화;김형순;김영호
    • 한국음향학회지
    • /
    • 제16권6호
    • /
    • pp.106-109
    • /
    • 1997
  • 고립단어 음성인식 시스템이 실용적이 되려면 인식 대상 이외의 단어를 거절할 수 있는 기능이 요구된다. 본 논문에서는 집단화된 음소 모델과 likelihood ratio에 의한 후처리 방법을 사용하여 거절기능을 구현하는 방법을 제안하였다. 기본적인 음성인식 시스템은 단어 단위 연속 HMM을 사용하였고, 6개의 집단화된 음소 모델들은 음성학적으로 균형잡힌 음성 데이터베이스를 이용하여 훈련된 45개의 문맥독립 음소 모델들로부터 통계적 방법에 의하여 생성되었다. 22개의 부서 명칭을 대상으로 한 화자독립 고립단어 인식시스템에서 거절성능을 시험하여 본 결과, 가장 높은 확률값과 두 번째 높은 확률값을 가지는 후보단어들 간의 차이값에 의하여 거절기능을 수행하는 기존의 후처리 방법보다 성능이 향상됨을 알 수 있었다. 또한 이 집단화된 음소모델은 인식 대상 어휘가 다른 고립단어 인식 시스템에도 재훈련 없이 그대로 사용될 수 있다.

  • PDF

Viterbi 탐색 특성을 이용한 미등록어휘 제거에 대한 연구 (A Study on OOV Rejection Using Viterbi Search Characteristics)

  • 김규홍;김회린
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 춘계 학술대회 발표논문집
    • /
    • pp.95-98
    • /
    • 2005
  • Many utterance verification (UV) algorithms have been studied to reject out-of-vocabulary (OOV) in speech recognition systems. Most of conventional confidence measures for UV algorithms are mainly based on log likelihood ratio test, but these measures take much time to evaluate the alternative hypothesis or anti-model likelihood. We propose a novel confidence measure which makes use of a momentary best scored state sequence during Viterbi search. Our approach is more efficient than conventional LRT-based algorithms because it does not need to build anti-model or to calculate the alternative hypothesis. The proposed confidence measure shows better performance in additive noise-corrupted speech as well as clean speech.

  • PDF

CM 알고리즘을 이용한 핵심어 검출 시스템의 인식률 향상에 관한 연구 (A Study on the Recognition-Rate Improvement by the Keyword Spotting System using CM Algorithm)

  • 원종문;이정숙;김순협
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.81-84
    • /
    • 2001
  • 본 논문은 중규모 단어급의 핵심어 검출 시스템에서 인식률 향상을 위해 미등록어 거절(Out-of-Vocabulary rejection) 기능을 제어하기 위한 연구이다. 이것은 핵심어 검출기에서 인식된 결과를 확인하는 과정으로 검증시스템이 구현되기 위해서는 매 음소마다 검증 기능이 필요하고, 이를 위해서 반음소(anti-phoneme model) 모델을 사용하였다. 검증의 역할은 인식기에서 인식된 단어가 등록어인지 미등록어인지 판별하는 것이다. 단어인식기는 비터비 탐색을 하므로, 기본적으로 단어단위로 인식을 하지만 그 인식된 단어는 내부적으로 음소단위로 인식된다. 따라서, 최소 검증 오류를 갖는 반음소 모델을 사용하고, 이를 이용하여 인식된 음소 단위들을 각각의 반음소 모델과 비교하여 통계적인 방법에 의해 신뢰도를 구한다 이 음소단위의 신뢰도를 단어 단위의 신뢰도로 환산하기 위해서 음소단위를 평균 내는 방식 을 취한다. 이렇게 함으로서, 등록어와 미등록어 사이의 분별력을 크게 하여 향상된 인식 성능을 얻었다.

  • PDF

베이시안 신뢰도 융합을 이용한 신뢰도 측정 (Bayesian Fusion of Confidence Measures for Confidence Scoring)

  • 김태윤;고한석
    • 한국음향학회지
    • /
    • 제23권5호
    • /
    • pp.410-419
    • /
    • 2004
  • 본 논문에서는 베이시안에 기반한 신뢰도 융합 기법을 제안한다. 음성인식에서 신뢰도는 인식 결과에 대한 신뢰의 정도를 말하며, 인식 결과가 맞는 지의 여부를 판단할 수 있다. 개별 신뢰도 기법의 신뢰도 값을 융합하여 최종 판단을 내리는 집중형 융합 방식과 개별 신뢰도 기법의 판단 결과들을 융합하는 분산형 융합의 두 가지 방식에 대해 최적의 베이시안 융합규칙이 제시되었다. 고립단어 인식에서의 미등록어 거절 실험 결과 집중형 베이시안 신뢰도 융합 기법은 개별 신뢰도 기법에 비해 13% 이상의 상대적인 에러 감소 효과를 보였으나, 분산형 베이시안 융합은 성능의 향상을 보이지 못했다.

Speech Interactive Agent on Car Navigation System Using Embedded ASR/DSR/TTS

  • Lee, Heung-Kyu;Kwon, Oh-Il;Ko, Han-Seok
    • 음성과학
    • /
    • 제11권2호
    • /
    • pp.181-192
    • /
    • 2004
  • This paper presents an efficient speech interactive agent rendering smooth car navigation and Telematics services, by employing embedded automatic speech recognition (ASR), distributed speech recognition (DSR) and text-to-speech (ITS) modules, all while enabling safe driving. A speech interactive agent is essentially a conversational tool providing command and control functions to drivers such' as enabling navigation task, audio/video manipulation, and E-commerce services through natural voice/response interactions between user and interface. While the benefits of automatic speech recognition and speech synthesizer have become well known, involved hardware resources are often limited and internal communication protocols are complex to achieve real time responses. As a result, performance degradation always exists in the embedded H/W system. To implement the speech interactive agent to accommodate the demands of user commands in real time, we propose to optimize the hardware dependent architectural codes for speed-up. In particular, we propose to provide a composite solution through memory reconfiguration and efficient arithmetic operation conversion, as well as invoking an effective out-of-vocabulary rejection algorithm, all made suitable for system operation under limited resources.

  • PDF