• 제목/요약/키워드: 다중대역 음성인식

검색결과 7건 처리시간 0.024초

음성인식을 위한 주파수 부대역별 효과적인 특징추출 (Effective Feature Extraction in the Individual frequency Sub-bands for Speech Recognition)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제7권4호
    • /
    • pp.598-603
    • /
    • 2003
  • 본 논문에서는 주파수 부대역마다 최적의 특징추출을 위해서, 음성인식률을 기준으로 최적의 방법을 선택한다. 다중대역 음성인식 접근을 사용하여 각기 다른 주파수 영역에서 특징벡터를 독립적으로 추출함으로써 부대역별로 다른 특징추출 방법을 적용할 수 있었다. 저주파 대역의 음성은 비교적 스펙트럼의 구조가 명확하므로 전극모델을 사용하는 것이 효과적이었고, 고주파 대역에서는 비모수적인 변환방법인 이산 코사인 변환을 사용한 켑스트럼이 효과적이었다. 부대역별로 효과적인 특징추출 방법을 사용함으로써, 각 주파수 부대역에 포함된 음성인식을 위한 언어정보를 보다 효과적으로 추출할 수 있었다. 음성인식 실험결과, 제안한 방법은 전대역 특징추출보다 우수한 성능을 나타내었다.

다중대역 음성인식을 위한 부대역 신뢰도의 추정 및 가중 (Estimation and Weighting of Sub-band Reliability for Multi-band Speech Recognition)

  • 조훈영;지상문;오영환
    • 한국음향학회지
    • /
    • 제21권6호
    • /
    • pp.552-558
    • /
    • 2002
  • 최근에 Fletcher의 HSR (human speech recognition) 이론을 기초로 한 다중대역 (multi-band) 음성인식이 활발히 연구되고 있다. 다중대역 음성인식은 주파수 영역을 다수의 부대역으로 나누고 별도로 인식한 뒤 부대역들의 인식결과를 부대역 신뢰도로 가중 및 통합하여 최종 판단을 내리는 새로운 음성인식 방식으로서 잡음환경에 특히 강인하다고 알려졌다. 잡음이 정상적인 경우 무음구간의 잡음정보를 이용하여 부대역 신호대 잡음비(SNR)를 추정하고 이를 가중치로 사용하기도 하였으나, 비정상잡음은 시간에 따라 특성이 변하여 부대역 신호대 잡음비를 추정하기가 쉽지 않다. 본 논문에서는 깨끗한 음성으로 학습한 은닉 마코프 모델과 잡음음성의 통계적 정합에 의해 각 부대역에서 모델과 잡음음성 사이의 거리를 추정하고, 이 거리의 역을 부대역 가중치로 사용하는 ISD (inverse sub-band distance) 가중을 제안한다. 1500∼1800㎐로 대역이 제한된 백색잡음 및 클래식 기타음에 대한 인식 실험 결과, 제안한 방법은 정상 및 비정상대역제한잡음에 대하여 부대역의 신뢰도를 효과적으로 표현하며 인식 성능을 향상시켰다.

다중 대역기반 우도 측정을 이용한 잡음 환경에서의 음성 인식 (Speech Recognition in the Noisy Environment Using Multi-Band-Based Likelihood Measure)

  • 신원호
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.315-318
    • /
    • 1998
  • 본 논문에서는 서브밴드 및 전 대역(full band)으로부터 얻은 특징 벡터를 함께 사용하여 잡음 환경에서 음성인식 시스템의 성능을 향상시키는 방법을 제안하였다. 이는 인식시 잡음에 오염된 대역에서 얻은 특징 벡터를 제거하는데 따른 정보 손실을 막기 위해 전 대역으로부터 얻은 특징 벡터를 함께 이용하며 신호 대 잡음비가 높은 대역을 강조하여 각 모델에 대한 확률 값을 계산한다. 전화망에서 수집된 데이터베이스를 이용하여 인식 실험을 수행한 결과 비교적 넓은 주파수 대역에 걸쳐 분포된 잡음의 경우에도 인식 성능을 향상시킬 수 있었다.

  • PDF

부분 손상된 음성의 인식 향상을 위한 채널집중 MFCC 기법 (Channel-attentive MFCC for Improved Recognition of Partially Corrupted Speech)

  • 조훈영;지상문;오영환
    • 한국음향학회지
    • /
    • 제22권4호
    • /
    • pp.315-322
    • /
    • 2003
  • 본 논문에서는 주파수 영역의 일부가 상대적으로 심하게 손상된 음성에 대한 음성 인식기의 성능을 향상시키기 위해 채널집중 멜 켑스트럼 특징추출법을 제안한다. 이 방법은 기존멜 켑스트럼 특징추출의 필터뱅크분석 단계에서 각 채널의 신뢰도를 구하고, 신뢰도가 높은 주파수 영역이 음성인식에 보다 중요하게 사용되도록 멜 켑스트럼 추출 및 HMM의 출력확률 계산식에 채널 가중을 도입한다. TIDIGITS 데이터베이스에 음성의 일부 주파수를 손상시키는 다양한 주파수 선택 잡음을 가산하여 인식 실험을 수행한 결과, 제안한 방법은 덜 손상된 주파수영역의 음성 정보를 효과적으로 활용하며, 주파수선택 잡음에 대해 우수하다고 알려진 다중대역 음성인식에 비해 평균 11.2%더 높은 성능을 얻었다.

변형된 Wavelet 변환을 이용한 한국어 숫자음 인식에 관한 연구 (Isolated Korean Digits Recognition Using Modified Wavelet Transform)

  • 지상문
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.113-116
    • /
    • 1993
  • 본 논문에서는 변형된 wavelet 변환을 통해 추출한 특징벡터를 이용하여 한국어 숫자음을 대상으로 한 음성인식기를 구현하였다. wavelet 변환은 시간 및 주파수 영역에 대해 다중해상도(multiresolution)를 가지는 신호분석법이다. 본 연구에서는 계산량의 감소와 넓은 주파수 대역을 분석하기 위해, mother wavelet의 형태를 분석 주파수 대역에 따라 변화시키는 방법을 제안하였다. 기존의 wavelet 변환으로 실험한 결과 86.5%의 인식율을 얻었고, 변형된 wavelet 변환의 경우 96%의 인식율을 얻었으며 계산량이 감소하였다. 이와 함께 음성인식에서 널리 사용되는 특징 파라미터인 멜켑스트럼과 FFT 멜스케일 필터 대역(mel scale filter bank)과 비교 실험한 결과 인식율의 향상을 보였다. 이는 제안한 방법이 고주파 대역의 세밀한 시간 해상도와 저주파 대역의 세밀한 주파수 해상도를 지니는데 기인하는 것으로 판단된다.

  • PDF

부분 손상된 음성의 인식성능 향상을 위한 가중 필터뱅크 분석 및 모델 적응 (Weighted filter bank analysis and model adaptation for improving the recognition performance of partially corrupted speech)

  • 조훈영;오영환
    • 대한음성학회지:말소리
    • /
    • 제44호
    • /
    • pp.157-169
    • /
    • 2002
  • We propose a weighted filter bank analysis and model adaptation (WFBA-MA) scheme to improve the utilization of uncorrupted or less severely corrupted frequency regions for robust speech recognition. A weighted met frequency cepstral coefficient is obtained by weighting log filter bank energies with reliability coefficients and hidden Markov models are also modified to reflect the local reliabilities. Experimental results on TIDIGITS database corrupted by band-limited noises and car noise indicated that the proposed WFBA-MA scheme utilizes the uncorrupted speech information well, significantly improving recognition performance in comparison to multi-band speech recognition systems.

  • PDF

웨이블렛 필터뱅크에 기반을 둔 강인한 화자식별 기법 (A Robust Speaker Identification Method Based on the Wavelet Filter Banks)

  • 이대종;곽근창;유정웅;전명근
    • 정보처리학회논문지C
    • /
    • 제9C권4호
    • /
    • pp.459-466
    • /
    • 2002
  • 본 논문에서는 웨이블렛 서브밴드 필터링기법을 이용하여 다중의사 결정기법에 기반을 둔 잡음에 강인한 화자식별 알고리즘을 제안한다. 제안된 방법은 잡음이 첨가된 음성신호를 웨이블렛 서브밴드 필터뱅크를 이용하여 각 주파수 대역별로 신호를 분리한 후 개별적인 대역별로 인식 알고리즘을 수행하기 때문에 어떤 서브밴드에서의 노이즈 영향이 상대적으로 적으므로 대역제약된 형태로 주어지는 일반적인 주변잡음이 있는 환경하에서 우수한 성능을 보일 수 있도록 시스템을 구성하였다. 제안된 알고리즘은 화자인식 기법으로 널리 쓰이고 있는 벡터양자화 알고리즘만을 적용한 경우에 비해 15∼60%의 향상된 인식률을 보였다.