• Title/Summary/Keyword: Post-processing for Speech Recognition

Search Result 36, Processing Time 0.021 seconds

차량용 음성인식을 위한 주변잡음에 강건한 브라인드 음원분리 (Robust Blind Source Separation to Noisy Environment For Speech Recognition in Car)

  • 김현태;박장식
    • 한국콘텐츠학회논문지
    • /
    • 제6권12호
    • /
    • pp.89-95
    • /
    • 2006
  • 독립성분분석을 사용한 암묵신호분리의 성능은 잔향이 존재하는 환경에서 잔류 누설 성분 (cross-talk) 때문에 현저히 저하된다. 본 논문에서는 잔류 누설 성분을 제거하기 위한 후처리 방법을 제안한다. 제안하는 방법은 주파수 영역에서의 변형된 NLMS(normalized least mean square) 필터를 사용하며 필터의 역할은 잔류 누설 성분을 유발하는 누설 경로를 추정하는 데 있다. 특정 채널에서 잔류하는 누설 성분은 상대 채널의 직접 성분에 해당되므로 관측되는 상대 채널의 입력신호를 이용하여 누설 경로를 추정할 수 있다. 변형된 NLMS 필터는 필터 입력 신호의 전력과 추정 오차 신호의 전력을 함께 고려하여 정규화한다. 특정 채널의 직접 신호 성분은 적응 필터에서 잡음처럼 동작하여 결국 적응필터가 오조정되기 때문에 제안하는 방법을 통해 적응필터의 오조정을 방지할 수 있다. 음성 신호를 사용한 컴퓨터 시뮬레이션 결과를 통해 제안하는 방법이 후처리를 사용하지 않은 경우에 비해 잡음 제거 성능(NRR)이 약 3dB 정도 개선되는 것을 확인 할 수 있다.

  • PDF

강인한 음성인식을 위한 MMSE-STSA기반 후처리 가중필터뱅크분석을 통한 특징추출 (Feature Extraction through the post processing of WFBA based on MMSE-STSA for Robust Speech Recognition)

  • 정성윤;배건성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.39-42
    • /
    • 2004
  • 본 논문에서는, 잡음음성에 강인한 음성인식을 위한 특징추출 방법을 제시한다. 제시한 방법은 2 단계 잡음제거 과정으로 구성되어 있다. 첫번째 단계는 MMSE-STSA 음성개선기법을 통해 잡음음성신호를 개선시키는 과정이고, 두 번째 단계는, MMSE-STSA 의 개선된 음성에 후처리 가중필터뱅크분석을 통해 잔여잡음의 영향을 감소시키는 과정이다. 제안한 방법의 성능평가를 위해, AURORA2의 잡음음성 DB 중 테스트 집합 A 에 대해 인식실험을 수행하고, 결과를 기존 방법들과 비교, 검토한다.

  • PDF

음성 인식을 위한 후처리에 관한 연구 (A Study on the Post-processing for Speech Recognition)

  • 김원구
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2008년도 춘계학술대회 학술발표회 논문집
    • /
    • pp.421-424
    • /
    • 2008
  • 음성 다이얼링 시스템은 화자의 음성을 인식하여 원하는 전화번호로 자동으로 전화를 걸어주는 시스템으로 주로 이동 전화나 휴대형 통신 장비에 유용하게 사용된다. 개인 음성 다이얼링 시스템의 경우, 다이얼링에 사용되는 모든 구문은 사용자가 선택하고 사용자의 음성을 사용하여 학습되어 음성 인식을 위한 HMM을 생성한다. 이러한 시스템은 화자독립 시스템보다 매우 적은 메모리 공간과 계산량으로 구현이 가능하다. 그러나 이러한 시스템은 학습시 각 단어랑 2-3개의 음성만을 사용하므로 음성인식 시스템의 성능을 개선하기 위한 각 상태에서의 상태지속분포을 추정하기는 매우 어렵다. 따라서 본 논문에서는 성능개선을 위한 후처리기를 제안하였다. 전화선을 통하여 구성된 데이터베이스를 이용한 실험에서 제안된 후처리기가 인식 시스템의 성능을 향상시킴을 확인하였다.

  • PDF

음성인식을 이용한 자막 자동생성 시스템 (Subtitle Automatic Generation System using Speech to Text)

  • 손원섭;김응곤
    • 한국전자통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.81-88
    • /
    • 2021
  • 최근 COVID-19로 인한 온라인 강의 영상과 같은 많은 영상이 생성되고 있는데 노동 시간의 한계와 비용의 부족 등으로 인해 자막을 보유한 영상이 일부분에 불과하여 청각장애인들의 정보 취득에 방해 요소로 대두되고 있다. 본 논문에서는 음성인식을 이용하여 자막을 자동으로 생성하고 종결 어미와 시간을 이용해 문장을 분리하여 자막을 생성함으로써 자막 생성에 드는 시간과 노동력을 줄일 수 있도록 하는 시스템을 개발하고자 한다.

워드 임베딩과 품사 태깅을 이용한 클래스 언어모델 연구 (Class Language Model based on Word Embedding and POS Tagging)

  • 정의석;박전규
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권7호
    • /
    • pp.315-319
    • /
    • 2016
  • 음성인식 성능 개선을 위한 언어모델의 기술적 진보는 최근 심층 신경망을 기반으로 한 접근방법으로 한 단계 더 진보한 모양새다. 그러나 연구되고 있는 심층 신경망 기반 언어모델은 대부분 음성인식 이후 리스코링 단계에서 적용할 수 있는 한계를 지닌다. 또한 대규모 어휘에 대한 심층 신경망 접근방법은 아직 시간이 필요하다고 본다. 따라서 본 논문은 심층 신경망 언어 모델의 단순화된 형태인 워드 임베딩 기술을 음성인식 후처리가 아닌 기반 N-gram모델에 바로 적용할 수 있는 접근 방법을 찾는다. 클래스 언어모델이 한 접근 방법이 될 수 있는데, 본 연구에서는 워드 임베딩을 우선 구축하고, 해당 어휘별 벡터 정보를 클러스터링하여 클래스 언어모델을 구축 방법을 제시한다. 이를 기존 어휘기반 N-gram 모델에 통합한 후, 언어모델의 성능 개선 여부를 확인한다. 클래스 언어모델의 타당성 검증을 위해 다양한 클래스 개수의 언어모델 실험과 RNN LM과의 비교 결과를 검토한 후, 모든 언어모델의 성능 개선을 보장하는 품사 부착 언어모델 생성 방법을 제안한다.

연속음성인식 후처리를 위한 음절 복원 rule-base시스템 (The syllable recovery rule-base system for the post-processing of a continuous speech recognition)

  • 박미성;김미진;이문희;최재혁;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.379-385
    • /
    • 1998
  • 한국어가 연속적으로 발음될 때 여러 가지 음운 변동현상이 일어난다. 이것은 한국어 연속음성 인식을 어렵게 하는 주요 요인 중의 한가지이다. 본 논문은 음운변동현상이 반영된 음성 인식 문자열을 규칙에 의거하여 text 기반 문자열로 다시 복원시키고 복원 결과 후보들을 형태소 분석하여 유용한 문자열만을 최종 결과로 생성하게 하는 시스템을 구성하였다. 복원은 4가지 rule 즉, 음절 경계 종성 초성 복원 rule, 모음처리 복원 rule, 끝음절 중성 복원 rule, 한 음절처리 rule에 따라 이루어진다. 규칙 적용 과정중에 효과적인 복원을 위해 x-clustering정보를 정의 하여 사용하고, 형태소 분석기에 입력될 복원 후보수를 제한하기 위해 postfix음절 빈도정보를 구하여 사용한다.

  • PDF