• 제목/요약/키워드: Robust speech recognition.

검색결과 225건 처리시간 0.022초

차량용 음성인식을 위한 주변잡음에 강건한 브라인드 음원분리 (Robust Blind Source Separation to Noisy Environment For Speech Recognition in Car)

  • 김현태;박장식
    • 한국콘텐츠학회논문지
    • /
    • 제6권12호
    • /
    • pp.89-95
    • /
    • 2006
  • 독립성분분석을 사용한 암묵신호분리의 성능은 잔향이 존재하는 환경에서 잔류 누설 성분 (cross-talk) 때문에 현저히 저하된다. 본 논문에서는 잔류 누설 성분을 제거하기 위한 후처리 방법을 제안한다. 제안하는 방법은 주파수 영역에서의 변형된 NLMS(normalized least mean square) 필터를 사용하며 필터의 역할은 잔류 누설 성분을 유발하는 누설 경로를 추정하는 데 있다. 특정 채널에서 잔류하는 누설 성분은 상대 채널의 직접 성분에 해당되므로 관측되는 상대 채널의 입력신호를 이용하여 누설 경로를 추정할 수 있다. 변형된 NLMS 필터는 필터 입력 신호의 전력과 추정 오차 신호의 전력을 함께 고려하여 정규화한다. 특정 채널의 직접 신호 성분은 적응 필터에서 잡음처럼 동작하여 결국 적응필터가 오조정되기 때문에 제안하는 방법을 통해 적응필터의 오조정을 방지할 수 있다. 음성 신호를 사용한 컴퓨터 시뮬레이션 결과를 통해 제안하는 방법이 후처리를 사용하지 않은 경우에 비해 잡음 제거 성능(NRR)이 약 3dB 정도 개선되는 것을 확인 할 수 있다.

  • PDF

화자 겹침을 고려한 화자 전환 검출 시스템 제안 (Proposal of speaker change detection system considering speaker overlap)

  • 박지수;윤영선;차신;박전규
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.466-472
    • /
    • 2021
  • 화자 전환 검출은 대화 중에 발성 화자가 다른 사람으로 바뀌는 시점을 검출하는 것을 의미한다. 이 과정에서 화자 중복, 화자 정보 표기의 부정확성, 데이터 불균형 등으로 화자가 바뀌는 순간을 검출하는 데 어려움이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 음성 인식에 널리 사용되는 TIMIT 데이터를 가공하여 충분한 양의 훈련 데이터를 얻었으며, 화자가 겹치는지를 파악한 후에 화자 전환 여부를 판단하였다. 본 논문에서는 화자 겹침을 고려한 화자 전환 검출 시스템을 구축하기 위하여 다양한 접근법을 사용하여 성능을 평가하고 검증했다. 그 결과 화자 겹칩 영역을 제거하기 위해 X-Vector 구조와 유사한 형태의 검출 시스템과 화자 전환 검출 시스템을 모델링하기 위한 Bi-LSTM 모델을 제안하였다. 실험 결과 기준 시스템보다 상대적으로 각각 4.6 %, 13.8 % 성능 향상을 확인하였다. 또한, 실험 결과를 기반으로 텍스트 정보와 화자 정보 등을 고려한다면 좀 더 강인한 화자 전환 검출 시스템을 구축할 수 있을 것으로 판단한다.

다양한 잡음 환경하에서 환경 군집화를 통한 화자 및 환경 동시 적응 (Simultaneous Speaker and Environment Adaptation by Environment Clustering in Various Noise Environments)

  • 김영국;송화전;김형순
    • 한국음향학회지
    • /
    • 제28권6호
    • /
    • pp.566-571
    • /
    • 2009
  • 본 논문에서는 eigenvoice 방식에 기반하여 다양한 잡음 환경에 강인한 고속 화자 적응 방법을 제안하였다. 제안된 방법은 잡음 제거 기술과 환경 군집화 방법을 기반으로 한다. 그러나, 잡음 제거 기술을 통해 잡음을 제거한 후에도 여전히 잔여 잡음이 존재하므로 비음성 구간의 켑스트럼 평균을 사용하여 잡음 환경별로 화자 적응 데이터를 분류한 후 각각의 환경별로 환경 모델을 구성한다. 이러한 환경 군집화를 적응데이터에 대해 구성한 후 테스트 음성이 입력되면 군집화된 모델 중에서 인식 데이터와 가장 유사한 복수의 환경별 군집화된 화자 적응 모델을 구한 후 이들의 가중함을 통해 화자 적응을 수행하는 방법이다. 제안된 방법은 적응 및 평가를 통해 화자 독립 모델을 사용한 경우에 비해 $40{\sim}59%$ 인식 오류 감소율을 얻었다.

암묵 데이터를 활용한 인문학 인풋값과 다중 모달리티의 가중치 할당 방법에 관한 연구 (A Study on the Weight Allocation Method of Humanist Input Value and Multiplex Modality using Tacit Data)

  • 이원태;강장묵
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.157-163
    • /
    • 2014
  • 이용자의 감성은 그 어느 때보다 기업, 정부 그리고 개인 간의 소통에서 중요한 변수로 인식된다. 특히 수많은 연구에서 이용자의 감성을 파악하는 방법으로 음성 톤, 속도, 얼굴 표정, 몸의 이동 방향과 속도, 제스쳐 등이 사용된다. 다중 모달리티는 단일의 모달리티보다 정확도가 높은 반면 멀티 센싱에 따른 인식률 한계와 데이터 처리 부하 그리고 센싱된 값을 추론하는 우수한 알고리즘이 요구된다. 즉 다중 모달리티는 각 모달리티의 개념, 속성이 상이하여 인간의 감성값이라는 표준화된 값으로 전환하는데 오류가 발생할 수 있다. 이 문제를 해결하기 위해 다중 모발리티 중관계망 분석, 문맥 파악, 디지털 필터 등의 기술을 이용하여 이용자에게 우선 순위를 갖는 감성 표현 모달리티를 추출할 필요가 있다. 특정 상황에 우선 순위를 갖는 모달리티와 그 주변을 에워싼 다른 모발리티를 암묵 값으로 처리하면 감성 인식에 있어 컴퓨터 자원의 소비 대비 견고한 시스템을 구성할 수 있다. 본 연구 결과, 암묵 데이터를 활용하여 다중 모발리티 중 가중치를 어떻게 부여할지에 대하여 제안하였다.

거울 신경 체계 모델링을 위한 동적 환경에 강인한 실시간 자세추정 (Robust Real-time Pose Estimation to Dynamic Environments for Modeling Mirror Neuron System)

  • 최준호;박승민
    • 한국전자통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.583-588
    • /
    • 2024
  • BCI(뇌-컴퓨터 인터페이스) 기술의 등장으로 거울 신경을 분석하는 것이 용이해졌다. 그러나 인간의 생각에 의존하는 BCI 시스템의 정확성을 평가하는 것은 그 질적 특성으로 인해 어려움을 겪는다. BCI의 잠재력을 활용하기 위해 우리는 움직임의 궁극적인 목표에 따라 발화 속도가 영향을 받는 인간의 거울 신경의 특성을 기반으로 정확도를 측정하는 새로운 접근법을 제안한다. 본 논문에 2장에서는 거울 신경을 소개한다. 또한, 거울 신경을 위한 인간 자세 추정에 대한 설명을 제시한다. 3장에서는 인간 자세 추정 기법을 활용하여 실시간 동적 환경에 적합한 강력한 포즈 추정 방법을 소개한다. 이어서 이러한 로봇 환경을 이용한 BCI의 정확성을 분석하는 방법을 제시한다.