• 제목/요약/키워드: 음성검출

검색결과 725건 처리시간 0.026초

PC를 이용한 실시간 음성검출 알고리즘에 관한 연구 (A Study on the Fevelopment of Teal Time Speech Detection in PC)

  • 정훈;정권;정익주
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.129-132
    • /
    • 1994
  • 본 논문에서는 윈도우즈용 음성인식 software "voice access"를 개발하여 연구한 실시간 음성검출 알고리즘에 관해 소개한다. 이 음성검출 알고리즘은 200 sample 단위의 프레임 에너지, 프레임 영교차율, 음성의 길이를 음성검출의 파라메타로 사용한다. 각 파라메타의 문턱값은 신호의 평균값, 잡음의 표준편차, 미디안 표준편차와 한국어의 음성적 특성을 고려하여 설정하였으며 주변의 환경에 적응해 가며 문턱값을 조정하므로 주변 잡음환경의 변화에 대해서도 강인한 음성검출 결과를 보여준다. 또한 실시간으로 음성을 검출하므로 실용성이 높다. 음성의 검출은 일반사운드 카드를 통해 16-bit의 8KHz로 샘플링된 신호를 사용한다. 음성검출을 위한 분석은 200 sample 씩 하고 100 sample 씩 overlap 하면서 수행한다. 음성검출을 위한 모든 분석은 특별한 DSP의 도움없이 486D 이상에서 실시간으로 구현했다.시간으로 구현했다.

  • PDF

음성인식 로봇을 위한 동시통화검출 기반의 강인한 음성 끝점 검출 (Robust End Point Detection for Robot Speech Recognition Using Double Talk Detection)

  • 문성규;박진수;고한석
    • 한국음향학회지
    • /
    • 제31권3호
    • /
    • pp.161-169
    • /
    • 2012
  • 본 논문에서는 반향이 큰 로봇 환경에 강인한 음성 끝점 검출 방법을 제안한다. 양방향 대화 로봇과 같이 반향대 신호 비가 -5 dB 이하인 반향환경에서는, 반향제거기의 성능이 저하되어 사용자 음성 에너지와 비슷한 크기의 에너지를 갖는 잔여반향이 생긴다. 잡음에 강인한 기존의 음성 끝점검출 방법이라도, 사용자 음성과 비슷한 수준의 에너지를 갖는 잔여반향은 음성으로 오검출하기 때문에 정확한 음성 끝점검출이 어렵다. 반향 환경에 강인한 끝점검출을 위해, 본 논문에서는 음성/반향 구간 판별에 좋은 성능을 보이는 동시통화검출의 결과를 기존의 음성끝점검출 방법과 AND 연산하여 음성끝점검출기를 구성하였다. 제안하는 방법의 평가를 위해 반향이 큰 환경에서 고립단어 인식을 실험하였고, 다양한 실험환경에서 기존 음성 끝점검출 방법보다 평균 30 % 이상의 인식 성능 향상을 확인할 수 있었다.

통계적 모델에 근거한 음성 검출기의 설계 (Design of a Statistical Model Based Voice Activity Detector)

  • 손종서
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.465-469
    • /
    • 1998
  • 가변 전송율 음성 부호화기를 위한 음성 검출기를 통계적 모델을 적용하여 설계한다. 제안된 음성 검출기는 음성 파라미터를 decision-directed 방식으로 추정함으로써 LRT를 이용하여 동작 특성이 우수한 판정 규칙을 유도한다. 또한 음성 발생 사건들을 1차의 Markov process 로 모델링 함으로써 과거의 관찰들을 현재 프레임의 음성 검출 과정에서 고려할 수 있는 행오버 알고리즘을 개발한다. 개발된 음성 검출기는 고려된 실험환경에서 ITU-T 표준인 G.729 Annex B 음성 검출기보다 맹 우수한 성능을 나타내었다.

  • PDF

이중채널 잡음음성인식을 위한 공간정보를 이용한 통계모델 기반 음성구간 검출 (Statistical Model-Based Voice Activity Detection Using Spatial Cues for Dual-Channel Noisy Speech Recognition)

  • 신민화;박지훈;김홍국
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2010년도 하계학술대회
    • /
    • pp.150-151
    • /
    • 2010
  • 본 논문에서는 잡음환경에서의 이중채널 음성인식을 위한 통계모델 기반 음성구간 검출 방법을 제안한다. 제안된 방법에서는 다채널 입력 신호로부터 얻어진 공간정보를 이용하여 음성 존재 및 부재 확률모델을 구하고 이를 통해 음성구간 검출을 행한다. 이때, 공간정보는 두 채널간의 상호 시간 차이와 상호 크기 차이로, 음성 존재 및 부재 확률은 가우시안 커널 밀도 기반의 확률모델로 표현된다. 그리고 음성구간은 각 시간 프레임 별 음성 존재 확률 대비 음성 부재 확률의 비를 추정하여 검출된다. 제안된 음성구간 검출 방법의 평가를 위해 검출된 구간만을 입력으로 하는 음성인식 성능을 측정한다. 실험결과, 제안된 공간정보를 이용하는 통계모델 기반의 음성구간 검출 방법이 주파수 에너지를 이용하는 통계모델 기반의 음성구간 검출 방법과 주파수 스펙트럼 밀도 기반 음성구간 검출 방법에 비해 각각 15.6%, 15.4%의 상대적 오인식률 개선을 보였다.

  • PDF

스마트폰 음성 통신용 음성 검출 기술

  • 김상균;장준혁
    • 정보와 통신
    • /
    • 제29권4호
    • /
    • pp.10-14
    • /
    • 2012
  • 본고에서는 스마트폰 환경에서 음성 통신에 필요한 가변 전송률 음성 부호화기를 위한 음성 검출 기술을 알아본다. 소개할 음성 검출 기술은 통계적 모델(statistical model)을 기반으로 한 우도비 테스트(likelihood ratio test, LRT)를 이용하여 음성 존재 여부를 판단하는 결정법을 유도한다. 이후 통계적 모델을 기반으로 한 음성 검출 방법의 신뢰도를 높이기 위해 새로운 방법들이 연구되었으며 최근까지 연구가 진행 중인 통계적 모델 기반의 음성 검출 방법을 소개한다.

음성 향상 전처리와 문턱값 갱신을 적용한 향상된 음성검출 방법 (An Improved VAD Algorithm Employing Speech Enhancement Preprocessing and Threshold Updating)

  • 이윤창;안상식
    • 한국통신학회논문지
    • /
    • 제28권11C호
    • /
    • pp.1161-1168
    • /
    • 2003
  • 본 논문에서는 음성검출의 성능을 향상시킬 목적으로 정합 필터를 이용한 음성향상 전처리 과정을 통하여 SNR을 개선한 후, 이를 LLR(Log Likelihood Ratio) 검사에 의한 최적 결정방법을 적용하여 확률적인 모델을 기준으로 하는 향상된 음성검출 방법을 제안한다. 또한 기존의 음성검출 방법들에서는 제시되지 않았던 문턱값 갱신 알고리즘을 제안하며, 이 방법을 통해서 기존의 방법들에서 성능이 좋지 않았던 낮은 SNR 환경에서도 음성검출을 할 수 있게 되었다. 마지막으로 컴퓨터 시뮬레이션을 통하여 이미 상용화되어 널리 이용중인 G.729B(ITU-TG.729 Annex B)의 음성검출 결과와 비교를 통해서 제안한 음성검출 방법의 성능의 우수성을 검증하며, 실제적인 환경에도 적용이 가능함을 보인다.

엔트로피와 하모닉 검출을 이용한 잡음환경에 강인한 음성검출 (Robust Voice Activity Detection in Noisy Environment Using Entropy and Harmonics Detection)

  • 최갑근;김순협
    • 대한전자공학회논문지SP
    • /
    • 제47권1호
    • /
    • pp.169-174
    • /
    • 2010
  • 이 논문은 잡음환경에서 음성인식률 향상을 위한 끝점 검출 방법에 대해 소개한다. 제안된 방법은 엔트로피와 음성의 하모닉 검출을 이용해 음성 구간과 비음성 구간을 검출한다. 음성의 스펙트럴 에너지에 대한 엔트로피를 사용하여 끝점검출을 하게 되면 비교적 높은 SNR 환경(SNR 15dB)에서는 성능이 우수하나 잡음환경의 변화에 따라 음성과 비음성의 문턱값이 변화 하여 낮은 SNR환경(SNR 0dB)에서는 정확한 끝점 검출이 어렵다. 본 논문은 낮은 SNR 환경(0dB)에서도 정확한 끝점을 검출할 수 있도록 음성의 스펙트럴 엔트로피와 하모닉 성분을 검출하여 끝점을 검출하는 방법을 제안한다. 실험결과 기존의 엔트로피만을 이용한 방법보다 개선된 성능을 보였다.

적응형 문턱값을 가지는 2차 조건 사후 최대 확률을 이용한 통계적 모델 기반의 음성 검출기 (Statistical Model-Based Voice Activity Detection Using the Second-Order Conditional Maximum a Posteriori Criterion with Adapted Threshold)

  • 김상균;장준혁
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.76-81
    • /
    • 2010
  • 본 논문에서는 음성의 통계적 모델에 기반한 음성 검출기 (voice activity detection, VAD)의 성능 향상을 위해 2차 조건 사후 최대 확률 (second-order conditional maximum a posteriori, second-order CMAP)기법을 적용한 우도비 테스트 (likelihood ratio test, LRT)를 제안한다. 제안된 알고리즘은, 기존의 통계적 모델에 기반한 음성 검출기와 CMAP 기반의 음성 검출기를 분석한 다음, 직전 2 프레임에서 음성의 존재와 부재에 대한 조건부 확률에 따라 실시간으로 적응형 문턱값을 구하여 기하 평균한 우도비와 비교하는 음성검출 결정법 (decision rule)을 제시한다. 제안된 알고리즘을 비정상 (non-stationary) 잡음환경에서 기존의 통계적 모델에 기반한 음성 검출기, CMAP 기반의 음성 검출기와 비교하였으며, 향상된 성능을 보였다.

UMP 테스트에 근거한 새로운 통계적 음성검출기 (A New Statistical Voice Activity Detector Based on UMP Test)

  • 장근원;장준혁;김동국
    • 한국음향학회지
    • /
    • 제26권1호
    • /
    • pp.16-24
    • /
    • 2007
  • 음성검출기는 이동 통신이나 음성신호처리 등에 매우 중요한 기법으로 사용된다. 일반적인 음성검출방식은 통계적인 모델을 기반으로 하여 likelihood ratio test (LRT)를 하게 된다. 그리고 이 값을 임계값과 비교하여 음성인지 아닌지 판단하게 된다. 본 논문에서는 가우시안 (Gaussian) 분포를 기반으로 하고 uniformly most powerful (UMP) 테스트를 이용하여 새로운 음성검출기법을 제안한다. 새로운 음성검출기법의 결정규칙은 기존 LRT에 기반하여 UMP 테스트를 통해 식을 유도하였다. UMP 테스트를 이용하면, 입력음성에 대한 절대값의 확률 분포를 Rayleigh 분포 형태로 얻을 수 있으며, 이 분포에 따라 최종적으로 음성검출을 하게 된다. 이 새로운 방식의 음성검출기는 기존의 방식에서 필요한 a priori signal-to-noise ratio (SNR) 값을 구하지 않고도 음성 유무를 판단할 수 있다는 장점이 있다. 실제로 다양한 음성검출에 대한 성능 평가결과, 제안된 기법이 기존 방식에 비해 우수한 성능을 나타내었다.

궤환구조를 가지는 변별적 가중치 학습에 기반한 음성검출기 (Voice Activity Detection Based on Discriminative Weight Training with Feedback)

  • 강상익;장준혁
    • 한국음향학회지
    • /
    • 제27권8호
    • /
    • pp.443-449
    • /
    • 2008
  • 이동통신에서 배경잡음이 존재하는 실제 환경에서 음성신호처리의 가장 중요한 이슈중의 하나는 강인한 음성검출기를 설계하는 것이다. 상대적으로 간단하면서도 성능이 우수하여 대표적인 음성검출기로 사용되는 통계적모델기반 기법은 각 주파수 채널별 우도비를 이용하여 음성검출 검출식을 만들어내는 방식이다. 최근, 변별적 가중치 학습 (discriminative weight training)을 이용하여 주파수 체널별 가중치가 인가된 우도비를 이용한 음성검출 결정식을 갖는 음성검출기가 제안 되었으며 상대적으로 우수한 성능을 보였다. 본 연구에서는 기존의 변별적 가중치 학습의 입력벡터에 이전프레임의 결정식을 궤환구조형태를 바탕으로 추가하는 새로운 방식을 제안한다. 제안된 기법은 비정상 (non-staionary) 잡음 환경에서 객관적인 방법을 통해 상호비교 분석되었으며 결론적으로 우수한 성능을 보였다.