• 제목/요약/키워드: 바이모달 음성인식

검색결과 11건 처리시간 0.026초

잡음환경에서의 바이모달 음성인식 (Bi-modal speech recognition in noisy environments)

  • 박병구
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.111-114
    • /
    • 1998
  • 기존의 음성인식시스템의 잡음환경에서 인식률의 한계를 극복하기 위해 음성신호뿐만이 아니라 입술정보를 결합하여 음성인식에 이용하여 바이모달(Bi-modal) 음성인식이 근래에 제안되어지고 있다. 그래서 바이모달 음성인식 시스템을 실제로 구현해보고 인식 실험을 수행해 보았다. 입술영상은 이미지에 근거한 입술모양을 파라메터화하여 인식실험에 사용하였으며 음성과 입술영상을 각각 인식한 후 인식스코어(Score)에 가중치를 적용하여 통합하는 방법을 사용하였다. 마지막으로 바이모달 음성인식의 잡음환경에서의 성능을 알아보기 위해 음성신호에 여러 레벨의 잡음을 섞어서 실험을 하고 잡음환경에서 인식률의 한계를 입술정보를 이용하여 극복할 수 있다는 것을 보이고자 한다.

  • PDF

바이모달 음성인식기의 시각 특징 추출을 위한 색상 분석자 SVM을 이용한 입술 위치 검출 (Lip Detection using Color Distribution and Support Vector Machine for Visual Feature Extraction of Bimodal Speech Recognition System)

  • 정지년;양현승
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.403-410
    • /
    • 2004
  • 바이모달 음성인식기는 잡음 환경하 음성인식 성능을 향상하기 위해 고안되었다. 바이모달 음 성인식기에 있어 영상을 통한 시각 특징 추출은 매우 중요한 역할을 하며 이를 위한 입술 위치 검출은 시각 특징 추출을 위한 중요한 선결 과제이다 본 논문은 색상분포와 SVM을 이용하여 시각 특징 추출을 위한 입술 위치 검출 방법을 제안하였다. 제안된 방법은 얼굴색/입술 색상 분포를 학습하여 이로부터 입술의 초기 위치를 빠르게 찾아내고 SVM을 이용하여 입술의 정확한 위치를 찾음으로써 정확하고 빠르게 입술의 위치를 찾도록 하였으며 실험을 통해 바이모달 인식기에 적용하기에 적합함을 알 수 있었다.

얼굴과 음성 정보를 이용한 바이모달 시스템 설계 및 구현 (Design and Implementation of Bimodal System using Face and Audio)

  • 김명훈;이지근;정성태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.701-704
    • /
    • 2005
  • 최근 들어 바이모달 인식에 관한 연구가 활발히 진행되고 있다. 본 논문에서는 음성과 얼굴을 이용하여 바이모달 시스템을 구현하였다. 얼굴인식은 객체 분류 기법인 SVM을 이용하여 얼굴을 검출 및 인식하였으며, 음성인식은 HMM을 이용하여 음성인식을 하였다. 각기 인식된 결과에 대해 합성을 통하여 잡음에 의해 낮아지는 음성 인식률을 얼굴 인식과 같이 사용함으로서, 전체적인 인식률 향상을 볼 수 있다.

  • PDF

잡음환경에서의 바이모달 시스템을 위한 견실한 끝점검출 (Robust Endpoint Detection for Bimodal System in Noisy Environments)

  • 오현화;권홍석;손종목;진성일;배건성
    • 전자공학회논문지CI
    • /
    • 제40권5호
    • /
    • pp.289-297
    • /
    • 2003
  • 음성인식 시스템과 입술독해 시스템을 결합한 하여 음향학적 잡음에 대하여 안정된 성능을 갖는 바이모달(bimodal) 시스템을 구현한다. 바이모달 시스템의 성능은 두 인식 시스템의 성능뿐만 아니라 입력 신호의 끝점검출 성능에도 크게 영향을 받는다. 본 논문에서는 음성신호와 영상신호에서 끝점을 자각 자동 검출하여 입력 음성신호로부터 음성신호에서 추정한 신호대잡음비(signal-to-noise ratio: SNR)로 두 끝점검출 결과를 선택하는 방법을 제안한다. 즉 낮은 SNR에서는 영상신호로부터 검출된 끝점을 선택하고 높은 SNR에서는 음성신호로부터 검출된 끝점을 선택함으로써 음향학적 잡음에 대하여 견실하게 끝점을 검출한다. 제안한 끝점검출 방법이 적용된 바이모달 시스템이 강한 음향학적 잡음에 대하여 만족스러운 인식성능을 나타냄을 실험견과에서 확인할 수 있다.

입술정보추출 및 파라미터 선정 방법에 따른 바이모달 음성인식 성능 비교 (Effects of Extraction Method and Choice of Lip Parameters on the Bi-modal Speech Recognition)

  • 박병구
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.347-350
    • /
    • 1998
  • 음성신호와 영상신호를 함께 이용하는 바이모달(Bi-modal)음성인식에서 어떤 입술 파라미터를 사용하는가에 따라 인식시스템의 성능이 달라진다. 그래서 본 논문에서는 이미지에 근거한 입술파라미터를 견인하게 추출하기 위한 방법으로 x 프로파일(profile)을 이용한 방법을 사용하였다. 파라미터를 선정을 달리하여 실험한 결과 15dB이상에서는 안쪽입술의 2개의 파라미터를 이용한 경우가, 10dB이하에서는 4개의 입술파라미터를 이용한 경우가 더 좋은 인식률을 보였다. 안쪽 입술 파라미터를 이용한 경우가 바깥쪽 입술 파라미터를 이용한 경우보다 더 좋은 인식률을 보였다.

  • PDF

입술 파라미터 선정에 따른 바이모달 음성인식 성능 비교 및 검증 (Performance Comparison and Verification of Lip Parameter Selection Methods in the Bimodal Speech ]Recognition System)

  • 박병구;김진영;임재열
    • 한국음향학회지
    • /
    • 제18권3호
    • /
    • pp.68-72
    • /
    • 1999
  • 바이모달 음성인식 시스템에서 어떤 입술파라미터를 선정하느냐 그리고 얼마나 견인하게 추출하는 가에 따라서 인식률에 큰 영향을 미친다. 그래서 본 논문에서는 자동 추출 알고리듬을 이용하여 입술파라미터를 추출하고 안쪽 입술 파라미터가 바깥 입술 파라미터보다 바이모달 음성인식 시스템에 더 많은 영향을 미친다는 것을 보였다. 그리고 손으로 추출한 추출알고리듬과 비교하여 자동 추출알고리듬의 신뢰성을 비교하였다.

  • PDF

얼굴과 음성 정보를 이용한 바이모달 사용자 인식 시스템 설계 및 구현 (Design and Implementation of a Bimodal User Recognition System using Face and Audio)

  • 김명훈;이지근;소인미;정성태
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.353-362
    • /
    • 2005
  • 최근 들어 바이모달 인식에 관한 연구가 활발히 진행되고 있다. 본 논문에서는 음성 정보와 얼굴정보를 이용하여 바이모달 시스템을 구현하였다. 얼굴인식은 얼굴 검출과 얼굴 인식 두 부분으로 나누어서 실험을 하였다. 얼굴 검출 단계에서는 AdaBoost를 이용하여 얼굴 후보 영역을 검출 한 뒤 PCA를 통해 특징 벡터 계수를 줄였다. PCA를 통해 추출된 특징 벡터를 객체 분류 기법인 SVM을 이용하여 얼굴을 검출 및 인식하였다. 음성인식은 MFCC를 이용하여 음성 특징 추출을 하였으며 HMM을 이용하여 음성인식을 하였다. 인식결과, 단일 인식을 사용하는 것보다 얼굴과 음성을 같이 사용하였을 때 인식률의 향상을 가져왔고, 잡음 환경에서는 더욱 높은 성능을 나타냈었다.

  • PDF

바이모달 음성인식의 음성정보와 입술정보 결합방법 비교 (Comparison of Integration Methods of Speech and Lip Information in the Bi-modal Speech Recognition)

  • 박병구;김진영;최승호
    • 한국음향학회지
    • /
    • 제18권4호
    • /
    • pp.31-37
    • /
    • 1999
  • 잡음환경에서 음성인식 시스템의 성능을 향상시키기 위해서 영상정보와 음성정보를 이용한 바이모달(bimodal)음성인식이 제안되어왔다. 영상정보와 음성정보의 결합방식에는 크게 분류하여 인식 전 결합방식과 인식 후 결합방식이 있다. 인식 전 결합방식에서는 고정된 입술파라미터 중요도를 이용한 결합방법과 음성의 신호 대 잡음비 정보에 따라 가변 입술 파라미터 중요도를 이용하여 결합하는 방법을 비교하였고, 인식 후 결합방식에서는 영상정보와 음성정보를 독립적으로 결합하는 방법, 음성 최소거리 경로정보를 영상인식에 이용 결합하는 방법, 영상 최소거리 경로정보를 음성인식에 이용 결합하는 방법, 그리고 음성의 신호 대 잡음비 정보를 이용하여 결합하는 방법을 비교했다. 6가지 결합방법 중 인식 전 결합방법인 파라미터 중요도를 이용한 결합방법이 가장 좋은 인식결과를 보였다.

  • PDF

시간영역 이미지 필터링에 의한 립리딩 성능 향상 (Time domain Filtering of Image for Lip-reading Enhancement)

  • 이지은;김진영;이주헌
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.45-48
    • /
    • 2001
  • 립리딩은 잡음 환경 하에서 음성 인식 성능을 향상을 위해 영상정보를 이용한 바이모달(bimodal)음성인식으로 연구되었다[1][2]. 그 일환으로 이미 영상정보를 이용한 립리딩은 구현되었다. 그러나 현재까지의 시스템들은 환경의 변화에 강인하지 못하다. 본 논문에서는 이미지 기반 립리딩 방법을 적용하여 입술 영역을 보다 안정적으로 찾아 성능을 향상 시켰다. 그러나 이 방법은 많은 데이터량을 처리해야 하므로 전처리 과정이 필요하다. 전처리로 입력영상을 그레이 레벨로 변환하는 방법과, 입술을 반으로 접는 방법, 그리고 주성분 분석(PCA: Principal Component Analysis)을 사용하였다. 또한 인식성능 향상을 위해 음성에서 잡음 제거나 분석$\cdot$합성에 효과적인 성능을 보이는 RASTA(Relative Spectral)필터를 적용하여 시간 영역에서의 변화가 적은 성분이나 급변하는 성분, 그 밖의 잡음 등을 제거하였다. 그 결과 $72.7\%$의 높은 인식 성능을 보였다.

  • PDF

입술정보를 이용한 음성 특징 파라미터 추정 및 음성인식 성능향상 (Estimation of speech feature vectors and enhancement of speech recognition performance using lip information)

  • 민소희;김진영;최승호
    • 대한음성학회지:말소리
    • /
    • 제44호
    • /
    • pp.83-92
    • /
    • 2002
  • Speech recognition performance is severly degraded under noisy envrionments. One approach to cope with this problem is audio-visual speech recognition. In this paper, we discuss the experiment results of bimodal speech recongition based on enhanced speech feature vectors using lip information. We try various kinds of speech features as like linear predicion coefficient, cepstrum, log area ratio and etc for transforming lip information into speech parameters. The experimental results show that the cepstrum parameter is the best feature in the point of reconition rate. Also, we present the desirable weighting values of audio and visual informations depending on signal-to-noiso ratio.

  • PDF