• 제목/요약/키워드: speaker dependent system

검색결과 76건 처리시간 0.022초

Achieving Faster User Enrollment for Neural Speaker Verification Systems

  • Lee, Tae-Seung;Park, Sung-Won;Lim, Sang-Seok;Hwang, Byong-Won
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.205-208
    • /
    • 2003
  • While multilayer perceptrons (MLPs) have great possibility on the application to speaker verification, they suffer from inferior learning speed. to appeal to users, the speaker verification systems based on MLPs must achieve a reasonable enrolling speed and it is thoroughly dependent on the fast learning of MLPs. To attain real-time enrollment on the systems, the previous two studies have been devoted to the problem and each satisfied the objective. In this paper the two studies are combined md applied to the systems, on the assumption that each method operates on different optimization principle. By conducting experiments using an MLP-based speaker verification system to which the combination is applied on real speech database, the feasibility of the combination is verified from the results of the experiments.

  • PDF

A Study on the Isolated word Recognition Using One-Stage DMS/DP for the Implementation of Voice Dialing System

  • Seong-Kwon Lee
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 FIFTH WESTERN PACIFIC REGIONAL ACOUSTICS CONFERENCE SEOUL KOREA
    • /
    • pp.1039-1045
    • /
    • 1994
  • The speech recognition systems using VQ have usually the problem decreasing recognition rate, MSVQ assigning the dissimilar vectors to a segment. In this paper, applying One-stage DMS/DP algorithm to the recognition experiments, we can solve these problems to what degree. Recognition experiment is peformed for Korean DDD area names with DMS model of 20 sections and word unit template. We carried out the experiment in speaker dependent and speaker independent, and get a recognition rates of 97.7% and 81.7% respectively.

  • PDF

감정 상호작용 로봇을 위한 신뢰도 평가를 이용한 화자독립 감정인식 (Speech Emotion Recognition Using Confidence Level for Emotional Interaction Robot)

  • 김은호
    • 한국지능시스템학회논문지
    • /
    • 제19권6호
    • /
    • pp.755-759
    • /
    • 2009
  • 인간의 감정을 인식하는 기술은 인간-로봇 상호작용 분야의 중요한 연구주제 중 하나이다. 특히, 화자독립 감정인식은 음성감정인식의 상용화를 위해 꼭 필요한 중요한 이슈이다. 일반적으로, 화자독립 감정인식 시스템은 화자종속 시스템과 비교하여 감정특징 값들의 화자 그리고 성별에 따른 변화로 인하여 낮은 인식률을 보인다. 따라서 본 논문에서는 신뢰도 평가방법을 이용한 감정인식결과의 거절 방법을 사용하여 화자독립 감정인식 시스템을 일관되고 정확하게 구현할 수 있는 방법을 제시한다. 또한, 제안된 방법과 기존 방법의 비교를 통하여 제안된 방법의 효율성 및 가능성을 검증한다.

Attention-long short term memory 기반의 화자 임베딩과 I-vector를 결합한 원거리 및 잡음 환경에서의 화자 검증 알고리즘 (Speaker verification system combining attention-long short term memory based speaker embedding and I-vector in far-field and noisy environments)

  • 배아라;김우일
    • 한국음향학회지
    • /
    • 제39권2호
    • /
    • pp.137-142
    • /
    • 2020
  • 문장 종속 짧은 발화에서 문장 독립 긴 발화까지 다양한 환경에서 I-vector 특징에 기반을 둔 많은 연구가 수행되었다. 본 논문에서는 원거리 잡음 환경에서 녹음한 데이터에서 Probabilistic Linear Discriminant Analysis(PLDA)를 적용한 I-vector와 주의 집중 기법을 접목한 Long Short Term Memory(LSTM) 기반의 화자 임베딩을 추출하여 결합한 화자 검증 알고리즘을 소개한다. LSTM 모델의 Equal Error Rate(EER)이 15.52 %, Attention-LSTM 모델이 8.46 %로 7.06 % 성능이 향상되었다. 이로써 본 논문에서 제안한 기법이 임베딩을 휴리스틱 하게 정의하여 사용하는 기존 추출방법의 문제점을 해결할 수 있는 것을 확인하였다. PLDA를 적용한 I-vector의 EER이 6.18 %로 결합 전 가장 좋은 성능을 보였다. Attention-LSTM 기반 임베딩과 결합하였을 때 EER이 2.57 %로 기존보다 3.61 % 감소하여 상대적으로 58.41 % 성능이 향상되었다.

채널에 강인한 화자 인식을 위한 채널 정규화 피치 동기 켑스트럼에 관한 연구 (A Study on the Channel Normalized Pitch Synchronous Cepstrum for Speaker Recognition)

  • 김유진;정재호
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.61-74
    • /
    • 2004
  • 본 논문에서는 채널 환경에 강인한 화자 인식 시스템을 위하여 문맥과 화자에 종속적인 켑스트럼 추출 방법과 추출된 켑스트럼에서 화자 정보의 손실을 최소화하는 채널 정규화 방법을 제안하였다. 제안된 추출 방법은 화자의 고유한 피치를 이용한 피치 동기 분석 방법에 기반을 두어 켑스트럼을 추출한다. 따라서 일명 피치 동기 켑스트럼 (PSC)은 유성음 구간에서 성도의 임펄스 응답을 보다 정확하게 표현할 수 있다. 또한 피치는 채널 환경에서 스펙트럼에 비해 강인하므로 피치 동기 켑스트럼은 채널에 의한 스펙트럼의 왜곡을 보상할 수 있다. 제안된 채널 정규화방법인 포먼트 평활화 피치 동기 켑스트랄 평균 차감법 (FBPSCMS)은 포먼트 평활화 켑스트랄 평균 차감법을 PSC에 적용하여 프레임 내 처리의 정확도를 개선시킨다. 제안된 방법들의 화자 인식 성능을 비교하기 위해 남자 112명과 여자 56명에 대해 WMIT과 전화선 환경의 NTIMIT을 이용한 화자 식별을 수행하였다. 실험 결과 피치 동기 LPCC는 기존 단구간 켑스트럼과 비교하여 에러 감소율을 최대 7.7%까지 향상시켰고, FBPSCMS는 극점 필터링 CMS에 비해 보다 안정되고 낮은 에러율을 나타내었다.

신경망 기반 화자증명 시스템에서 더욱 향상된 사용자 등록속도 (Faster User Enrollment for Neural Speaker Verification Systems)

  • Lee, Tae-Seung;Park, Sung-Won;Hwang, Byong-Won
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 추계종합학술대회
    • /
    • pp.1021-1026
    • /
    • 2003
  • MLP(multilayer perceptron)는 화자증명에 대한 응용에 있어 우수한 특질을 지니고 있지만 동시에 느린 학습속도의 문제를 안고 있다. 편리한 사용을 위해 MLP에 기반한 화자증명 시스템에서는 신속한 화자등록이 요구되며 이 문제는 MLP의 빠른 학습속도에 전적으로 의존한다. 이러한 시스템에서 실시간 등록을 달성하기 위해 지금까지 두 가지 측면에서 연구가 시도되었으며 각기 의도한 목적을 달성하였다. 본 논문에서는 이 두 방법이 상이한 최적화 원리에서 동작한다는 가정 하에 이들을 결합하고 이를 MLP 기반 화자증명 시스템에 적용한다. 이러한 결합이 화자등록 속도를 더욱 향상시킬 수 있다는 사실은 한국어 음성 데이터베이스를 이용한 실험결과에서 입증된다.

  • PDF

확률적 매칭 방법을 사용한 음소열 기반 음성 인식 (Phonetic Transcription based Speech Recognition using Stochastic Matching Method)

  • 김원구
    • 한국지능시스템학회논문지
    • /
    • 제17권5호
    • /
    • pp.696-700
    • /
    • 2007
  • 본 논문에서는 화자 독립 음소 인식기를 사용하는 음소열 기반 음성 인식 시스템의 성능을 향상시키는 새로운 방법을 제안하였다. 화자독립 음소 HMM을 사용하는 음성 인식 시스템은 입력 문장에 대한 음소열만을 사용하므로 저장 공간은 크게 줄일 수 있다. 그러나 시스템의 성능은 화자독립 모델을 사용하므로 발생하는 음소 오차 때문에 화자 종속 시스템보다 저하된다. 여기에서는 화자 적응 기술을 사용하여 화자독립 모델과 학습 데이터간의 불일치를 감소시키도록 음소열과 변환 벡터를 반복적으로 추정하는 학습 방법을 제안하였다. 화자 적응을 위한 변환 벡터를 추정하기 위하여 확률적 매칭 방법이 사용되었다. 실험은 전화선을 통하여 얻어진 데이터를 사용한 실험에서 기존 방법에 비하여 약 45%정도 오차가 감소되었다.

On-Line Linear Combination of Classifiers Based on Incremental Information in Speaker Verification

  • Huenupan, Fernando;Yoma, Nestor Becerra;Garreton, Claudio;Molina, Carlos
    • ETRI Journal
    • /
    • 제32권3호
    • /
    • pp.395-405
    • /
    • 2010
  • A novel multiclassifier system (MCS) strategy is proposed and applied to a text-dependent speaker verification task. The presented scheme optimizes the linear combination of classifiers on an on-line basis. In contrast to ordinary MCS approaches, neither a priori distributions nor pre-tuned parameters are required. The idea is to improve the most accurate classifier by making use of the incremental information provided by the second classifier. The on-line multiclassifier optimization approach is applicable to any pattern recognition problem. The proposed method needs neither a priori distributions nor pre-estimated weights, and does not make use of any consideration about training/testing matching conditions. Results with Yoho database show that the presented approach can lead to reductions in equal error rate as high as 28%, when compared with the most accurate classifier, and 11% against a standard method for the optimization of linear combination of classifiers.

자동차 선루프 제어용 음성 명령 시스템 구현 (Implementation of voice Command System to control the Car Sunroof)

  • 정윤식;임재열
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.1095-1098
    • /
    • 1999
  • We have developed a speaker dependent voice command system(VCS) to control the sunroof in the car using RSC-164 VRP(Voice Recognition Processor). VCS consists of control circuits, microphone, speaker and user switch box. The control circuits include RSC-164, input audio preamplifier, memory devices, and relay circuit for sunroof control. It is designed robustly in various car noisy situations like audio volume, air conditioner, and incoming noise when window or sunroof opened. Each two users can control the car sunroof using seven voice commands on the Super TVS model and five voice commands on the Onyx model. It works well when we drive the car at over 100 km/h with the sunroof opened.

  • PDF

CHMM을 이용한 발매기 명령어의 음성인식에 관한 연구 (A Study on the Speech Recognition for Commands of Ticketing Machine using CHMM)

  • 김범승;김순협
    • 한국철도학회논문집
    • /
    • 제12권2호
    • /
    • pp.285-290
    • /
    • 2009
  • 논문에서는 연속HMM(Continuos Hidden Markov Model)을 이용하여 실시간으로 발매기 명령어(314개 역명)를 인식 할 수 있도록 음성인식 시스템을 구현하였다. 특징 벡터로 39 MFCC를 사용하였으며, 인식률 향상을 위하여 895개의 tied-state 트라이폰 음소 모델을 구성하였다. 시스템 성능 평가 결과 다중 화자 종속 인식률은 99.24%, 다중화자 독립 인식률은 98.02%의 인식률을 나타내었으며, 실제 노이즈가 있는 환경에서 다중 화자 독립 실험의 경우 93.91%의 인식률을 나타내었다.