• 제목/요약/키워드: utterance verification

검색결과 42건 처리시간 0.027초

Attention-long short term memory 기반의 화자 임베딩과 I-vector를 결합한 원거리 및 잡음 환경에서의 화자 검증 알고리즘 (Speaker verification system combining attention-long short term memory based speaker embedding and I-vector in far-field and noisy environments)

  • 배아라;김우일
    • 한국음향학회지
    • /
    • 제39권2호
    • /
    • pp.137-142
    • /
    • 2020
  • 문장 종속 짧은 발화에서 문장 독립 긴 발화까지 다양한 환경에서 I-vector 특징에 기반을 둔 많은 연구가 수행되었다. 본 논문에서는 원거리 잡음 환경에서 녹음한 데이터에서 Probabilistic Linear Discriminant Analysis(PLDA)를 적용한 I-vector와 주의 집중 기법을 접목한 Long Short Term Memory(LSTM) 기반의 화자 임베딩을 추출하여 결합한 화자 검증 알고리즘을 소개한다. LSTM 모델의 Equal Error Rate(EER)이 15.52 %, Attention-LSTM 모델이 8.46 %로 7.06 % 성능이 향상되었다. 이로써 본 논문에서 제안한 기법이 임베딩을 휴리스틱 하게 정의하여 사용하는 기존 추출방법의 문제점을 해결할 수 있는 것을 확인하였다. PLDA를 적용한 I-vector의 EER이 6.18 %로 결합 전 가장 좋은 성능을 보였다. Attention-LSTM 기반 임베딩과 결합하였을 때 EER이 2.57 %로 기존보다 3.61 % 감소하여 상대적으로 58.41 % 성능이 향상되었다.

웹 기반의 화자확인시스템 설계에 관한 연구 (A Study on the Design of Web-based Speaker Verification System)

  • 이재희;강철호
    • 한국음향학회지
    • /
    • 제19권4호
    • /
    • pp.23-30
    • /
    • 2000
  • 본 연구에서는 인터넷 웹 기반의 화자확인시스템을 설계하였다. 웹 기반의 화자확인 시스템에 적용할 화자인식기법을 선정하기 위해 문자종속 화자인식기법들(DTW, DHMM, SCHMM)의 성능 및 특징들을 컴퓨터 시뮬레이션을 통하여 비교 평가하였다. 컴퓨터 시뮬레이션 결과를 이용하여 웹 기반의 화자확인시스템에 적합한 인식성능 및 초기 학습발음수를 갖는 DHMM을 화자인식기법으로 선정하고 이를 분산처리환경에서 동작하도록 Activex, DCOM기술을 이용하여 3계층방식으로 설계하였다.

  • PDF

SVM Based Speaker Verification Using Sparse Maximum A Posteriori Adaptation

  • Kim, Younggwan;Roh, Jaeyoung;Kim, Hoirin
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제2권5호
    • /
    • pp.277-281
    • /
    • 2013
  • Modern speaker verification systems based on support vector machines (SVMs) use Gaussian mixture model (GMM) supervectors as their input feature vectors, and the maximum a posteriori (MAP) adaptation is a conventional method for generating speaker-dependent GMMs by adapting a universal background model (UBM). MAP adaptation requires the appropriate amount of input utterance due to the number of model parameters to be estimated. On the other hand, with limited utterances, unreliable MAP adaptation can be performed, which causes adaptation noise even though the Bayesian priors used in the MAP adaptation smooth the movements between the UBM and speaker dependent GMMs. This paper proposes a sparse MAP adaptation method, which is known to perform well in the automatic speech recognition area. By introducing sparse MAP adaptation to the GMM-SVM-based speaker verification system, the adaptation noise can be mitigated effectively. The proposed method utilizes the L0 norm as a regularizer to induce sparsity. The experimental results on the TIMIT database showed that the sparse MAP-based GMM-SVM speaker verification system yields a 42.6% relative reduction in the equal error rate with few additional computations.

  • PDF

화자확인 시스템을 위한 분절 알고리즘 (A Blind Segmentation Algorithm for Speaker Verification System)

  • 김지운;김유진;민홍기;정재호
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.45-50
    • /
    • 2000
  • 본 논문에서는 하위단어에 기반한 전화선 채널에서의 어구 종속 화자 확인 시스템을 위한 음성 분할 알고리즘인, 파라미트릭 필터링에 기반한 델타 에너지를 제안한다. 제안한 알고리즘은 특정 밴드의 주파수를 기준으로 대역폭을 변화시키며 필터링한 후 델타 에너지를 이용하는 방법으로 다른 알고리즘에 비해 주변환경에 강인한 것으로 나타났다. 이를 이용해 음성을 하위단어로 분할하고, 각 하위단어를 이용해 화자의 성문을 모델링하였다. 제안한 알고리즘의 성능 평가를 위해 EER(Equal Error Rate)를 사용한다. 그 결과 단일 모델의 EER이 약 6.1%, 하위 단어 모델의 EER이 약 4.0%로 본 논문에서 제안한 알고리즘을 사용했을 때 약 2%의 성능이 향상되었다.

  • PDF

화자확인에서 일정한 결과를 얻기 위한 빠른 순시 확률비 테스트 방법 (Fast Sequential Probability Ratio Test Method to Obtain Consistent Results in Speaker Verification)

  • 김은영;서창우;전성채
    • 말소리와 음성과학
    • /
    • 제2권2호
    • /
    • pp.63-68
    • /
    • 2010
  • A new version of sequential probability ratio test (SPRT) which has been investigated in utterance-length control is proposed to obtain uniform response results in speaker verification (SV). Although SPRTs can obtain fast responses in SV tests, differences in the performance may occur depending on the compositions of consonants and vowels in the sentences used. In this paper, a fast sequential probability ratio test (FSPRT) method that shows consistent performances at all times regardless of the compositions of vocalized sentences for SV will be proposed. In generating frames, the FSPRT will first conduct SV test processes with only generated frames without any overlapping and if the results do not satisfy discrimination criteria, the FSPRT will sequentially use frames applied with overlapping. With the progress of processes as such, the test will not be affected by the compositions of sentences for SV and thus fast response outcomes and even consistent performances can be obtained. Experimental results show that the FSPRT has better performance to the SPRT method while requiring less complexity with equal error rates (EER).

  • PDF

서브밴드 가중치를 이용한 잡음에 강인한 화자검증 (Noise Rabust Speaker Verification Using Sub-Band Weighting)

  • 김성탁;지미경;김회린
    • 한국음향학회지
    • /
    • 제28권3호
    • /
    • pp.279-284
    • /
    • 2009
  • 화자검증은 발성화자가 제시화자 (claimed speaker)인지 아닌지를 구별하는 것이다. 기존의 화자검증 시스템인 GMM-UBM 방식의 화자검증 시스템은 무잡음 환경에서는 높은 검증성능을 보이지만, 잡음환경에서는 성능이 급격히 떨어지는 단점이 있다. 이런 단점을 극복하기 위해 멀티밴드를 이용한 방법인 특징벡터 재결합방법이 제안되었지만, 특징벡터 재결합방법은 전체 서브밴드 특징벡터들을 사용하여 유사도를 계산하는 단점이 있다. 이런 단점을 극복하기 위해 기 발표된 이전 논문에서 각 서브밴드 유사도를 독립적으로 계산하는 변형된 특징벡터 재결합방법을 제안하였고, 본 논문에서는 변형된 특징벡터 재결합방법과 각 서브밴드들의 신뢰도를 나타내는 신호 대 잡음비를 이용한 가중치를 이용하여 잡음환경에서 기존의 특징벡터 재결합방법에 비해 에러를 28% 감소시켰다.

가변 길이 입력 발성에서의 화자 인증 성능 향상을 위한 통합된 수용 영역 다양화 기법 (Integrated receptive field diversification method for improving speaker verification performance for variable-length utterances)

  • 신현서;김주호;허정우;심혜진;유하진
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.319-325
    • /
    • 2022
  • 화자 인증 시스템에서 입력 발성 길이의 변화는 성능을 하락시킬 수 있는 대표적인 요인이다. 이러한 문제점을 개선하기 위해, 몇몇 연구에서는 시스템 내부의 특징 가공 과정을 여러가지 서로 다른 경로에서 수행하거나 서로 다른 수용 영역(Receptive Field)을 가진 합성곱 계층을 활용하여 다양한 화자 특징을 추출하였다. 이러한 연구에 착안하여, 본 연구에서는 가변 길이 입력 발성을 처리하기 위해 보다 다양한 수용 영역에서 화자 정보를 추출하고 이를 선택적으로 통합하는 통합된 수용 영역 다양화 기법을 제안한다. 제안한 통합 기법은 입력된 특징을 여러가지 서로 다른 경로에서 다른 수용 영역을 가진 합성곱 계층으로 가공하며, 가공된 특징을 입력 발성의 길이에 따라 동적으로 통합하여 화자 특징을 추출한다. 본 연구의 심층신경망은 VoxCeleb2 데이터세트로 학습되었으며, 가변 길이 입력 발성에 대한 성능을 확인하기 위해 VoxCeleb1 평가 데이터 세트를 1 s, 2 s, 5 s 길이로 자른 발성과 전체 길이 발성에 대해 각각 평가를 수행하였다. 실험 결과, 통합된 수용 영역 다양화 기법이 베이스라인 대비 동일 오류율을 평균적으로 19.7 % 감소시켜, 제안한 기법이 가변 길이 입력 발성에 의한 성능 저하를 개선할 수 있음을 확인하였다.

DSP Processor(TMS320C32)를 이용한 화자인증 보안시스템의 구현 (Implementation of Speaker Verification Security System Using DSP Processor(TMS320C32))

  • 함영준;권혁재;최수영;정익주
    • 산업기술연구
    • /
    • 제21권B호
    • /
    • pp.107-116
    • /
    • 2001
  • The speech includes various kinds of information : language information, speaker's information, affectivity, hygienic condition, utterance environment etc. when a person communicates with others. All technologies to utilize in real life processing this speech are called the speech technology. The speech technology contains speaker's information that among them and it includes a speech which is known as a speaker recognition. DTW(Dynamic Time Warping) is the speaker recognition technology that seeks the pattern of standard speech signal and the similarity degree in an inputted speech signal using dynamic programming. ln this study, using TMS320C32 DSP processor, we are to embody this DTW and to construct a security system.

  • PDF

발화 검증에 의한 음성인식 거절기능 연구 (A Study on the Rejection Capability based on Utterance Verification for Speech Recognition)

  • 김우성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.67-70
    • /
    • 1998
  • 본 논문에서는 단어독립 음성인식 시스템을 위한 음성인식 거절(rejection)기능에 대해 기술한다. 음성인식 거절 기능은 음성인식기를 제작할 때 정해놓은 인식대상 단어 이외의 단어가 입력되었을 때 그 단어가 인식할 수 없는 단어임을 알려주는 기능이다. 본 연구에서는 단어독립 음성인식 시스템에 적용될 수 있는 발화 검증 방식에 의해 음성인식 거절 기능을 구현하였다. 특히 유사도를 결정함에 있어서 산술평균, 기하평균, 조화평균을 사용하고 각각을 비교하여, 기하 평균을 사용하는 방식이 우수한 성능을 보임을 알 수 있었다. 음성의 신뢰도(confidence score)를 정규화하기 위해서 Sigmoid 함수를 사용하는데 이 함수의 가중치(weight) 상수의 변화에 대해 인식률을 비교함으로써 가장 적절한 가중치 상수값을 결정하였다. 음성인식 테스트 결과에서는 신뢰도 임계치 값을 구하고 이 값을 사용하여 인식률을 계산하였으며, 거절의 오류까지 포함된 음성인식률은 약 76%였다. 이 연구결과는 현재 한국통신에서 시험 서비스 중인 음성인식 증권정보 안내 시스템에 적용될 예정이다.

  • PDF

Viterbi 탐색 특성을 이용한 미등록어휘 제거에 대한 연구 (A Study on OOV Rejection Using Viterbi Search Characteristics)

  • 김규홍;김회린
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 춘계 학술대회 발표논문집
    • /
    • pp.95-98
    • /
    • 2005
  • Many utterance verification (UV) algorithms have been studied to reject out-of-vocabulary (OOV) in speech recognition systems. Most of conventional confidence measures for UV algorithms are mainly based on log likelihood ratio test, but these measures take much time to evaluate the alternative hypothesis or anti-model likelihood. We propose a novel confidence measure which makes use of a momentary best scored state sequence during Viterbi search. Our approach is more efficient than conventional LRT-based algorithms because it does not need to build anti-model or to calculate the alternative hypothesis. The proposed confidence measure shows better performance in additive noise-corrupted speech as well as clean speech.

  • PDF