• 제목/요약/키워드: speaker

검색결과 1,676건 처리시간 0.025초

신뢰성 높은 서브밴드 특징벡터 선택을 이용한 잡음에 강인한 화자검증 (Noise Robust Speaker Verification Using Subband-Based Reliable Feature Selection)

  • 김성탁;지미경;김회린
    • 대한음성학회지:말소리
    • /
    • 제63호
    • /
    • pp.125-137
    • /
    • 2007
  • Recently, many techniques have been proposed to improve the noise robustness for speaker verification. In this paper, we consider the feature recombination technique in multi-band approach. In the conventional feature recombination for speaker verification, to compute the likelihoods of speaker models or universal background model, whole feature components are used. This computation method is not effective in a view point of multi-band approach. To deal with non-effectiveness of the conventional feature recombination technique, we introduce a subband likelihood computation, and propose a modified feature recombination using subband likelihoods. In decision step of speaker verification system in noise environments, a few very low likelihood scores of a speaker model or universal background model cause speaker verification system to make wrong decision. To overcome this problem, a reliable feature selection method is proposed. The low likelihood scores of unreliable feature are substituted by likelihood scores of the adaptive noise model. In here, this adaptive noise model is estimated by maximum a posteriori adaptation technique using noise features directly obtained from noisy test speech. The proposed method using subband-based reliable feature selection obtains better performance than conventional feature recombination system. The error reduction rate is more than 31 % compared with the feature recombination-based speaker verification system.

  • PDF

Speaker Verification with the Constraint of Limited Data

  • Kumari, Thyamagondlu Renukamurthy Jayanthi;Jayanna, Haradagere Siddaramaiah
    • Journal of Information Processing Systems
    • /
    • 제14권4호
    • /
    • pp.807-823
    • /
    • 2018
  • Speaker verification system performance depends on the utterance of each speaker. To verify the speaker, important information has to be captured from the utterance. Nowadays under the constraints of limited data, speaker verification has become a challenging task. The testing and training data are in terms of few seconds in limited data. The feature vectors extracted from single frame size and rate (SFSR) analysis is not sufficient for training and testing speakers in speaker verification. This leads to poor speaker modeling during training and may not provide good decision during testing. The problem is to be resolved by increasing feature vectors of training and testing data to the same duration. For that we are using multiple frame size (MFS), multiple frame rate (MFR), and multiple frame size and rate (MFSR) analysis techniques for speaker verification under limited data condition. These analysis techniques relatively extract more feature vector during training and testing and develop improved modeling and testing for limited data. To demonstrate this we have used mel-frequency cepstral coefficients (MFCC) and linear prediction cepstral coefficients (LPCC) as feature. Gaussian mixture model (GMM) and GMM-universal background model (GMM-UBM) are used for modeling the speaker. The database used is NIST-2003. The experimental results indicate that, improved performance of MFS, MFR, and MFSR analysis radically better compared with SFSR analysis. The experimental results show that LPCC based MFSR analysis perform better compared to other analysis techniques and feature extraction techniques.

화자식별 시스템의 계산량 감소를 위한 화자 프루닝 방법 (A Speaker Pruning Method for Reducing Calculation Costs of Speaker Identification System)

  • 김민정;오세진;정호열;정현열
    • 한국음향학회지
    • /
    • 제22권6호
    • /
    • pp.457-462
    • /
    • 2003
  • 본 논문에서는 GMM (Gaussian Mixture Model)에 기반한 문맥독립 화자식별 시스템의 식별성능 향상과 실시간 처리를 위한 계산량 감소를 위하여 화자 프루닝 (Speaker Pruning) 방법을 제안한다. 기존의 화자식별 방법인 최대유사도(Maximum Likelihood) 방법과 가중모델순위 (Weighting Model Rank) 방법, 수정된 가중모델순위 (Modified WMR) 방법 등은 입력 음성 전체와 모든 화자모델들과의 유사도를 프레임 단위로 계산하여 가장 큰 누적 유사도를 가지는 화자를 식별화자로 결정하는 방법으로써, 입력 프레임 및 등록 화자수가 늘어남에 따라 계산량 및 식별시간이 늘어나는 단점이 있었다. 이러한 단점을 해결하기 위하여, 제안방법은 입력음성 프레임의 일부분만을 이용하여 화자모델들과의 프레임 유사도를 계산한 후 계산된 유사도를 이용하여 등록화자의 상위 일부분의 화자만을 선택하고, 선택된 화자들에서만 유사도 계산을 수행함으로서 계산량 및 식별시간을 줄이는 방법이다. 또한, 화자 프루닝을 적용할 경우 화자수가 가변 되더라도 수정된 가중모델 순위방법을 적용할 수 있어 식별성능을 높일 수 있다. 식별실험결과, 제안방법을 적용한 경우 기존의 최대 유사도 방법이나 가중모델순위 방법보다 최대 65%의 계산량 및 식별시간을 감소시킬 수 있었으며, 약 2%의 향상된 식별결과를 나타내어, 본 논문에서 제안한 방법의 유효성을 확인할 수 있었다.

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템 (One-shot multi-speaker text-to-speech using RawNet3 speaker representation)

  • 한소희;엄지섭;김회린
    • 말소리와 음성과학
    • /
    • 제16권1호
    • /
    • pp.67-76
    • /
    • 2024
  • 최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.

Statistical Extraction of Speech Features Using Independent Component Analysis and Its Application to Speaker Identification

  • Jang, Gil-Jin;Oh, Yung-Hwan
    • The Journal of the Acoustical Society of Korea
    • /
    • 제21권4E호
    • /
    • pp.156-163
    • /
    • 2002
  • We apply independent component analysis (ICA) for extracting an optimal basis to the problem of finding efficient features for representing speech signals of a given speaker The speech segments are assumed to be generated by a linear combination of the basis functions, thus the distribution of speech segments of a speaker is modeled by adapting the basis functions so that each source component is statistically independent. The learned basis functions are oriented and localized in both space and frequency, bearing a resemblance to Gabor wavelets. These features are speaker dependent characteristics and to assess their efficiency we performed speaker identification experiments and compared our results with the conventional Fourier-basis. Our results show that the proposed method is more efficient than the conventional Fourier-based features in that they can obtain a higher speaker identification rate.

저음부의 출력을 위한 voice coil의 질량

  • 이계호
    • 전기의세계
    • /
    • 제14권4호
    • /
    • pp.22-27
    • /
    • 1965
  • 우리나라의 speaker제작의 역사는 얼마되지 않을 뿐더러 자급자족의 영역을 못 벗어나고 있다. Weston speaker, 자사내에서 자급자족하고 있는 금성사제 speaker등 완전히 질량의 단계에 못들어가고 있는 실정이다. 그나마 성능면에서도 뒤떨어짐을 면할 수 없는 실정이다 .부속품 예컨데 자철 coil접착제등 거이 매매회사에서 직수입하고 있는 형편인것 같다. 물론 종합공업이 발달해야만 되겠기에 단편적 발달은 기하기 어려울 줄 안다. 그러나 speak의 조립 공정에서 끝마치고 있는 형편이고 보면 한심할 지경이다. 물론 speaker제작이라고 하는 것은 극히 delicacy한 면을 가지고 있다. 즉 효율은 $B^{2}$에 비례하는것은 당연하지만 효율을 높이고저 공기부하의 저항을 크게 할려면 corn의 입경이 크게 되므로 자연적으로 진동계의 질량이 크게되며 또 voice coil의 저항을 적게하자니 coil가 필연적으로 굵게되어 길이가 짧게 될 뿐만아니라 air gap 이 크게되어 자속밀도 B가 적게 되는 상반관계가 있다. Cabinet, baffle, corn, corrugation, speaker system등을 가장 합리적으로 설계할 필요가 있다. 이 실험결과를 보고함으로서 speaker연구에 대한 욕구를 갖고 의욕적인 계기가 되었으면 한다. Voice coil 의 turn수를 바뀌었을때 impedance을 측정하였으며 turn수와 음압level 및 주파수 관계를 알아보았다. 그리하여 중형 speaker의 주파수특성을 알아 설계에 기여하고저 한다.

  • PDF

과학수사용 화자 식별 시스템의 피치 차이에 따른 신뢰성 척도 (Confidence Measure of Forensic Speaker Identification System According to Pitch Variances)

  • 김민석;김경화;양일호;유하진
    • 말소리와 음성과학
    • /
    • 제2권3호
    • /
    • pp.135-139
    • /
    • 2010
  • Forensic speaker identification needs high accuracy and reliability. However, the current level of speaker identification does not reach its demand. Therefore, the confidence evaluation of results is one of the issues in forensic speaker identification. In this paper, we propose a new confidence measure of forensic speaker identification system. This is based on pitch differences between the registered utterances of the identified speaker and the test utterance. In the experiments, we evaluate this confidence measure by speech identification tasks on various environments. As the results, the proposed measure can be a good measure indicating if the result is reliable or not.

  • PDF

웹 기반의 화자확인시스템을 위한 문장선정에 관한 연구 (A Study on Text Choice for Web-Based Speaker Verification System)

  • 안기모;이재희;강철호
    • 한국음향학회지
    • /
    • 제19권6호
    • /
    • pp.34-40
    • /
    • 2000
  • 문장 종속형 화자 확인시스템을 구현하는데 있어 화자가 발음할 문장의 선정은 화자인식시스템의 성능을 좌우하는 중요한 사항이다. 본 연구에서는 한국어의 음가 분류방식을 이용하여 자음조합체계를 구축하고 이를 웹 기반 화자확인시스템에 적용하여 급격한 화자음성정보의 변화에 대응하는 동시에 최적의 인식성능을 낼 수 있는 자음조합방식을 도출하였다.

  • PDF

화자 적응을 이용한 대용량 음성 다이얼링 (Large Scale Voice Dialling using Speaker Adaptation)

  • 김원구
    • 제어로봇시스템학회논문지
    • /
    • 제16권4호
    • /
    • pp.335-338
    • /
    • 2010
  • A new method that improves the performance of large scale voice dialling system is presented using speaker adaptation. Since SI (Speaker Independent) based speech recognition system with phoneme HMM uses only the phoneme string of the input sentence, the storage space could be reduced greatly. However, the performance of the system is worse than that of the speaker dependent system due to the mismatch between the input utterance and the SI models. A new method that estimates the phonetic string and adaptation vectors iteratively is presented to reduce the mismatch between the training utterances and a set of SI models using speaker adaptation techniques. For speaker adaptation the stochastic matching methods are used to estimate the adaptation vectors. The experiments performed over actual telephone line shows that proposed method shows better performance as compared to the conventional method. with the SI phonetic recognizer.

Eigenvoice 병합을 이용한 연속 음성 인식 시스템의 고속 화자 적응 (Rapid Speaker Adaptation for Continuous Speech Recognition Using Merging Eigenvoices)

  • 최동진;오영환
    • 대한음성학회지:말소리
    • /
    • 제53호
    • /
    • pp.143-156
    • /
    • 2005
  • Speaker adaptation in eigenvoice space is a popular method for rapid speaker adaptation. To improve the performance of the method, the number of speaker dependent models should be increased and eigenvoices should be re-estimated. However, principal component analysis takes much time to find eigenvoices, especially in a continuous speech recognition system. This paper describes a method to reduce computation time to estimate eigenvoices only for supplementary speaker dependent models and to merge them with the used eigenvoices. Experiment results show that the computation time is reduced by 73.7% while the performance is almost the same in case that the number of speaker dependent models is the same as used ones.

  • PDF