• 제목/요약/키워드: speaker detection

검색결과 108건 처리시간 0.032초

다양한 소리 환경에서 UBM 기반의 비명 소리 검출 (Scream Sound Detection Based on Universal Background Model Under Various Sound Environments)

  • 정용주
    • 한국전자통신학회논문지
    • /
    • 제12권3호
    • /
    • pp.485-492
    • /
    • 2017
  • GMM(: Gaussian Mixture Model)은 비명 소리를 검출하기 위해서 가장 많이 사용되는 기법의 하나이다. 기존의 GMM 방식에서는 전체 훈련데이터를 비명소리와 비-비명 소리로 나누고, 훈련과정을 통하여 각각의 GMM 모델을 생성하게 된다. 그러나 본 연구에서는 비명 소리 검출 과정이 화자인식과 매우 유사하다는 점에 착안하여 화자인식에서 매우 효과적으로 사용된 UBM(: Universal Background Model) 방식을 비명소리 검출에 적용할 것을 제안하였다. 제안된 UBM 방식을 통한 검출 실험 결과 기존의 GMM 방식에 비하여 더 나은 검출 성능을 보임을 인식 실험을 통하여 확인 할 수 있었다.

Impostor Detection in Speaker Recognition Using Confusion-Based Confidence Measures

  • Kim, Kyu-Hong;Kim, Hoi-Rin;Hahn, Min-Soo
    • ETRI Journal
    • /
    • 제28권6호
    • /
    • pp.811-814
    • /
    • 2006
  • In this letter, we introduce confusion-based confidence measures for detecting an impostor in speaker recognition, which does not require an alternative hypothesis. Most traditional speaker verification methods are based on a hypothesis test, and their performance depends on the robustness of an alternative hypothesis. Compared with the conventional Gaussian mixture model-universal background model (GMM-UBM) scheme, our confusion-based measures show better performance in noise-corrupted speech. The additional computational requirements for our methods are negligible when used to detect or reject impostors.

  • PDF

화자(話者)와 스마트폰의 거리 측정을 위한 다중 색 좌표계와 다중 임계치 기반 실시간 얼굴검출 (Real-Time Face-Detection Based on Multiple Color-Spaces and Multiple Thresholds for Distance Measurement Between Speaker and Smart-Phone)

  • 이재원;권구락;홍성훈
    • 한국멀티미디어학회논문지
    • /
    • 제14권4호
    • /
    • pp.481-493
    • /
    • 2011
  • 모바일기기가 발달함에 따라 핸드폰에 수많은 기능들이 탑재되고 있다. 영상 통화 기능도 그 중 하나이다. 본 논문에서는 화자와 스마트폰 사이의 거리를 측정하기 위한 다중 색좌표계와 다중 임계치를 사용하는 방법을 제시한다. 첫 번째로 피부색의 색상정보에 근거하여 얼굴영역을 검출한다. 두 번째로 검출된 얼굴영역의 크기를 이용하여 스마트폰과 화자 사이의 거리를 측정한다. 특히 본 논문에서 제시하는 얼굴영역 검출 알고리즘 개발에 있어 고려한 점은 스마트폰의 기본기능과 함께 실시간으로 처리가 가능할 정도로 연산량이 적어야 하며, 움직임이 많은 핸드폰의 특성상 프레임과 프레임 사이의 움직임과 조명 및 배경에 따라 검출된 얼굴 영역이 급격히 변화하는 문제를 해결할 수 있는 얼굴영역 검출 알고리즘을 개발하고자 하였다.

Speaker Detection and Recognition for a Welfare Robot

  • Sugisaka, Masanori;Fan, Xinjian
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2003년도 ICCAS
    • /
    • pp.835-838
    • /
    • 2003
  • Computer vision and natural-language dialogue play an important role in friendly human-machine interfaces for service robots. In this paper we describe an integrated face detection and face recognition system for a welfare robot, which has also been combined with the robot's speech interface. Our approach to face detection is to combine neural network (NN) and genetic algorithm (GA): ANN serves as a face filter while GA is used to search the image efficiently. When the face is detected, embedded Hidden Markov Model (EMM) is used to determine its identity. A real-time system has been created by combining the face detection and recognition techniques. When motivated by the speaker's voice commands, it takes an image from the camera, finds the face inside the image and recognizes it. Experiments on an indoor environment with complex backgrounds showed that a recognition rate of more than 88% can be achieved.

  • PDF

GMM-supervector를 사용한 SVM 기반 화자분류에 대한 연구 (A Study on SVM-Based Speaker Classification Using GMM-supervector)

  • 이경록
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.1022-1027
    • /
    • 2020
  • 본 논문에서는 GMM-supervector를 특징 파라미터로 하는 SVM 기반 화자 분류에 대해서 실험하였다. 실험을 위한 화자 클러스터를 생성하기 위해서 기존의 SNR 기반 가중치를 반영한 KL거리 기반 화자변화검출을 실행하였다. SVM 기반 화자 분류는 2단계로 이루어져있다. 1단계는 UBM과 화자 모델들간의 SVM 기반 분류를 시행하여 각 클러스터에 화자 정보를 인덱싱한 다음 화자별로 그룹핑한다. 2단계는 화자 클러스터 그룹에 UBM과 화자모델들간의 SVM 기반 분류를 시행한다. SVM의 커널 함수로는 Linear와 RBF를 사용하였다. 실험결과, 1단계에서는 Linear 커널이 화자 클러스터 148개, MDR 0, FAR 47.3, ER 50.7로 좋은 성능으로 보였다. 2단계 실험결과도 Linear 커널이 화자 클러스터 109개, MDR 1.3, FAR 28.4, ER 32.1로 좋은 성능을 보였다.

Incremental Learning을 이용한 화자 인식 (The Speaker Identification Using Incremental Learning)

  • 심귀보;허광승;박창현;이동욱
    • 한국지능시스템학회논문지
    • /
    • 제13권5호
    • /
    • pp.576-581
    • /
    • 2003
  • 음성 속에는 화자의 특징이 포함되어 있다. 본 논문에서는 신경망에 기초한 Incremental Learning을 이용하여 화자 수에 제한 받지 않는 화자 인식 시스템을 제안한다. 컴퓨터를 통하여 녹음된 음성 신호는 End Detection과정을 통하여 유성음과 무성음을 분류하고 LPC를 이용해 12차수의 Cepstral Coefficients를 추출한다. 이 계수는 화자 식별을 위한 학습 입력값으로 사용 된다. Incremental Learning은 이미 학습한 Weight들을 기억하고 새로운 data에 대해서만 학습을 하는 학습 방법으로 Neural Network 구조가 화자 수에 따라 늘어나므로 화자 수에 제한을 받지 않고 학습이 가능하다.

A Novel Two-Level Pitch Detection Approach for Speaker Tracking in Robot Control

  • Hejazi, Mahmoud R.;Oh, Han;Kim, Hong-Kook;Ho, Yo-Sung
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.89-92
    • /
    • 2005
  • Using natural speech commands for controlling a human-robot is an interesting topic in the field of robotics. In this paper, our main focus is on the verification of a speaker who gives a command to decide whether he/she is an authorized person for commanding. Among possible dynamic features of natural speech, pitch period is one of the most important ones for characterizing speech signals and it differs usually from person to person. However, current techniques of pitch detection are still not to a desired level of accuracy and robustness. When the signal is noisy or there are multiple pitch streams, the performance of most techniques degrades. In this paper, we propose a two-level approach for pitch detection which in compare with standard pitch detection algorithms, not only increases accuracy, but also makes the performance more robust to noise. In the first level of the proposed approach we discriminate voiced from unvoiced signals based on a neural classifier that utilizes cepstrum sequences of speech as an input feature set. Voiced signals are then further processed in the second level using a modified standard AMDF-based pitch detection algorithm to determine their pitch periods precisely. The experimental results show that the accuracy of the proposed system is better than those of conventional pitch detection algorithms for speech signals in clean and noisy environments.

  • PDF

A Robust Method for Speech Replay Attack Detection

  • Lin, Lang;Wang, Rangding;Yan, Diqun;Dong, Li
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권1호
    • /
    • pp.168-182
    • /
    • 2020
  • Spoofing attacks, especially replay attacks, pose great security challenges to automatic speaker verification (ASV) systems. Current works on replay attacks detection primarily focused on either developing new features or improving classifier performance, ignoring the effects of feature variability, e.g., the channel variability. In this paper, we first establish a mathematical model for replay speech and introduce a method for eliminating the negative interference of the channel. Then a novel feature is proposed to detect the replay attacks. To further boost the detection performance, four post-processing methods using normalization techniques are investigated. We evaluate our proposed method on the ASVspoof 2017 dataset. The experimental results show that our approach outperforms the competing methods in terms of detection accuracy. More interestingly, we find that the proposed normalization strategy could also improve the performance of the existing algorithms.

화자간 변별력 최대화를 위한 혼합 모델 방식과 심볼 확률 가중함수에 관한 연구 (A Study on the Mixed Model Approach and Symbol Probability Weighting Function for Maximization of Inter-Speaker Variation)

  • 진세훈;강철호
    • 한국음향학회지
    • /
    • 제24권7호
    • /
    • pp.410-415
    • /
    • 2005
  • 최근 대부분의 화자확인 시스템은 패턴 인식 접근방식에 기인하고 있다. 패턴 분류기의 성능은 화자의 특징 파라미터를 어떻게 분류하는가 하는 데에 기인한다. 그 특징 파라미터를 잘 분류하기 위해서는, 화자간 변이를 최대화하고 특징 파라미터 간 거리를 효과적으로 측정하는 것이 매우 중요하다. 따라서, 본 논문에서는 개인 모델과 월드 모델을 동시에 배치함으로써 화자간 변이를 최대화 할 수 있는 개선된 혼합 모델 구조를 제안한다. 결정 과정 시 제안한 혼합 모델 방식을 사용함으로써 화자간 변별력을 최대화 할 수 있었다. 또한, 입력데이터에 대한 개인 모델과 월드 모델의 거리비율에 따라 심볼 확률 값을 가중하여 벡터 양자화 에러를 줄이는 가중치 함수를 제안 한다. 실험 결과, 이두 가지 방법을 취함으로써 DCF (Detection Cost Function)를 $2.37\%$에서 $1.16\%$로 낮출 수 있었다.

GMM-UBM 기반 KL 거리를 활용한 화자변화 검증에 대한 연구 (The Study on the Verification of Speaker Change using GMM-UBM based KL distance)

  • 조준범;이지은;이경록
    • 중소기업융합학회논문지
    • /
    • 제6권4호
    • /
    • pp.71-77
    • /
    • 2016
  • 본 논문에서는 기존의 BIC(Bayesian Information Criterion) 기반 화자변화의 성능 향상을 위하여 GMM-UBM(Gaussian Mixture Model-Universal Background Model) 기반 KL(Kullback Leibler) 거리를 활용한 화자변화 검증을 제안하였다. 정보량의 차이에 민감한 기존의 BIC 기반 화자변화검출 알고리즘을 상대적으로 정보량 차이에 견인한 KL 거리 알고리즘으로 검증하였고, 정보량의 비대칭을 보상하기 위해서 GMM-UBM을 활용하였다. 기존의 BIC 기반 화자변화 검출은 1단계로 비유사도 d가 양수인 구간의 국소 최댓값인 지점을 화자변화 후보지점으로 검출하였고, 2단계로 검출된 화자변화 후보지점 중 ${\Delta}BIC$가 양수인 지점을 화자변화지점으로 결정하였다. 본 논문에서는 BIC 기반 화자변화 검출에 의해 결정된 화자변화지점에 대하여 GMM-UBM 기반 KL 거리 D가 문턱치(threshold)보다 높은 지점을 최종 화자변화 지점으로 검증하였다. 실험결과, MDR(Missed Detection Rate)이 0인 조건에서 문턱치 0.028일 때 FAR(False Alarm Rate) 60.4%로 성능이 향상되었다.