• 제목/요약/키워드: speaker detection

검색결과 108건 처리시간 0.019초

음소 특성 정규화를 통한 화자 변화 검출 (Speaker Change Detection by Normalization of Phonetic Characteristics)

  • 김형순;박혜영;박선영
    • 대한음성학회지:말소리
    • /
    • 제47호
    • /
    • pp.97-107
    • /
    • 2003
  • Speaker change detection is to detect automatically a point of time at which speaker was replaced. Since feature parameters used for speaker change detection depend not only on speaker characteristics but also on phonetic characteristics, spoken contents included in the feature parameters inevitably causes performance degradation of speaker change detection. In this paper, to alleviate this problem, a method to normalize phonetic variations in speech feature parameters is proposed for emphasizing changes due to speaker characteristics. Experimental results show that the proposed method improves the performance of speaker change detection.

  • PDF

화자 겹침을 고려한 화자 전환 검출 시스템 제안 (Proposal of speaker change detection system considering speaker overlap)

  • 박지수;윤영선;차신;박전규
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.466-472
    • /
    • 2021
  • 화자 전환 검출은 대화 중에 발성 화자가 다른 사람으로 바뀌는 시점을 검출하는 것을 의미한다. 이 과정에서 화자 중복, 화자 정보 표기의 부정확성, 데이터 불균형 등으로 화자가 바뀌는 순간을 검출하는 데 어려움이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 음성 인식에 널리 사용되는 TIMIT 데이터를 가공하여 충분한 양의 훈련 데이터를 얻었으며, 화자가 겹치는지를 파악한 후에 화자 전환 여부를 판단하였다. 본 논문에서는 화자 겹침을 고려한 화자 전환 검출 시스템을 구축하기 위하여 다양한 접근법을 사용하여 성능을 평가하고 검증했다. 그 결과 화자 겹칩 영역을 제거하기 위해 X-Vector 구조와 유사한 형태의 검출 시스템과 화자 전환 검출 시스템을 모델링하기 위한 Bi-LSTM 모델을 제안하였다. 실험 결과 기준 시스템보다 상대적으로 각각 4.6 %, 13.8 % 성능 향상을 확인하였다. 또한, 실험 결과를 기반으로 텍스트 정보와 화자 정보 등을 고려한다면 좀 더 강인한 화자 전환 검출 시스템을 구축할 수 있을 것으로 판단한다.

통계적 기법을 이용한 화자변화 검출 실험 (A Speaker Change Detection Experiment that Uses a Statistical Method)

  • 이경록;김진영
    • 음성과학
    • /
    • 제8권4호
    • /
    • pp.59-72
    • /
    • 2001
  • In this paper, we experimented with speaker change detection that uses a statistical method for NOD (News On Demand) service. A specified speaker's change can find out content of each data in speech if analysed because it means change of data contents in news data. Speaker change detection acts as preprocessor that divide input speech by speaker. This is an important preprocessor phase for speaker tracking. We detected speaker change using GLR(generalized likelihood ratio) distance base division and BIC (Bayesian information criterion) base division among matrix method. An experiment verified speaker change point using BIC base division after divide by speaker unit using GLR distance base method first. In the experimental result, FAR (False Alarm Rate) was 63.29 in high noise environment and FAR was 54.28 in low noise environment in MDR (Missed Detection Rate) 15% neighborhood.

  • PDF

Speaker Change Detection Based on a Graph-Partitioning Criterion

  • Seo, Jin-Soo
    • 한국음향학회지
    • /
    • 제30권2호
    • /
    • pp.80-85
    • /
    • 2011
  • Speaker change detection involves the identification of time indices of an audio stream, where the identity of the speaker changes. In this paper, we propose novel measures for the speaker change detection based on a graph-partitioning criterion over the pairwise distance matrix of feature-vector stream. Experiments on both synthetic and real-world data were performed and showed that the proposed approach yield promising results compared with the conventional statistical measures.

스테레오 시청각 기반의 화자 검출 시스템 (A Speaker Detection System based on Stereo Vision and Audio)

  • 안준호;홍광석
    • 인터넷정보학회논문지
    • /
    • 제11권6호
    • /
    • pp.21-29
    • /
    • 2010
  • 본 논문에서 다수의 사용자 중에서 현재 발성하고 있는 화자를 검출하는 스테레오 시청각 기반의 화자 검출 시스템을 제안한다. 제안한 시스템은 두 개의 마이크를 이용한 음원 위치추정, 스테레오 카메라를 이용한 영상정합 및 발화자 후보 위치 추정, 그리고 모바일 기반의 화자 검출 정보 획득으로 구성되어 있다. 스테레오 카메라로부터 획득한 화자의 영상정보를 바탕으로 Adaboost 알고리즘과 Haar-like 특징을 이용하여 발화자 후보들의 얼굴을 검출하고 이를 기반으로 삼각측량법을 이용하여 발화자 후보들의 위치를 추정한다. 그리고 2개의 마이크로부터 획득한 화자의 음성정보를 바탕으로 CPSP(Cross Power Spectrum Phase)기반의 TDOA(Time Differnce of Arrival)추정을 통해 음원의 방향을 추정한다. 최종적으로 스테레오 카메라를 통해 측정된 정보와 마이크를 통해 얻은 정보를 비교 분석하여 현재 발화자를 검출한다. 검출된 화자 정보에 대한 보다 차별화 된 서비스 제공을 위해 TCP 서버/클라이언트 구조 기반의 모바일 화자 검출 정보 획득 시스템을 구현하고 평가하였다.

잡음환경에 강인한 HMM기반 화자 확인 시스템에 관한 연구 (Speaker Verification System Based on HMM Robust to Noise Environments)

  • 위진우;강철호
    • 한국음향학회지
    • /
    • 제20권7호
    • /
    • pp.69-75
    • /
    • 2001
  • 화자확인에서 화자내 변이, 잡음환경, 그리고 학습환경과 인식 환경의 불일치는 화자확인 시스템이 실용화될 수 없는 가장 큰 원인이다. 본 연구에서는, 실제 환경에 강인한 화자 확인 시스템의 구현에 초점을 맞추어 음성 전처리 과정인 잡음환경에 강인한 끝점추출 알고리즘, 잡음제거 및 마이크특성 보상기법, LPG(Linear Predictive Coefficient)켑스트럼 가중치에 의한 화자간 변별력 향상 기법을 제안한다. 실험 결과, LPC잔차신호(residue)를 이용한 끝점추출 알고리즘을 사용한 경우 약 17.65% 가량의 끝점 추출 에러율을 향상시켰으며, 제안한 잡음제거 및 마이크특성 보상기법을 사용한 경우 다른 마이크 환경에서 화자 오인식율이 약 36.93% 가량 개선되었다. 또한, 제안한 LPC켑스트럼 가중치에 의한 화자간 변별력 향상 기법은 평균 화자 오인식율을 약 6.515% 향상시켰다.

  • PDF

영상회의를 위한 화자 검출 시스템 (Speaker Detection System for Video Conference)

  • 이병선;고성원;권혁봉
    • 조명전기설비학회논문지
    • /
    • 제17권5호
    • /
    • pp.68-79
    • /
    • 2003
  • 본 논문에서는 여러 사람이 참여하는 영상 회의에서 입술 움직임 정보를 이용하여 화자를 검출하는 시스템을 구현하였다. 구현된 시스템은 얼굴색 정보와 형태 정보를 이용하여 각 사람의 얼굴 및 입술 영역을 검출한 후, 입술 영역에서 이전 프레임과의 변화량을 계산하여 화자를 검출한다. 검출된 화자를 클로즈업하기 위하여 두 대의 CCD카메라를 사용하였으며, RS-232C시리얼 포트를 이용하여 PTZ 카메라를 제어한다. 실험 결과 3인 이상의 입력 동영상에서 얼굴의 기울어짐에 무관하게 화자를 검출할 수 있었으며 최초 기준 영상에서 화자를 클로즈업하는데 약 4∼5초 정도의 시간이 소요되었다. 또한 320${\times}$240 크기의 얼굴 영역 화면과 전체적인 배경 화면을 동시에 제공하므로 영상회의 및 인터넷 방송 등과 같은 영상 전송 시스템에서 보다 효율적인 의사 전달이 가능하게 하였다.

화자인식을 위한 강인한 끝점 검출 알고리즘 (Robust Endpoint Detection Algorithm For Speaker Verification)

  • 정대성;김정곤;김형순
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.137-140
    • /
    • 2003
  • In this paper, we propose a robust endpoint detection algorithm for speaker verification. Proposed algorithm uses energy and cepstral distance parameters, and it replaces the detected endpoints with endpoints of voiced speech, when the estimated signal-to-noise ratio (SNR) is low. Experimental results show that proposed algorithm is superior to energy-based endpoint detection algorithm.

  • PDF

Directional Filter와 Harmonic Filter 기반 화자 분리 (Speaker Separation Based on Directional Filter and Harmonic Filter)

  • 백승은;김진영;나승유;최승호
    • 음성과학
    • /
    • 제12권3호
    • /
    • pp.125-136
    • /
    • 2005
  • Automatic speech recognition is much more difficult in real world. Speech recognition according to SIR (Signal to Interface Ratio) is difficult in situations in which noise of surrounding environment and multi-speaker exists. Therefore, study on main speaker's voice extractions a very important field in speech signal processing in binaural sound. In this paper, we used directional filter and harmonic filter among other existing methods to extract the main speaker's information in binaural sound. The main speaker's voice was extracted using directional filter, and other remaining speaker's information was removed using harmonic filter through main speaker's pitch detection. As a result, voice of the main speaker was enhanced.

  • PDF

Eigenvoice 기반 화자가중치 거리측정 방식을 이용한 화자 분할 시스템 (Speaker Segmentation System Using Eigenvoice-based Speaker Weight Distance Method)

  • 최무열;김형순
    • 한국음향학회지
    • /
    • 제31권4호
    • /
    • pp.266-272
    • /
    • 2012
  • 화자 분할 기술은 오디오 데이터로부터 자동적으로 화자 경계 구간을 검출하는 것이다. 화자 분할 방식은 화자에 대한 선행 지식 사용 여부에 따라 거리기반 방식과 모델기반 방식으로 나누어진다. 본 논문에서는 eigenvoice 기반의 화자가중치 거리를 이용한 화자 분할 방식을 도입하고, 이 방식을 대표적인 거리 기반 방식들과 비교한다. 또한, 화자가중치의 거리 측정 함수로 유클리드 거리와 cosine 유사도를 사용하여 화자 분할 성능을 비교하고, eigenvoice 방식에 의해 화자 적응된 모델들 사이의 직접적인 거리를 이용한 화자 분할 방식과의 비교를 통해 화자가중치 거리를 이용한 방식이 계산량면에서 효율적인 점을 검증한다.