• 제목/요약/키워드: 화자 검출

검색결과 112건 처리시간 0.025초

화자 겹침을 고려한 화자 전환 검출 시스템 제안 (Proposal of speaker change detection system considering speaker overlap)

  • 박지수;윤영선;차신;박전규
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.466-472
    • /
    • 2021
  • 화자 전환 검출은 대화 중에 발성 화자가 다른 사람으로 바뀌는 시점을 검출하는 것을 의미한다. 이 과정에서 화자 중복, 화자 정보 표기의 부정확성, 데이터 불균형 등으로 화자가 바뀌는 순간을 검출하는 데 어려움이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 음성 인식에 널리 사용되는 TIMIT 데이터를 가공하여 충분한 양의 훈련 데이터를 얻었으며, 화자가 겹치는지를 파악한 후에 화자 전환 여부를 판단하였다. 본 논문에서는 화자 겹침을 고려한 화자 전환 검출 시스템을 구축하기 위하여 다양한 접근법을 사용하여 성능을 평가하고 검증했다. 그 결과 화자 겹칩 영역을 제거하기 위해 X-Vector 구조와 유사한 형태의 검출 시스템과 화자 전환 검출 시스템을 모델링하기 위한 Bi-LSTM 모델을 제안하였다. 실험 결과 기준 시스템보다 상대적으로 각각 4.6 %, 13.8 % 성능 향상을 확인하였다. 또한, 실험 결과를 기반으로 텍스트 정보와 화자 정보 등을 고려한다면 좀 더 강인한 화자 전환 검출 시스템을 구축할 수 있을 것으로 판단한다.

음성학적 정보의 제거를 통한 화자변화 구간 검출 (Speaker Change Detection by Removing Phonetic Information)

  • 박선영;김형순
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.187-190
    • /
    • 2002
  • 본 논문에서는 음성 신호에서 발성 화자가 바뀌는 시점을 자동적으로 찾아내는 화자변화 구간 검출에 대하여 연구하였다. 화자변화 검출을 위해서는 음성 신호에 나타나는 화자 개별성에 의한 차이만 비교해야 하는데 실제 환경에서는 화자들이 동일한 내용의 발성을 하지 않으므로 다른 발성내용에 의한 정보가 포함되어 검출 성능을 저하시킨다. 그러므로 각 화자의 개별특성만 강조되도록 발성내용에 포함된 음성학적 정보의 영향을 제거하는 방법을 통해 검출 성능을 향상시켰다.

  • PDF

실감 음향 재생을 위한 영상기반의 실시간 화자 위치 검출 (Real-Time Vision Based Speaker Location Detection for Realistic Audio Reproduction)

  • 임재현;이철희
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.143-146
    • /
    • 2004
  • 일반적으로, 화상회의에서 화자의 위치를 검출하는 것은 음향 신호를 기반으로 이루어져 왔다. 그러나 물리적인 환경의 제약이나 화자 검출 시스템의 한계를 벗어나는 노이즈가 발생하는 경우에는 검출 시스템의 성능저하를 초래하게 된다. 본 논문에서는 음향 기반의 검출 시스템과 독립적으로, 혹은 상호 보완적으로 사용될 수 있는 영상 기반의 화자 검출 알고리즘에 대하여 제안하고자 한다. 화자의 위치에 관한 정보는 화상회의에 한층 사실감을 부여하는 3 차원 오디오 재생에 사용될 수 있다.

  • PDF

주파수 에너지를 이용한 텍스트 독립 화자인식에 관한 연구 (A Study on the Text-Independent Speaker Recognition Using Frequency Energy)

  • 조연아
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.235-240
    • /
    • 1994
  • 모음 검출을 통하여 미리 등록한 단어가 아닌 경우에도 화자를 인식할 수 있도록 특징 파라메터를 개발하고, 실용화가 가능하도록 처리 방법을 간략화한 텍스트 독립 화자 인식 연구를 진행하였다. 이를 위해서, 화자가 발성한 음성에서 모음을 검출하여 화자인식에 사용하는 방법을 제안하였으며, 인식은 각 화자가 발성한 음성 신호에서 모음을 검출한 다음, 검출된 모음의 29 채널의 주파수 에너지를 퍼지값으로 효현한 후, 퍼지 추론을 적용하여 수행하였다. 실험을 위해 모음 검출 알고리듬을 개발하였으며, 화자인식의 특징 파라메터로 29 채널 주파수 에너지를 제안하였는데, 별도의 코드북 없이 사용이 가능하고, 기존의 파라메터에 비해 인식율이 높으면서도 구성 및 계산이 간단한 특징이 있다. 실험결과, 미리 작성된 표준패턴과 동일한 단어를 사용한 텍스트 의존 화자 인식 실험은 95.5% 인식율을 보였고, 표준 패턴과 다른 종류의 단어를 사용한 텍스트 독립 화자인식 실험은 94.2% 인식율을 보이고 있다.

  • PDF

입술 움직임 변화량을 이용한 실시간 화자의 클로즈업 및 트레킹 시스템 구현 (Real Time Speaker Close-Up and Tracking System Using the Lip Varying Informations)

  • 양운모;장언동;윤태승;곽내정;안재형
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 춘계학술발표논문집(하)
    • /
    • pp.547-552
    • /
    • 2002
  • 본 논문에서는 다수의 사람이 존재하는 입력영상에서 입술 움직임 정보를 이용한 실시간 화자의 클로즈업(close-up) 시스템을 구현한다. 칼라 CCD 카메라를 통해 입력되는 동영상에서 화자를 검출한 후 입술 움직임 정보를 이용하여 다른 한 대의 카메라로 화자를 클로즈업한다. 구현된 시스템은 얼굴색 정보와 형태 정보를 이용하여 각 사람의 얼굴 및 입술 영역을 검출한 후, 입술 영역 변화량을 이용하여 화자를 검출한다. 검출된 화자를 클로즈업하기 위하여 PTZ(Pan/Tilt/Zoom) 카메라를 사용하였으며, RS-232C 시리얼 포트를 이용하여 카메라를 제어한다. 실험결과 3인 이상의 입력 동영상에서 정확하게 화자를 검출할 수 있으며, 움직이는 화자의 얼굴 트레킹이 가능하다.

  • PDF

스테레오 시청각 기반의 화자 검출 시스템 (A Speaker Detection System based on Stereo Vision and Audio)

  • 안준호;홍광석
    • 인터넷정보학회논문지
    • /
    • 제11권6호
    • /
    • pp.21-29
    • /
    • 2010
  • 본 논문에서 다수의 사용자 중에서 현재 발성하고 있는 화자를 검출하는 스테레오 시청각 기반의 화자 검출 시스템을 제안한다. 제안한 시스템은 두 개의 마이크를 이용한 음원 위치추정, 스테레오 카메라를 이용한 영상정합 및 발화자 후보 위치 추정, 그리고 모바일 기반의 화자 검출 정보 획득으로 구성되어 있다. 스테레오 카메라로부터 획득한 화자의 영상정보를 바탕으로 Adaboost 알고리즘과 Haar-like 특징을 이용하여 발화자 후보들의 얼굴을 검출하고 이를 기반으로 삼각측량법을 이용하여 발화자 후보들의 위치를 추정한다. 그리고 2개의 마이크로부터 획득한 화자의 음성정보를 바탕으로 CPSP(Cross Power Spectrum Phase)기반의 TDOA(Time Differnce of Arrival)추정을 통해 음원의 방향을 추정한다. 최종적으로 스테레오 카메라를 통해 측정된 정보와 마이크를 통해 얻은 정보를 비교 분석하여 현재 발화자를 검출한다. 검출된 화자 정보에 대한 보다 차별화 된 서비스 제공을 위해 TCP 서버/클라이언트 구조 기반의 모바일 화자 검출 정보 획득 시스템을 구현하고 평가하였다.

입술 움직임 정보를 이용한 실시간 화자 클로즈업 시스템 구현 (Real Time Speaker Close-Up System using The Lip Motion Informations)

  • 권혁봉;장언동;윤태승;안재형
    • 한국멀티미디어학회논문지
    • /
    • 제4권6호
    • /
    • pp.510-517
    • /
    • 2001
  • 본 논문에서는 다수의 사람이 존재하는 입력영상에서 입술 움직임 정보를 이용한 실시간 화자 클로즈업(close-up) 시스템을 구현한다. 칼라 CCD 카메라를 통해 입력되는 동영상에서 화자를 검출한 후 입술 움직임 정보를 이용하여 다른 한 대의 카메라로 화자를 클로즈업한다. 구현된 시스템은 얼굴색 정보와 형태 정보를 이용하여 각 사람의 얼굴 및 입술 영역을 검출한 후, 입술 영역 변화량을 이용하여 화자를 검출한다. 검출된 화자를 클로즈업하기 위하여 PTZ(Pan/Tilt/Zoom) 카메라를 사용하였으며, RS-232C 시리얼 포트를 이용하여 카메라를 제어한다. 실험결과 3인 이상의 입력 동영상에서 정확하게 화자를 검출할 수 있다.

  • PDF

음성 단어를 이용한 구간검출에 의한 패턴인식 (Pattern Recognition by Section Detection Using Speech Word)

  • 최재승
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 춘계학술대회
    • /
    • pp.681-682
    • /
    • 2016
  • 본 논문에서는 화자 식별에서 음성신호의 애매한 점을 보완할 수 있는 신경회로망의 오차역전파학습 알고리즘과 모음구간 검출에 기초하여 입력되는 음성의 화자 패턴을 구분하는 일본어 단어 패턴인식 알고리즘을 제안한다. 제안하는 알고리즘에서는 일본어 데이터베이스로부터의 단어를 사용하여 음성의 특징벡터를 추출하여 분석하고 이러한 음성의 특징벡터의 차이를 이용하여 일본어 화자에 대한 패턴인식 실험을 수행하였다.

  • PDF

Eigenvoice 기반 화자가중치 거리측정 방식을 이용한 화자 분할 시스템 (Speaker Segmentation System Using Eigenvoice-based Speaker Weight Distance Method)

  • 최무열;김형순
    • 한국음향학회지
    • /
    • 제31권4호
    • /
    • pp.266-272
    • /
    • 2012
  • 화자 분할 기술은 오디오 데이터로부터 자동적으로 화자 경계 구간을 검출하는 것이다. 화자 분할 방식은 화자에 대한 선행 지식 사용 여부에 따라 거리기반 방식과 모델기반 방식으로 나누어진다. 본 논문에서는 eigenvoice 기반의 화자가중치 거리를 이용한 화자 분할 방식을 도입하고, 이 방식을 대표적인 거리 기반 방식들과 비교한다. 또한, 화자가중치의 거리 측정 함수로 유클리드 거리와 cosine 유사도를 사용하여 화자 분할 성능을 비교하고, eigenvoice 방식에 의해 화자 적응된 모델들 사이의 직접적인 거리를 이용한 화자 분할 방식과의 비교를 통해 화자가중치 거리를 이용한 방식이 계산량면에서 효율적인 점을 검증한다.

GMM-UBM 기반 KL 거리를 활용한 화자변화 검증에 대한 연구 (The Study on the Verification of Speaker Change using GMM-UBM based KL distance)

  • 조준범;이지은;이경록
    • 중소기업융합학회논문지
    • /
    • 제6권4호
    • /
    • pp.71-77
    • /
    • 2016
  • 본 논문에서는 기존의 BIC(Bayesian Information Criterion) 기반 화자변화의 성능 향상을 위하여 GMM-UBM(Gaussian Mixture Model-Universal Background Model) 기반 KL(Kullback Leibler) 거리를 활용한 화자변화 검증을 제안하였다. 정보량의 차이에 민감한 기존의 BIC 기반 화자변화검출 알고리즘을 상대적으로 정보량 차이에 견인한 KL 거리 알고리즘으로 검증하였고, 정보량의 비대칭을 보상하기 위해서 GMM-UBM을 활용하였다. 기존의 BIC 기반 화자변화 검출은 1단계로 비유사도 d가 양수인 구간의 국소 최댓값인 지점을 화자변화 후보지점으로 검출하였고, 2단계로 검출된 화자변화 후보지점 중 ${\Delta}BIC$가 양수인 지점을 화자변화지점으로 결정하였다. 본 논문에서는 BIC 기반 화자변화 검출에 의해 결정된 화자변화지점에 대하여 GMM-UBM 기반 KL 거리 D가 문턱치(threshold)보다 높은 지점을 최종 화자변화 지점으로 검증하였다. 실험결과, MDR(Missed Detection Rate)이 0인 조건에서 문턱치 0.028일 때 FAR(False Alarm Rate) 60.4%로 성능이 향상되었다.