• 제목/요약/키워드: Speaker characteristics

검색결과 257건 처리시간 0.024초

CDHMM의 화자적응에 관한 연구 (A Study on the Speaker Adaptation in CDHMM)

  • 김광태
    • 대한전자공학회논문지SP
    • /
    • 제39권2호
    • /
    • pp.116-127
    • /
    • 2002
  • 본 논문에서는 CDHMM 음성인식기의 인식성능을 향상시키기 위해 상태 당 관측밀도함수 수 변화에 의한 화자적응 알고리듬을 제안하였다. 제안한 방법은 CDHMM의 각 상태마다 관측 확률밀도함수의 가지 수가 두 개 이상이 릴 수도 있게 하여 발음특성의 다양성을 반영할 수 있게 하였다. 가지 수는 각 상태에 속하는 적응음성의 프레임 수에 따라 정하는 방법과 특징벡터 행렬식에 따라 정하는 방법으로 하였다 이두 방법중의 어느 하나로 관측 확률밀도함수의 가지가 결정되면, 세분화된 각 가지로부터 MAP 파라미터를 추출함으로써 정밀한 화자적응모델의 파라미터를 구할 수 있었다. 아울러 적응음성을 상태분할 할 때 기존의 화자독립모델을 사전정보로 이용함으로써 ML 추정시의 초기 상태분할 오류의 영향을 줄여 기존 상태분 할 방법의 단점을 개선하였다 그리고 상태지속분포를 화자에 적응시킴으로써 화자 고유의 발음속도와 발음 패턴 등의 음성특성을 흡수하도록 하였다. 제안한 방법들의 타당성을 확인하기 위한 실험에서 제안한 방법이 기존 방법에 비해 높은 인식률을 얻음을 확인하였다.

하이브리드형 초음파 스피커 개발 (Development of the hybrid-type ultrasound speaker)

  • 이형상;김복규
    • 한국음향학회지
    • /
    • 제40권3호
    • /
    • pp.247-253
    • /
    • 2021
  • 소리에 방향성을 부여하여 특정 영역에서만 소리를 들을 수 있도록 활용되는 초음파 스피커는 일반 스피커와 비교하여 음질 및 비용적인 이슈에서 다양한 개선 연구가 지속적으로 이루어지고 있다. 본 논문에서는 초음파 스피커의 센서 특성상 500 Hz 미만 저음 구현이 어려운 점을 감안하여 500 Hz 대의 소리를 보완할 수 있도록 일반 스피커와 동시 사용이 가능한 DSP 기반의 하이브리드형 초음파 스피커를 제안한다. 일반 스피커와 초음파 스피커의 단순 연결로 각각의 분리 처리 및 송출하는 시스템은 초음파 재생성 처리 시간 차에 따른 음질저하뿐만 아니라 일반 음원과 초음파 음원이 2개의 앰프로 구동되어 높은 비용 이슈가 있으며 제반 제어적인 측면에서도 어려움이 있다. 이러한 점을 개선하고자 제안한 DSP 기반의 앰프에서 Dynamic Range Control(DRC) 및 Equalizer(EQ)의 기존 코덱 기능은 물론, 초음파 음원으로의 재생성, 일반/초음파 음원을 동기화함으로써 동시 재생이 가능한 하이브리드형 초음파 스피커를 개발하였다.

피치변경을 이용한 화자인식 시스템 (The Speaker Recognition System using the Pitch Alteration)

  • 정종순;배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.115-118
    • /
    • 2002
  • 화자인식에 사용하는 파라미터는 화자의 특징을 충분히 표현함과 더불어 발성 시마다 변동이 작은 것이 바람직하다. 즉, 파라미터의 화자내의 변이보다 화자간의 변이가 큰 특성을 가져야 화자간의 구분이 용이하다. 또한, 화자간 오류를 최소화하기 위해 화자간 구별이 뚜렷한 특징 파라미터뿐만 아니라 분별력이 뛰어난 인식방법도 필요하다. 최근의 실험결과들을 살펴보면 발성기관에 의한 정적인 특징뿐 아니라, 발성습관에 의한 동적인 특징을 같이 이용함으로써 보다 정확한 인식결과를 얻고 있다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해 다음과 같이 제안한다. 음성의 특징벡터로 운율정보 사용을 제안한다 현재 화자인식 시스템에서 일반적으로 많이 사용되고 있는 특징벡터는 스펙트럼 정보를 모델링하고 있는 것으로 비잡음 환경에서 종은 성능을 보이고 있다. 그러나 잡음 환경변화에 크게 왜곡되며 인식율이 현저하게 저하되는 문제점이 나타난다. 그러므로 본 논문에서는 음성의 동적 변화를 측정할 수 있는 세그먼트로 분할한 피치열을 변경하여 인식의 특징패턴으로 사용한다. 이는 문장의 운율정보를 보여주는 것으로 소음환경에서 강인한 특성을 보였다.

  • PDF

Modified GMM Training for Inexact Observation and Its Application to Speaker Identification

  • Kim, Jin-Young;Min, So-Hee;Na, Seung-You;Choi, Hong-Sub;Choi, Seung-Ho
    • 음성과학
    • /
    • 제14권1호
    • /
    • pp.163-174
    • /
    • 2007
  • All observation has uncertainty due to noise or channel characteristics. This uncertainty should be counted in the modeling of observation. In this paper we propose a modified optimization object function of a GMM training considering inexact observation. The object function is modified by introducing the concept of observation confidence as a weighting factor of probabilities. The optimization of the proposed criterion is solved using a common EM algorithm. To verify the proposed method we apply it to the speaker recognition domain. The experimental results of text-independent speaker identification with VidTimit DB show that the error rate is reduced from 14.8% to 11.7% by the modified GMM training.

  • PDF

VQ와 GMM을 이용한 문맥독립 화자인식기의 성능 비교 (Performance comparison of Text-Independent Speaker Recognizer Using VQ and GMM)

  • 김성종;정훈;정익주
    • 음성과학
    • /
    • 제7권2호
    • /
    • pp.235-244
    • /
    • 2000
  • This paper was focused on realizing the text-independent speaker recognizer using the VQ and GMM algorithm and studying the characteristics of the speaker recognizers that adopt these two algorithms. Because it was difficult ascertain the effect two algorithms have on the speaker recognizer theoretically, we performed the recognition experiments using various parameters and, as the result of the experiments, we could show that GMM algorithm had better recognition performance than VQ algorithm as following. The GMM showed better performance with small training data, and it also showed just a little difference of recognition rate as the kind of feature vectors and the length of input data vary. The GMM showed good recognition performance than the VQ on the whole.

  • PDF

다채널 스피커 시스템을 위한 오디오 신호지 직렬 전송 (Serial Transmission of Audio Signals for Multi-channel Speaker Systems)

  • 권오균;송문빈;이승원;이영원;정연모
    • 한국음향학회지
    • /
    • 제24권7호
    • /
    • pp.387-394
    • /
    • 2005
  • 본 논문에서는 다채널 오디오 시스템의 스피커들을 직렬로 연결하기 위한 새로운 오디오 신호 전송 기법을 제시한다. 다채널 오디오 본체로부터의 아날로그 신호는 디지털 신호로 변환되고 신호 처리 과정을 거쳐서 직렬로 연결된 각 스피커에 전달된다. 여기서 신호 처리 과정은 오디오 신호의 특성을 고려한 데이터 압축과 전송을 위한 패킷 생성을 포함한다. 각 스피커는 전달된 패킷으로부터 해당하는 디지털 신호만을 검출하여 아날로그 신호로 다시 변환하여 음향을 재생한다. 제시된 모든 기능은 VHDL을 사용하여 모델링되었으며 FPGA 칩으로 구현하였고 실제 다채널 오디오 시스템에서 테스트하였다.

화자인식을 위한 퍼지상관차원 제안 (A Proposition of the Fuzzy Correlation Dimension for Speaker Recognition)

  • 유병욱;김창석;박현숙
    • 전자공학회논문지S
    • /
    • 제36S권1호
    • /
    • pp.115-122
    • /
    • 1999
  • 본 논문은 음성신호가 카오스 신호임을 확인하고 화자인식 파라미터로 사용하기 위해 상관차원을 분석하였다. 화자식별과 인식 향상을 위하여 개인의 성도특성을 매우 잘 나타내는 음성의 스트레인지 어트렉터를 구성하고 퍼지유사도를 상관차원에 적용하여 퍼지상관차원을 제안하였다. 퍼지상관차원은 어트렉터 구성점들의 상관관계글 퍼지상관적분으로 추정하고 공간차원에 따라 퍼지상관지수가 일정하게 수렴되는 차원값을 구하여 표준패턴 어트렉터와 시험패턴 어트렉터의 변동을 흡수하였다. 퍼지상관차원에 대해 화자와 표준패턴별로 식별오차의 평균값에 따른 거리를 추정함으로써 화자인식파라미터의 타당성을 검토하였다.

  • PDF

스마트 스피커의 교육적 활용에 관한 연구 (A Study on the Educational Uses of Smart Speaker)

  • 장지연
    • 한국융합학회논문지
    • /
    • 제10권11호
    • /
    • pp.33-39
    • /
    • 2019
  • 교육업계에 교육과 정보기술(IT)을 융합한 '에듀테크' 바람이 불고 있다. 4차 산업혁명 핵심 기술이 최근 교육 분야에 적극 활용되고 있는데 학습자들은 인공지능 기반 학습 플랫폼을 이용해 자신이 부족한 부분을 스스로 진단하고, 클라우드 학습 플랫폼으로 온라인상에서 개인 맞춤형 교육을 받는다. 최근 인공지능 기술과 음성인식 기술을 접목한 스마트 스피커와 같은 새로운 교육 매체가 등장하게 되어 다양한 교육서비스가 시도되고 있다. 본 연구에서는 기존 교육의 한계를 극복하기 위해 스마트 스피커를 교육적으로 활용하는 방안을 제시하고자 하였다. 이를 위해 스마트 스피커의 개념 및 특성을 알아보고 스마트 스피커에서 제공하는 콘텐츠를 분석하여 시사점을 도출하였다. 또한 스마트 스피커이용의 문제점에 대해서도 고찰하였다.

양자 간 대화 상황에서의 화자인식을 위한 문장 시퀀싱 방법을 통한 자동 말투 인식 (Automatic Speech Style Recognition Through Sentence Sequencing for Speaker Recognition in Bilateral Dialogue Situations)

  • 강가람;권오병
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.17-32
    • /
    • 2021
  • 화자인식은 자동 음성시스템에서 중요한 기능을 담당하며, 최근 휴대용 기기의 발전 및 음성 기술, 오디오 콘텐츠 분야 등이 계속해서 확장됨에 따라 화자인식 기술의 중요성은 더구나 부각 되고 있다. 이전의 화자인식 연구는 음성 파일을 기반으로 화자가 누구인지 자동으로 판정 및 정확도 향상을 위한 목표를 가지고 진행되었다. 한편 말투는 중요한 사회언어학적 소재로 사용자의 사회적 환경과 밀접하게 관련되어 있다. 추가로 화자의 말투에 사용되는 종결어미는 문장의 유형을 결정하거나 화자의 의도, 심리적 태도 또는 청자에 대한 관계 등의 기능과 정보를 가지고 있다. 이처럼 종결어미의 활용형태는 화자의 특성에 따라 다양한 개연성이 있어 특정 미확인 화자의 종결어미의 종류와 분포는 해당 화자를 인식하는 것에 도움이 될 것으로 보인다. 기존 텍스트 기반의 화자인식에서 말투를 고려한 연구가 적었으며 음성 신호를 기반으로 한 화자인식 기법에 말투 정보를 추가한다면 화자인식의 정확도를 더욱 높일 수 있을 것이다. 따라서 본 연구의 목적은 한국어 화자인식의 정확도를 개선하기 위해 종결어미로 표현되는 말투(speech style) 정보를 활용한 방법을 제안하는 것이다. 이를 위해 특정인의 발화 내용에서 등장하는 종결어미의 종류와 빈도를 활용하여 벡터값을 생성하는 문장 시퀀싱이라는 방법을 제안한다. 본 연구에서 제안한 방법의 우수성을 평가하기 위해 드라마 대본으로 학습 및 성능평가를 수행하였다. 본 연구에서 제안한 방법은 향후 실존하는 한국어 음성인식 서비스의 성능 향상을 위한 수단으로 사용될 수 있으며 지능형 대화 시스템 및 각종 음성 기반 서비스에 활용될 것을 기대한다.

채널에 강인한 화자 인식을 위한 채널 정규화 피치 동기 켑스트럼에 관한 연구 (A Study on the Channel Normalized Pitch Synchronous Cepstrum for Speaker Recognition)

  • 김유진;정재호
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.61-74
    • /
    • 2004
  • 본 논문에서는 채널 환경에 강인한 화자 인식 시스템을 위하여 문맥과 화자에 종속적인 켑스트럼 추출 방법과 추출된 켑스트럼에서 화자 정보의 손실을 최소화하는 채널 정규화 방법을 제안하였다. 제안된 추출 방법은 화자의 고유한 피치를 이용한 피치 동기 분석 방법에 기반을 두어 켑스트럼을 추출한다. 따라서 일명 피치 동기 켑스트럼 (PSC)은 유성음 구간에서 성도의 임펄스 응답을 보다 정확하게 표현할 수 있다. 또한 피치는 채널 환경에서 스펙트럼에 비해 강인하므로 피치 동기 켑스트럼은 채널에 의한 스펙트럼의 왜곡을 보상할 수 있다. 제안된 채널 정규화방법인 포먼트 평활화 피치 동기 켑스트랄 평균 차감법 (FBPSCMS)은 포먼트 평활화 켑스트랄 평균 차감법을 PSC에 적용하여 프레임 내 처리의 정확도를 개선시킨다. 제안된 방법들의 화자 인식 성능을 비교하기 위해 남자 112명과 여자 56명에 대해 WMIT과 전화선 환경의 NTIMIT을 이용한 화자 식별을 수행하였다. 실험 결과 피치 동기 LPCC는 기존 단구간 켑스트럼과 비교하여 에러 감소율을 최대 7.7%까지 향상시켰고, FBPSCMS는 극점 필터링 CMS에 비해 보다 안정되고 낮은 에러율을 나타내었다.