• 제목/요약/키워드: Eigenvoice

검색결과 13건 처리시간 0.019초

바이어스 보상과 차원별 Eigenvoice 모델 평균을 이용한 고속화자적응의 성능향상 (Performance Improvement of Rapid Speaker Adaptation Using Bias Compensation and Mean of Dimensional Eigenvoice Models)

  • 박종세;김형순;송화전
    • 한국음향학회지
    • /
    • 제23권5호
    • /
    • pp.383-389
    • /
    • 2004
  • 본 논문에서는 훈련 및 인식 환경이 다른 상황에서 eigenvoice 기반 고속화자적응의 성능향상을 위하여 바이어스 보상을 적용한 eigenvoice 적응방식과 차원별 eigenvoice 모델 평균 가중합 방식을 제안하였다. PBW 452 DB를 사용한 어휘독립 단어인식 실험 결과에서 적은 양의 적응데이터를 사용했을 때 제안된 방식이 기존의 eigenvoice 방식에 비하여 많은 성능향상을 얻을 수 있었다. 적응단어 수를 1개에서 50개로 변경시키면서 바이어스 보상을 적용한 eigenvoice 적응방식을 사용한 경우 기존 eigenvoice 방식보다 단어 오인식률이 약 22∼30% 감소하였다. 또한 차원별 eigenvoice 모델 평균을 이용한 eigenvoice 적응방식에서는 1개의 단어를 적응데이터로 사용했을 경우에 기존 eigenvoice 방식보다 단어 오인식률이 최고 41%까지 감소하였다.

차원별 Eigenvoice와 화자적응 모드 선택에 기반한 고속화자적응 성능 향상 (Performance Improvement of Fast Speaker Adaptation Based on Dimensional Eigenvoice and Adaptation Mode Selection)

  • 송화전;이윤근;김형순
    • 한국음향학회지
    • /
    • 제22권1호
    • /
    • pp.48-53
    • /
    • 2003
  • Eigenvoice 방법은 고속화자적응에 적합하다고 알려져 있지만, 이 방법은 발화수가 증가하더라도 추가적인 인식성능향상이 이루어지지 않는 단점이 있다. 본 논문에서는 이 문제를 해결하기 위해 음성 특징벡터의 차원별로 eigenvoice의 가중치를 구하여 적응시키는 방법과 또한 적응 데이터 수에 따라 높은 인식률을 얻는 적응 방식을 선택하는 방식을 제안한다. 화자독립모델 및 eigenvoice들을 구성하기 위해 POW (Phonetically Optimized Words)데이터베이스를 사용하였으며, PBW(Phonetically Balanced Words) 452단어 중50개까지 발화 수를 변화시키면서 교사방식 (Supervised mode)로 적응에 사용하고 나머지 중 400개를 인식실험에 사용하였다. 차원별 eigenvoice 방법이 발화수가 증가함에 따라 기존의 eigenvoice 나 MLLR 방법보다 높은 성능을 보였으며, eigenvoice와 차원별 eigenvoice방법 사이의 적응 모드 선택을 통해 기존의 eigenvoice 방식에 비해 최고 26%의 단어 오인식률 감소를 얻었다.

한국어 연결 숫자음 인식을 일한 최대 사후 Eigenvoice에 근거한 자기적응 기법 (Self-Adaptation Algorithm Based on Maximum A Posteriori Eigenvoice for Korean Connected Digit Recognition)

  • 김동국;전형배
    • 한국음향학회지
    • /
    • 제23권8호
    • /
    • pp.590-596
    • /
    • 2004
  • 본 논문에서는 한국어 연결 숫자음 인식을 위한 최대 사후 eigenvoice을 사용한 자기적응 기법을 제안한다. 제안된 최대 사후 eigenvoice 기법은 eigenvoice 계수에 대한 확률 밀도 함수를 가정함으로 구성된다. 제안된 알고리즘은 기존 eigenvoice 추정 과정에 선 분포 모델을 포함하는 일반적인 해를 제공하는 구조를 갖는다. 인식할 한 문장만을 사용하는 자기 적응 시스템을 위해 매우 강인한 특성을 갖는 최대 사후 eigenvoice 적응 기법을 사용하였다. 한국어 연결 숫자음에 대한 일련의 자기 적응 실험결과 제안된 알고리즘의 성능은 매우 적은 량의 적응 데이터에 대해 기존 eigenvoice 알고리즘에 비해 우수한 성능을 나타냈었다.

가중치 분포 특성을 이용한 Eigenvoice 기반 고속화자적응 (Rapid Speaker Adaptation Based on Eigenvoice Using Weight Distribution Characteristics)

  • 박종세;김형순;송화전
    • 한국음향학회지
    • /
    • 제22권5호
    • /
    • pp.403-407
    • /
    • 2003
  • 최근 고속화자적응 기법으로 eigenvoice 방식이 많이 사용되고 있다. Eigenvoice 적응방식에서도 적응화자의 적응 데이터가 매우 적은 경우에는 적절한 가중치의 추정이 어렵기 때문에 적응 데이터가 어느 정도 많은 경우에 비해 인식성능 향상이 크지 않다. 본 논문에서는 적응 데이터가 적을 때의 성능향상을 위하여 eigenvoice의 가중치 분포 특성을 이용한 eigenvoice 기반 고속화자적응을 제안한다. PBW 452 데이터베이스를 사용한 어휘독립 단어인식 실험 결과에서 가중치 문턱치(threshold) 적용 방식을 사용하여 적응 데이터가 매우 적은 경우의 상대적인 성능 저조 문제를 완화시켰다. 적응단어를 단 1개만 사용한 경우 가중치 문턱치 적용 방식을 사용하여 단어 오인식률을 9-18% 정도 감소시켰다.

Sub-Stream 기반의 Eigenvoice를 이용한 고속 화자적응 (Fast Speaker Adaptation Using Sub-Stream Based Eigenvoice)

  • 송화전;이종석;김형순
    • 대한음성학회지:말소리
    • /
    • 제55권
    • /
    • pp.93-102
    • /
    • 2005
  • In this paper, sub-stream based eigenvoice method is proposed to overcome the weak points of conventional eigenvoice and dimensional eigenvoice. In the proposed method, sub-streams are automatically constructed by the statistical clustering analysis that uses the correlation information between dimensions. To obtain the reliable distance matrix from covariance matrix for dividing into optimal sub-streams, MAP adaptation technique is employed to the covariance matrix of training data and the sample covariance of adaptation data. According to our experiments, the proposed method shows $41\%$ error rate reduction when the number of adaptation data is 50.

  • PDF

Eigenvoice 병합을 이용한 효율적인 고속 화자 적응 (Efficient Rapid Speaker Adaptation Using Merging Eigenvoices)

  • 최동진;오영환
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.115-118
    • /
    • 2004
  • 음성 인식 분야에서는 화자 적응을 통해 화자 독립 시스템의 성능을 화자 종속 시스템에 근접시키려는 여러 가지 노력이 시도되고 있다. 특히 30 초미만의 매우 적은 양의 적응 자료를 이용하는 고속 화자 적응에 대한 관심이 증가하고 있다. 고속 화자 적응에 적합한 eigenvoice 를 이용한 적응 방법은 eigenvoice 를 구성하기 위해 너무 많은 계산량과 메모리를 요구한다. 본 논문에서는 각각 따로 계산된 eigenvoice 들을 한 번에 구성한 eigenvoice 들과 거의 같은 정확도를 갖도록 병합하여 고속 화자 적응에 이용하는 방법을 제안한다. 이 방법을 이용하면 훈련 자료의 추가시 처음부터 새롭게 eigenvoice 를 구하는 대신 추가된 자료에 대한 eigenvoice 를 구하고 병합함으로써 계산량과 메모리양을 현저히 줄일 수 있다. 실험 결과, 메모리와 계산량은 추가되는 화자 종속 모델의 수에 따라 감소하며 성능 저하는 거의 없었다.

  • PDF

Eigenvoice 기반 화자가중치 거리측정 방식을 이용한 화자 분할 시스템 (Speaker Segmentation System Using Eigenvoice-based Speaker Weight Distance Method)

  • 최무열;김형순
    • 한국음향학회지
    • /
    • 제31권4호
    • /
    • pp.266-272
    • /
    • 2012
  • 화자 분할 기술은 오디오 데이터로부터 자동적으로 화자 경계 구간을 검출하는 것이다. 화자 분할 방식은 화자에 대한 선행 지식 사용 여부에 따라 거리기반 방식과 모델기반 방식으로 나누어진다. 본 논문에서는 eigenvoice 기반의 화자가중치 거리를 이용한 화자 분할 방식을 도입하고, 이 방식을 대표적인 거리 기반 방식들과 비교한다. 또한, 화자가중치의 거리 측정 함수로 유클리드 거리와 cosine 유사도를 사용하여 화자 분할 성능을 비교하고, eigenvoice 방식에 의해 화자 적응된 모델들 사이의 직접적인 거리를 이용한 화자 분할 방식과의 비교를 통해 화자가중치 거리를 이용한 방식이 계산량면에서 효율적인 점을 검증한다.

Eigenvoice를 이용한 이진 마스크 분류 모델 적응 방법 (Eigenvoice Adaptation of Classification Model for Binary Mask Estimation)

  • 김기백
    • 방송공학회논문지
    • /
    • 제20권1호
    • /
    • pp.164-170
    • /
    • 2015
  • 본 논문에서는 잡음 환경에서 취득된 음성 신호에서 잡음을 제거하기 위한 방법으로 사용되는 이진 마스크 분류 모델의 적응과정에 대해 다루고자 한다. 기존 연구결과에 의하면, 잡음 환경 데이터에 이진 마스크 기법을 적용하면 음성 명료도를 향상시킬 수 있다고 알려져 있다. 하지만 이진 마스크 분류 모델 학습 시 테스트 환경 데이터가 포함되어야 한다는 단점을 안고 있다. 본 논문에서는 새로운 잡음 환경에서 이진 마스크 분류 모델을 적응하기 위해, 음성 인식에서 널리 사용되는 화자 적응 기법인 eigenvoice 방법을 적용하고자 한다. 실험결과에서는 모델 적응에 사용되는 데이터량에 따른 성능을 정검출율과 오검출율 관점에서 평가하였고, 그 결과 새로운 잡음 환경에서 데이터량을 증가시켜 모델을 적응함으로써 향상된 성능을 나타냄을 확인할 수 있었다.

Eigenvoice 병합을 이용한 연속 음성 인식 시스템의 고속 화자 적응 (Rapid Speaker Adaptation for Continuous Speech Recognition Using Merging Eigenvoices)

  • 최동진;오영환
    • 대한음성학회지:말소리
    • /
    • 제53호
    • /
    • pp.143-156
    • /
    • 2005
  • Speaker adaptation in eigenvoice space is a popular method for rapid speaker adaptation. To improve the performance of the method, the number of speaker dependent models should be increased and eigenvoices should be re-estimated. However, principal component analysis takes much time to find eigenvoices, especially in a continuous speech recognition system. This paper describes a method to reduce computation time to estimate eigenvoices only for supplementary speaker dependent models and to merge them with the used eigenvoices. Experiment results show that the computation time is reduced by 73.7% while the performance is almost the same in case that the number of speaker dependent models is the same as used ones.

  • PDF

다양한 잡음 환경하에서 환경 군집화를 통한 화자 및 환경 동시 적응 (Simultaneous Speaker and Environment Adaptation by Environment Clustering in Various Noise Environments)

  • 김영국;송화전;김형순
    • 한국음향학회지
    • /
    • 제28권6호
    • /
    • pp.566-571
    • /
    • 2009
  • 본 논문에서는 eigenvoice 방식에 기반하여 다양한 잡음 환경에 강인한 고속 화자 적응 방법을 제안하였다. 제안된 방법은 잡음 제거 기술과 환경 군집화 방법을 기반으로 한다. 그러나, 잡음 제거 기술을 통해 잡음을 제거한 후에도 여전히 잔여 잡음이 존재하므로 비음성 구간의 켑스트럼 평균을 사용하여 잡음 환경별로 화자 적응 데이터를 분류한 후 각각의 환경별로 환경 모델을 구성한다. 이러한 환경 군집화를 적응데이터에 대해 구성한 후 테스트 음성이 입력되면 군집화된 모델 중에서 인식 데이터와 가장 유사한 복수의 환경별 군집화된 화자 적응 모델을 구한 후 이들의 가중함을 통해 화자 적응을 수행하는 방법이다. 제안된 방법은 적응 및 평가를 통해 화자 독립 모델을 사용한 경우에 비해 $40{\sim}59%$ 인식 오류 감소율을 얻었다.