• 제목/요약/키워드: TDRNN

검색결과 3건 처리시간 0.013초

MSVQ/TDRNN을 이용한 음성인식 (Speech Recognition Using MSVQ/TDRNN)

  • 김성석
    • 한국음향학회지
    • /
    • 제33권4호
    • /
    • pp.268-272
    • /
    • 2014
  • 본 논문에서는 MSVQ(Multi-Section Vector Quantization)와 시간지연 회귀 신경회로망(TDRNN)을 이용한 하이브리드 구조의 음성인식 방법을 제안한다. MSVQ는 음성의 길이를 일정한 구간 수로 정규화한 코드북을 생성하고, 시간지연 회귀 신경회로망은 이 코드북을 이용하여 음성을 인식한다. 시간지연 회귀 신경회로망은 음성의 시계열 문맥정보를 잘 학습할 수 있는 구조로 구성되었다. 음성특징으로 인지선형예측(PLP) 계수가 사용되었다. 음성인식 실험을 수행한 결과 MSVQ/TDRNN 음성인식기는 97.9 %의 화자독립 음성 인식률을 보였다.

시간지연 회귀 신경회로망을 이용한 피치 악센트 인식 (Automatic Recognition of Pitch Accents Using Time-Delay Recurrent Neural Network)

  • Kim, Sung-Suk;Kim, Chul;Lee, Wan-Joo
    • The Journal of the Acoustical Society of Korea
    • /
    • 제23권4E호
    • /
    • pp.112-119
    • /
    • 2004
  • This paper presents a method for the automatic recognition of pitch accents with no prior knowledge about the phonetic content of the signal (no knowledge of word or phoneme boundaries or of phoneme labels). The recognition algorithm used in this paper is a time-delay recurrent neural network (TDRNN). A TDRNN is a neural network classier with two different representations of dynamic context: delayed input nodes allow the representation of an explicit trajectory F0(t), while recurrent nodes provide long-term context information that can be used to normalize the input F0 trajectory. Performance of the TDRNN is compared to the performance of a MLP (multi-layer perceptron) and an HMM (Hidden Markov Model) on the same task. The TDRNN shows the correct recognition of $91.9{\%}\;of\;pitch\;events\;and\;91.0{\%}$ of pitch non-events, for an average accuracy of $91.5{\%}$ over both pitch events and non-events. The MLP with contextual input exhibits $85.8{\%},\;85.5{\%},\;and\;85.6{\%}$ recognition accuracy respectively, while the HMM shows the correct recognition of $36.8{\%}\;of\;pitch\;events\;and\;87.3{\%}$ of pitch non-events, for an average accuracy of $62.2{\%}$ over both pitch events and non-events. These results suggest that the TDRNN architecture is useful for the automatic recognition of pitch accents.

분산 시간지연 회귀신경망을 이용한 피치 악센트 자동 인식 (Automatic Recognition of Pitch Accent Using Distributed Time-Delay Recursive Neural Network)

  • 김성석
    • 한국음향학회지
    • /
    • 제25권6호
    • /
    • pp.277-281
    • /
    • 2006
  • 본 논문에서는 시간지연 회귀신경회로망을 이용한 음절 레벨에서의 피치 악센트 자동 인식 방법을 제안한다. 시간지연 회귀 신경회로망은 두 종류의 동적 문맥정보를 표현한다. 시간지연 회귀신경회로망의 시간지연 입력 노드는 시간 축 상의 피치 및 에너지 궤도를 표현하고, 회귀 노드는 피치 악센트의 특성을 반영하는 문맥 정보를 표현한다. 본 논문에서는 이러한 시간지연 회귀신경회로망을 두 가지 형태로 구성하여 피치 악센트 자동 인식에 적용한다. 하나의 형태는 단일 시간지연 회귀 신경회로망에서 복수 개의 운율 특정파라미터 (피치, 에너지, 지속시간)를 입력 노드에 함께 공급하여 피치 악센트 인식을 수행하고, 다른 하나는 분산 시간지연 회귀 신경회로망을 이용하여 피치 악센트 인식을 수행한다. 분산 시간지연 회귀 신경회로망은 여러 개의 시간지연 회귀 신경회로망으로 구성되고, 각 시간지연 회귀 신경회로망은 단일 운율 특징 파라미터만으로 학습된다. 분산 시간지연 회귀 신경회로망의 인식결과는 개별 시간지연 회귀 신경회로망의 출력 값의 가중치 합으로 결정된다. 화자 독립 피치 악센트 인식 실험을 위해 보스톤 라디오 뉴스 코퍼스 (BRNC)를 사용하였다. 실험결과, 분산 시간지연 회귀 신경회로망은 83.64%의 피치 악센트 인식률을 보였다.