• 제목/요약/키워드: Speech speed

검색결과 241건 처리시간 0.033초

가변학습율과 온라인모드를 이용한 개선된 EBP 알고리즘 (Improved Error Backpropagation by Elastic Learning Rate and Online Update)

  • Lee, Tae-Seung;Park, Ho-Jin
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.568-570
    • /
    • 2004
  • The error-backpropagation (EBP) algerithm for training multilayer perceptrons (MLPs) is known to have good features of robustness and economical efficiency. However, the algorithm has difficulty in selecting an optimal constant learning rate and thus results in non-optimal learning speed and inflexible operation for working data. This paper Introduces an elastic learning rate that guarantees convergence of learning and its local realization by online upoate of MLP parameters Into the original EBP algorithm in order to complement the non-optimality. The results of experiments on a speaker verification system with Korean speech database are presented and discussed to demonstrate the performance improvement of the proposed method in terms of learning speed and flexibility fer working data of the original EBP algorithm.

  • PDF

직교인자의 동적 특성을 이용한 화자인식 (Speaker Recognition Using Dynamic Time Variation fo Orthogonal Parameters)

  • 배철수
    • 한국통신학회논문지
    • /
    • 제17권9호
    • /
    • pp.993-1000
    • /
    • 1992
  • 음성신호의 분석으로부터 유도되는 직교인자는 화자의 개인성을 많이 포함하고 있으므로, 최근 많은 연구자들이 이것을 이용한 통계적 처리방법으로 화자인식을 수행하여 좋은 화자인식율을 얻고 있다. 그러나 이러한 방법들은 아직 음성의 발성속도나 시간적 동특성으로 인해서 발생하는 문제점을 갖고 있다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해서 음성분석의 한 방법인 Karhunen-Loeve 직교 변환에 의해서 추출한 직교인자를 화자인식에 이용하는 방법에 DTW법을 결합하는 두가지 기법을 제안하였다. 첫째는 직교인자를 특징벡터로 하여 DTW법을 적용하고, 둘째는 직교인자를 최적경로에 이용하는 기법이다. 이들 두 기법에 의한 화자인식 결과와 직교인자의 통계적 처리에 의한 종래의 화자인식방법의 결과를 비교하였다. 사용된 직교인자는 음성신호에서 선형예측계수와 부분자기상관계수를 각각 추출하여 위의 화자인식방법에 각각 적용하였다. 이를 실험한 결과, 선형예측계수로 부터 얻은 직교인자를 최적경로를 이용한 기법에 적용하는 경우 88.6%의 가장 높은 인식율을 얻었다.

  • PDF

E-MIND II를 이용한 고립 단어 인식 시스템의 설계 (Isolated Word Recognition with the E-MIND II Neurocomputer)

  • 김준우;정홍;김명원
    • 전자공학회논문지B
    • /
    • 제32B권11호
    • /
    • pp.1527-1535
    • /
    • 1995
  • This paper introduces an isolated word recognition system realized on a neurocomputer called E-MIND II, which is a 2-D torus wavefront array processor consisting of 256 DNP IIs. The DNP II is an all digital VLSI unit processor for the EMIND II featuring the emulation capability of more than thousands of neurons, the 40 MHz clock speed, and the on-chip learning. Built by these PEs in 2-D toroidal mesh architecture, the E- MIND II can be accelerated over 2 Gcps computation speed. In this light, the advantages of the E-MIND II in its capability of computing speed, scalability, computer interface, and learning are especially suitable for real time application such as speech recognition. We show how to map a TDNN structure on this array and how to code the learning and recognition algorithms for a user independent isolated word recognition. Through hardware simulation, we show that recognition rate of this system is about 97% for 30 command words for a robot control.

  • PDF

다단계 구단위화를 이용한 고속 한국어 의존구조 분석 (High Speed Korean Dependency Analysis Using Cascaded Chunking)

  • 오진영;차정원
    • 한국시뮬레이션학회논문지
    • /
    • 제19권1호
    • /
    • pp.103-111
    • /
    • 2010
  • 한국어 처리에서 구문분석기에 대한 요구는 많은 반면 성능의 한계와 강건함의 부족으로 인해 채택되지 못하는 것이 현실이다. 본 연구는 구문분석을 레이블링 문제로 전환하여 성능, 속도, 강건함을 모두 실현한 시스템에 대해서 설명한다. 우리는 다단계 구 단위화(Cascaded Chunking)를 통해 한국어 구문분석을 시도한다. 각 단계에서는 어절별 품사 태그와 어절 구문표지를 자질로 사용하고 CRFs(Conditional Random Fields)를 이용하여 최적의 결과를 얻는다. 58,175문장 세종 구문 코퍼스로 10-fold Cross Validation(평균 10.97어절)으로 실험한 결과 평균 86.01%의 구문 정확도를 보였다. 이 결과는 기존에 제안되었던 구문분석기와 대등하거나 우수한 성능이며 기존 구문분석기가 처리하지 못하는 장문도 처리 가능하다.

A Study on Stable Motion Control of Humanoid Robot with 24 Joints Based on Voice Command

  • Lee, Woo-Song;Kim, Min-Seong;Bae, Ho-Young;Jung, Yang-Keun;Jung, Young-Hwa;Shin, Gi-Soo;Park, In-Man;Han, Sung-Hyun
    • 한국산업융합학회 논문집
    • /
    • 제21권1호
    • /
    • pp.17-27
    • /
    • 2018
  • We propose a new approach to control a biped robot motion based on iterative learning of voice command for the implementation of smart factory. The real-time processing of speech signal is very important for high-speed and precise automatic voice recognition technology. Recently, voice recognition is being used for intelligent robot control, artificial life, wireless communication and IoT application. In order to extract valuable information from the speech signal, make decisions on the process, and obtain results, the data needs to be manipulated and analyzed. Basic method used for extracting the features of the voice signal is to find the Mel frequency cepstral coefficients. Mel-frequency cepstral coefficients are the coefficients that collectively represent the short-term power spectrum of a sound, based on a linear cosine transform of a log power spectrum on a nonlinear mel scale of frequency. The reliability of voice command to control of the biped robot's motion is illustrated by computer simulation and experiment for biped walking robot with 24 joint.

최적경로와 가중직교인자를 이용한 화자인식 (Speaker Recognition Using Optimal Path and Weighted Orthogonal Parameters)

  • 박승규;배철수
    • 한국음향학회지
    • /
    • 제11권2호
    • /
    • pp.68-72
    • /
    • 1992
  • 최근, 많은 연구자들이 KLT를 이용한 통계적 처리방법으로 화자인식을 수행하고 있으나, 통계적 처리방법의 개인성 포함정도와 음성의 동적인 발성속도는 화자인식율의 저하요인이 되고 있다. 본연구에서는 각 화자의 직교인자에 개인성을 강조하기 위하여 화자의 고유치를 가중치로 한 가중직교인자와 음성의 동적인 시간특성을 정규화하는 DTW의 최적경로를 이용한 화자인식방법을 연구하였다. 이방법을 확인하기 위하여 종래의 통계적 처리에 의한 화자인식, 최적경로와 최적경로와 가중직교인자를 이용한 화자인식의 결과를 비교한 결과, 종래의 방법보다 우수한 화자인식율을 얻어 그 유효성을 확인하였다.

  • PDF

요들송에 대한 전기성문파형검사(EGG)를 이용한 발성학적 접근 (A Phonetic Analysis of Yodel Singing by the Electroglottographic(EGG) Measurement)

  • 서동일;최헝식
    • 음성과학
    • /
    • 제7권2호
    • /
    • pp.113-126
    • /
    • 2000
  • A comparative phonetic analysis of Yodel singing and Belcanto singing by the electroglottographic(EGG) measurement was done in three singers. One professional tenor singer(SDI) who is also well trained in Yodel singing, another yodler(KWS) who is not so trained in Belcanto singing, and the other training tenor singer(CSK) who is not well trained both yodel and Belcanto singing. Closed quotient(CQ), speed quotient(SQ) and fundamental frequency (F0) at the initial modal part(I) , middle falsetto part(M), and final modal part(F) of the same phrase were measured by EGG machine and program(Kay model 4338). In the middle part, not only CQ but also SQ of the Yodel singing were much smaller than that of Belcanto singing in all three singers. However, accuracy of parameters in Belcanto singing of the yodler(KWS) and both Yodel singing and Belcanto singing of the training singer(CSK) were inferior to that of trained tenor singer(SDI). Possible advantages of utilizing Yodel singing training under the guidance of feedback control by the EGG for hyperfunctional voice disorders such as vocal nodules were discussed.

  • PDF

소어휘 단어단위의 음성인식 칩 설계 (The Design of Speech Recognition Chip for a Small Vocabulary as a Word-level)

  • 안점영;최영식
    • 한국정보통신학회논문지
    • /
    • 제6권2호
    • /
    • pp.330-338
    • /
    • 2002
  • 소어휘 단어단위의 음성을 인식할 수 있는 음성인식 칩을 설계하였다. 설계된 칩은 음성 신호의 시작과 끝점 검출 부분, LPC 켑스트럼 계수 추출 부분, DTW 실행 부분과 외부 메모리 인터페이스 부분으로 구성되어있다. CMOS 0.35um TLM 공정으로 설계된 이 칩은 4x4mm2의 면적에 126,938개의 게이트로 만들어져 있다. 그리고 전용 H/W의 동작 속도는 5MHz에서 60MHz까지 조정 가능하다. 5MHz 클록을 사용하는 경우, 50∼60 프레임 정도의 소어휘 단어 단위의 음성을 초당 100,000개까지 비교할 수 있는 능력이 있고, 60MHz의 클록을 사용하는 경우는 초당 1,200,000개의 단어를 비교할 수 있다.

최적경로와 가중직교인자를 이용한 화자인식 (Speaker Recognition Using Optimal Path and Weighted Orthogonal Parameters)

  • 남기환;배철수
    • 한국정보통신학회논문지
    • /
    • 제7권7호
    • /
    • pp.1539-1544
    • /
    • 2003
  • 최근 많은 연구자들이 KLT를 이용한 통계적 처리방법으로 화자인식을 수행하고 있으나, 통계적 처리방법의 개인성 포함정도와 음성의 동적인 발성속도는 화자인식률의 저하요인이 되고 있다. 본 연구에서는 각 화자의 직교인자에 개인성을 강조하기 위하여 화자의 고유치를 가중치로 한 가중직교 인자와 음성의 동적인 시간 특성을 정규화 하는 DTW의 최적경로를 이용한 화자인식방법을 연구하였다. 이 방법을 확인하기 위하여 종래의 통계적 처리에 의한 화자인식, 최적경로와 가중직교인자를 이용한 화자인식의 결과를 비교한 결과, 종래의 방법보다 우수한 화자인식률을 얻어 그 유효성을 확인하였다.

MLHF 모델을 적용한 어휘 인식 탐색 최적화 시스템 (Vocabulary Recognition Retrieval Optimized System using MLHF Model)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권10호
    • /
    • pp.217-223
    • /
    • 2009
  • 모바일 단말기의 어휘 인식 시스템에서는 통계적 방법에 의한 어휘인식을 수행하고 N-gram을 이용한 통계적 문법 인식 시스템을 사용한다. 인식 대상이 되는 어휘의 수가 증가하면 어휘 인식 알고리즘이 복잡해지고 대규모의 탐색공간을 필요로 하게 되며 처리시간이 길어지므로 제한된 연산처리 능력과 메모리로는 처리하기가 불가능하다. 따라서 본 논문에서는 이러한 단점을 개선하고 어휘 인식을 최적화하기 위하여 MLHF 시스템을 제안한다. MLHF는 FLaVoR의 구조를 이용하여 음향학적 탐색과 언어적 탐색을 분리하여 음향학적 탐색에서는 HMM을 사용하고 언어적 탐색 단계에서는 Levenshtein distance 알고리즘을 사용한다. 시스템 성능 평가 결과 어휘 종속 인식률은 98.63%, 어휘 독립 인식률은 97.91%의 인식률을 나타냈으며 인식속도는 1.61초로 나타내었다.