• 제목/요약/키워드: Speech speed

검색결과 239건 처리시간 0.041초

새로운 시간축 정규화 방법을 이용한 한국어 고립단어 인식기 (Korean isolated word recognizer using new time alignment method of speech signal)

  • 남명우;박규홍;노승용
    • 대한전자공학회논문지SP
    • /
    • 제38권5호
    • /
    • pp.567-575
    • /
    • 2001
  • 본 논문에서는 음성신호의 발성길이와 상관없이 일정한 크기의 파라미터를 얻을 수 있는 새로운 방법을 제안하였다. 음성인식기의 성능은 음성신호에서 추출된 파라미터간의 유사도(패턴간의 거리)를 어떻게 비교하는지에 따라 결정된다. 그러나 화자에 따른 음성신호의 변이나 발성속도의 차이는 음성신호에서 일정한 크기의 파라미터 추출을 어렵게 한다. 제안한 방법은 음성신호에서 얻어진 파라미터를 스펙토그램의 형태로 표현한 뒤 2차원 DCT(Discrete Cosine Transform)를 이용해 일정한 크기의 파라미터로 정규화시키는 방법이다. 제안한 방법의 유효성을 입증하기 위해 청각세포를 모델링한 32개의 대역통과 필터로부터 얻어진 음성신호의 파라미터를 2차원 DCT 방법으로 가공한 후, 신경 회로망의 입력으로 사용하였다. 또한 기존 방법과의 인식률 비교를 위해 기존의 정규화된 입력을 구하는 방법 중 하나를 선택하여 비교 실험을 수행하였다. 실험결과 제안한 방법은 기존 방법에 비해 화자종속 및 화자독립 고립단어 인식에서 더 높은 인식률과 빠른 인식속도를 얻을 수 있었다.

  • PDF

음성인식 기능을 가진 주소입력 시스템의 개발과 평가 (Development and Evaluation of an Address Input System Employing Speech Recognition)

  • 김득수;황철준;정현열
    • 한국음향학회지
    • /
    • 제18권2호
    • /
    • pp.3-10
    • /
    • 1999
  • 본 논문은 음성인식 기술을 사용자 인터페이스로 하여 국내 행정 단위 시(도), 구(군), 동(읍,면), 번지로 구성되는 주소를 인식의 대상으로 하는 주소 입력 시스템 구축에 대하여 기술한다. 본 시스템은 사운드카드가 장착된 개인용 컴퓨터상의 윈도우 95환경에서 동작하며, 음성인식부는 인식의 기본단위로 유사음소단위(Phoneme Like Units: PLUs)를 이용하여 CHMM(Continuous Hidden Markov Model) 음소모델을 작성하고, 주소인식을 위해서 주소명의 특징을 고려하여 이에 적합한 유한상태 오토마타(Finite State Automata)를 구성하여 OPDP(One Pass Dynamic Programming)법으로 인식을 수행하였다. 실용성있는 시스템 성능을 얻기 위하여 마이크, 환경잡음 및 화자의 변화 등의 사용환경변화에 대해 최대사후확률추정법(Maximum A Posteriori Probability Estimation: MAP)으로 적응화시켜 인식률의 향상을 도모하였고, 개인용 컴퓨터상에서의 인식속도를 향상시키기 위하여 가변프루닝 문턱치를 이용한 고속화 기법을 제안하였다. 평가결과, 화자적응화 후의 성인 남자 3인에 대한 100개의 연결주소명의 연결단어 인식률은 평균 96.0%이상, 인식속도는 발성완료후 약 2초 이내로 인식이 완료되어 본 시스템의 유효성을 확인할 수 있었다.

  • PDF

CDHMM의 화자적응에 관한 연구 (A Study on the Speaker Adaptation in CDHMM)

  • 김광태
    • 대한전자공학회논문지SP
    • /
    • 제39권2호
    • /
    • pp.116-127
    • /
    • 2002
  • 본 논문에서는 CDHMM 음성인식기의 인식성능을 향상시키기 위해 상태 당 관측밀도함수 수 변화에 의한 화자적응 알고리듬을 제안하였다. 제안한 방법은 CDHMM의 각 상태마다 관측 확률밀도함수의 가지 수가 두 개 이상이 릴 수도 있게 하여 발음특성의 다양성을 반영할 수 있게 하였다. 가지 수는 각 상태에 속하는 적응음성의 프레임 수에 따라 정하는 방법과 특징벡터 행렬식에 따라 정하는 방법으로 하였다 이두 방법중의 어느 하나로 관측 확률밀도함수의 가지가 결정되면, 세분화된 각 가지로부터 MAP 파라미터를 추출함으로써 정밀한 화자적응모델의 파라미터를 구할 수 있었다. 아울러 적응음성을 상태분할 할 때 기존의 화자독립모델을 사전정보로 이용함으로써 ML 추정시의 초기 상태분할 오류의 영향을 줄여 기존 상태분 할 방법의 단점을 개선하였다 그리고 상태지속분포를 화자에 적응시킴으로써 화자 고유의 발음속도와 발음 패턴 등의 음성특성을 흡수하도록 하였다. 제안한 방법들의 타당성을 확인하기 위한 실험에서 제안한 방법이 기존 방법에 비해 높은 인식률을 얻음을 확인하였다.

대어휘 연속음성인식을 위한 서브네트워크 기반의 1-패스 세미다이나믹 네트워크 디코딩 (1-Pass Semi-Dynamic Network Decoding Using a Subnetwork-Based Representation for Large Vocabulary Continuous Speech Recognition)

  • 정민화;안동훈
    • 대한음성학회지:말소리
    • /
    • 제50호
    • /
    • pp.51-69
    • /
    • 2004
  • In this paper, we present a one-pass semi-dynamic network decoding framework that inherits both advantages of fast decoding speed from static network decoders and memory efficiency from dynamic network decoders. Our method is based on the novel language model network representation that is essentially of finite state machine (FSM). The static network derived from the language model network [1][2] is partitioned into smaller subnetworks which are static by nature or self-structured. The whole network is dynamically managed so that those subnetworks required for decoding are cached in memory. The network is near-minimized by applying the tail-sharing algorithm. Our decoder is evaluated on the 25k-word Korean broadcast news transcription task. In case of the search network itself, the network is reduced by 73.4% from the tail-sharing algorithm. Compared with the equivalent static network decoder, the semi-dynamic network decoder has increased at most 6% in decoding time while it can be flexibly adapted to the various memory configurations, giving the minimal usage of 37.6% of the complete network size.

  • PDF

잡음에 강한 음성 인식에서 SNR 기준 함수를 사용한 가우시안 함수 변형 및 결정에 관한 연구 (A Study on Variation and Determination of Gaussian function Using SNR Criteria Function for Robust Speech Recognition)

  • 전선도;강철호
    • 한국음향학회지
    • /
    • 제18권7호
    • /
    • pp.112-117
    • /
    • 1999
  • 잡음에 강한 음성인식시스템을 위하여 주파수 차감법을 사용할 경우 음성 신호마저 차감하여 신호를 더욱 부식시키는 경우가 존재한다. 본 연구에서는 이러한 경우를 위해서 프레임 마다 추정 잡음과 차감 신호의 SNR(Signal to Noise Ratio) 함수로부터 반연속 HMM(Hidden Markov Model)의 가우시안 함수를 변형 및 결정하는 방법을 제안한다. 이 방법의 타당성을 위해 프레임마다 추정 잡음의 오류 정도가 추정 잡음의 크기와 관계함을 신호 파형 형태로써 보였으며, 이러한 이유에서 SNR을 기준으로 가우시안 함수를 변형 및 결정하게 된다. 실험에서 80㎞/h 이상의 속도로 달리는 차량 내에서 배경 잡음과 음성이 혼합되었을 때의 음성 인식율을 평가하였다. 그 결과 주파수 차감한 경우와 차감하지 않은 경우에 비해 본 논문에서 제안한 SNR에 의한 가우시안 결정 방법이 더욱 향상된 인식율을 보였다.

  • PDF

음향학적 및 언어적 탐색을 이용한 어휘 인식 최적화 (The Vocabulary Recognition Optimize using Acoustic and Lexical Search)

  • 안찬식;오상엽
    • 한국멀티미디어학회논문지
    • /
    • 제13권4호
    • /
    • pp.496-503
    • /
    • 2010
  • 어휘인식 시스템은 스탠드 얼론(Standalone)으로 개발되어 지고 있으며 휴대용 단말기에서 사용하였을 경우 메모리 공간의 제약과 오디오 압축으로 인해 인식률이 낮게 나타난다. 본 연구에서는 휴대용 단말기의 성능과 인식률 향상을 위하여 음향학적 탐색과 언어적 탐색을 분리하여 어휘 인식 속도를 개선한 시스템을 제안하였다. 음향학적 탐색은 휴대용 단말기에서 수행하고 보다 복잡한 언어적 탐색은 서버에서 처리하는 시스템으로 음성신호로부터 특징벡터를 추출하여 GMM을 이용한 음소인식을 수행하고, 인식된 음소 열을 서버로 전송하여 렉시컬 트리 탐색 알고리즘을 사용하여 언어적 탐색 단계에서 어휘 인식을 수행하였다. 시스템 성능 평가 결과 어휘 종속 인식률은 98.01%, 어휘 독립 인식률은 97.71%의 인식률을 나타냈으며 인식속도는 1.58초로 나타내었다.

가변 대역폭 LPF를 이용한 피치 검출 (Pitch Detection Using Variable Bandwidth LPF)

  • 금홍;백금란;배명진;장호성
    • 한국음향학회지
    • /
    • 제13권5호
    • /
    • pp.77-82
    • /
    • 1994
  • 음성신호 처리에서, 피치를 정확하게 찾아내는 것이 매우 중요하다. 현재까지 많은 피치 검출 방법들이 제안되어 왔지만, 광범위한 화자와 다양한 음성 데이터로부터 정확한 피치를 찾는 것은 어렵다. 따라서 본 논문에서는 G-peak 검출을 이용한 새로운 피치 검출 알고리즘을 제안한다. 이 방법은 G-peak 의 MZCI (최대 영교차 간격) 을 LPF (low-pass filter)의 차단대역폭으로 결정하여 음성신호의 피치를 검출하는 방법이다. 본 알고리즘은 0dB SNR 환경 하에서 3.36%의 그로스 에러를 나타내는 잡음에 강인한 방법이다. 또한 잡음이 없는 음성의 그로스 에러는 0.18%였고, 모든 과정은 고속 처리가 가능하다.

  • PDF

은닉 마코프 모델을 이용한 음성 인식 시스템 설계 (Design of A Speech Recognition System using Hidden Markov Models)

  • 이철원;임인칠
    • 전자공학회논문지B
    • /
    • 제33B권1호
    • /
    • pp.108-115
    • /
    • 1996
  • 본 논문에서는 이산 은닉 마코프 모델(Discrete Hidden Markov Model)을 이용한 연결 음성 인식에 관한 알고리듬 및 모델 토폴로지를 제안한다. 제안된 모델은 인식률과 인식할 수 있는 어휘를 고려하여 2 음소열 및 3 음소열 모델을 사용하며, 보다 정확한 음소 간의 세그멘테이션과 알고리듬의 수행 속도를 고려하여 2 음소열에서는 첫 번째 상태와 마지막 상태를 안정 상태, 나머지 상태는 천이 상태인 4 개의 상태를 갖도록 하고, 또한 3 음소열에서는 7 개의 상태를 갖도록 하며, 여기서 7개의 상태는 3 개의 안정 상태와 4개의 천이 상태를 갖도록 개선한다. 또한, 제안된 음성 인식 알고리듬은 인식 과정 내에서 음소의 발음 구간을 검출하도록 설계한다.

  • PDF

저작권 보호를 위한 HMM기반의 음악 식별 시스템 (HMM-based Music Identification System for Copyright Protection)

  • 김희동;김도현;김지환
    • 말소리와 음성과학
    • /
    • 제1권1호
    • /
    • pp.63-67
    • /
    • 2009
  • In this paper, in order to protect music copyrights, we propose a music identification system which is scalable to the number of pieces of registered music and robust to signal-level variations of registered music. For its implementation, we define the new concepts of 'music word' and 'music phoneme' as recognition units to construct 'music acoustic models'. Then, with these concepts, we apply the HMM-based framework used in continuous speech recognition to identify the music. Each music file is transformed to a sequence of 39-dimensional vectors. This sequence of vectors is represented as ordered states with Gaussian mixtures. These ordered states are trained using Baum-Welch re-estimation method. Music files with a suspicious copyright are also transformed to a sequence of vectors. Then, the most probable music file is identified using Viterbi algorithm through the music identification network. We implemented a music identification system for 1,000 MP3 music files and tested this system with variations in terms of MP3 bit rate and music speed rate. Our proposed music identification system demonstrates robust performance to signal variations. In addition, scalability of this system is independent of the number of registered music files, since our system is based on HMM method.

  • PDF

Folded Architecture for Digital Gammatone Filter Used in Speech Processor of Cochlear Implant

  • Karuppuswamy, Rajalakshmi;Arumugam, Kandaswamy;Swathi, Priya M.
    • ETRI Journal
    • /
    • 제35권4호
    • /
    • pp.697-705
    • /
    • 2013
  • Emerging trends in the area of digital very large scale integration (VLSI) signal processing can lead to a reduction in the cost of the cochlear implant. Digital signal processing algorithms are repetitively used in speech processors for filtering and encoding operations. The critical paths in these algorithms limit the performance of the speech processors. These algorithms must be transformed to accommodate processors designed to be high speed and have less area and low power. This can be realized by basing the design of the auditory filter banks for the processors on digital VLSI signal processing concepts. By applying a folding algorithm to the second-order digital gammatone filter (GTF), the number of multipliers is reduced from five to one and the number of adders is reduced from three to one, without changing the characteristics of the filter. Folded second-order filter sections are cascaded with three similar structures to realize the eighth-order digital GTF whose response is a close match to the human cochlea response. The silicon area is reduced from twenty to four multipliers and from twelve to four adders by using the folding architecture.