• 제목/요약/키워드: Speech recognition model

검색결과 623건 처리시간 0.027초

청각모델을 이용한 음성신호의 특징 추출 방법에 관한 연구 (Speech Feature Extraction Using Auditory Model)

  • 박규홍;김영호;정상국;노승용
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1998년도 하계학술대회 논문집 G
    • /
    • pp.2259-2261
    • /
    • 1998
  • Auditory Models that are capable of achieving human performance would provide a basis for realizing effective speech processing systems. Perceptual invariance to adverse signal conditions (noise, microphone and channel distortions, room reverberations) may provide a basis for robust speech recognition and speech coder with high efficiency. Auditory model that simulates the part of auditory periphery up through the auditory nerve level and new distance measure that is defined as angle between vectors are described.

  • PDF

MLLR 화자적응 기법을 이용한 적은 학습자료 환경의 화자식별 (Speaker Identification in Small Training Data Environment using MLLR Adaptation Method)

  • 김세현;오영환
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.159-162
    • /
    • 2005
  • Identification is the process automatically identify who is speaking on the basis of information obtained from speech waves. In training phase, each speaker models are trained using each speaker's speech data. GMMs (Gaussian Mixture Models), which have been successfully applied to speaker modeling in text-independent speaker identification, are not efficient in insufficient training data environment. This paper proposes speaker modeling method using MLLR (Maximum Likelihood Linear Regression) method which is used for speaker adaptation in speech recognition. We make SD-like model using MLLR adaptation method instead of speaker dependent model (SD). Proposed system outperforms the GMMs in small training data environment.

  • PDF

PASS: A Parallel Speech Understanding System

  • Chung, Sang-Hwa
    • Journal of Electrical Engineering and information Science
    • /
    • 제1권1호
    • /
    • pp.1-9
    • /
    • 1996
  • A key issue in spoken language processing has become the integration of speech understanding and natural language processing(NLP). This paper presents a parallel computational model for the integration of speech and NLP. The model adopts a hierarchically-structured knowledge base and memory-based parsing techniques. Processing is carried out by passing multiple markers in parallel through the knowledge base. Speech-specific problems such as insertion, deletion, and substitution have been analyzed and their parallel solutions are provided. The complete system has been implemented on the Semantic Network Array Processor(SNAP) and is operational. Results show an 80% sentence recognition rate for the Air Traffic Control domain. Moreover, a 15-fold speed-up can be obtained over an identical sequential implementation with an increasing speed advantage as the size of the knowledge base grows.

  • PDF

청각모델과 회귀회로망을 이용한 음성인식에 관한 연구 (A Study on Speech Recognition Using Auditory Model and Recurrent Network)

  • 김동준;이재혁;윤태성;박상희
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1990년도 춘계학술대회
    • /
    • pp.51-55
    • /
    • 1990
  • In this study, a peripheral auditory model used as a frequency feature extractor and a recurrent network which has recurrent links on input nodes is constructed in order to show the reliability of the recurrent network as a recognizer by executing recognition tests for 4 Korean placenames and syllables. As a result of this study, a refined weight compensation method is proposed and, using this method, it is possible to improve the system operation. The recurrent network in this study reflects well time information of temporal speech signal.

  • PDF

심볼을 이용한 한국어 숫자음의 광역 음소군 분류에 관한 연구 (A study of broad board classification of korean digits using symbol processing)

  • 이봉규;이극;황희융
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1989년도 하계종합학술대회 논문집
    • /
    • pp.481-485
    • /
    • 1989
  • The object of this parer is on the design of an broad board classifier for connected. Korean digit. Many approaches have been applied in speech recognition systems: parametric vector quantization, dynamic programming and hiden Markov model. In the 80's the neural network method, which is expected to solve complex speech recognition problems, came bach. We have chosen the rule based system for our model. The phoneme-groups that we wish to classify are vowel_like, plosive_like fricative_like, and stop_like.The data used are 1380 connected digits spoken by three untrained male speakers. We have seen 91.5% classification rate.

  • PDF

HMM(Hidden Markov Model) 음성인식 알고리즘을 이용한 효율적인 음성인식 모듈 개발 설계에 관한 연구 (A Study on the Speech Recognition Moduleas Design Using HMM Speech Recognition Algorithm)

  • 김정훈;류홍석;강재명;강성인;이상배
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.337-340
    • /
    • 2002
  • 본 논문에서는 휠체어 시스템에 화자 독립 고립단어 인식을 위한 임베디드 시스템 설계에 관한 내용을 서술한다. 실제 환경에서는 잡음이 포함되어 있어 인식률을 저하시키므로, 잡음을 제거하는 방식 중 가장 간단한 방식인 스펙트럼 차감법(Spectral subtraction method)을 사용하여 잡음을 제거했다 전처리 단계에서는 12차 LPC&Cepstrum 방식을 사용했고, 인식 알고리즘은 DHMM (Discrete Hidden Markov Model)을 전반부 인식기로 사용했다. 이 알고리즘을 적용하기 위해서는 데이터 간소화를 위해 벡터양자화(Vector Quantization) 처리가 전제되어야한다 또한 인식알고리즘은 인식률을 향상을 위해 후처리 인식기로 신경망(MLP:Multi-layer Perceptron)을 통해서 인식률을 향상시켰다 화자 독립 시스템에 맞는 인식 단어의 구성은 총 7개단어로 남녀 총 25명 목소리로 구성하였다. 그리고 하드웨어 구성은 32-bits floating point 방식인 TMS320C32를 적용했고, 메모리 부분은 4Mbyte로 설계를 했으며, 메인보드의 설계는 현재 완성 단계에 있다.

화자적응시스템을 위한 MLLR 알고리즘 연산량 감소 (Reduction of Dimension of HMM parameters in MLLR Framework for Speaker Adaptation)

  • 김지운;정재호
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.123-126
    • /
    • 2003
  • We discuss how to reduce the number of inverse matrix and its dimensions requested in MLLR framework for speaker adaptation. To find a smaller set of variables with less redundancy, we employ PCA(principal component analysis) and ICA(independent component analysis) that would give as good a representation as possible. The amount of additional computation when PCA or ICA is applied is as small as it can be disregarded. The dimension of HMM parameters is reduced to about 1/3 ~ 2/7 dimensions of SI(speaker independent) model parameter with which speech recognition system represents word recognition rate as much as ordinary MLLR framework. If dimension of SI model parameter is n, the amount of computation of inverse matrix in MLLR is proportioned to O($n^4$). So, compared with ordinary MLLR, the amount of total computation requested in speaker adaptation is reduced to about 1/80~1/150.

  • PDF

음성 데이터의 내재된 감정인식을 위한 다중 감정 회귀 모델 (Multi-Emotion Regression Model for Recognizing Inherent Emotions in Speech Data)

  • 이명호;임명진;신주현
    • 스마트미디어저널
    • /
    • 제12권9호
    • /
    • pp.81-88
    • /
    • 2023
  • 최근 코로나19로 인한 비대면 서비스의 확산으로 온라인을 통한 소통이 증가하고 있다. 비대면 상황에서는 텍스트나 음성, 이미지 등의 모달리티를 통해 상대방의 의견이나 감정을 인식하고 있다. 현재 다양한 모달리티를 결합한 멀티모달 감정인식에 관한 연구가 활발하게 진행되고 있다. 그중 음성 데이터를 활용한 감정인식은 음향 및 언어정보를 통해 감정을 이해하는 수단으로 주목하고 있으나 대부분 단일한 음성 특징값으로 감정을 인식하고 있다. 하지만 대화문에는 다양한 감정이 복합적으로 존재하기 때문에 다중 감정을 인식하는 방법이 필요하다. 따라서 본 논문에서는 복합적으로 존재하는 내재된 감정인식을 위해 음성 데이터를 전처리한 후 특징 벡터를 추출하고 시간의 흐름을 고려한 다중 감정 회귀 모델을 제안한다.

Bayesian 기법의 모수 추정을 이용한 결정트리 상태 공유 모델링 (Decision Tree State Tying Modeling Using Parameter Estimation of Bayesian Method)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제13권1호
    • /
    • pp.243-248
    • /
    • 2015
  • 인식 모델을 구성할 때 정의되지 않은 모델, 인식 모델 구성 후에 추가되어진 모델, 모델이 부족하여 하나의 모델 클러스터링으로 모델링하여 생성된 인식 모델들은 인식률 저하의 원인이 된다. 이러한 원인을 개선하기 위하여 Bayesian 기법의 모수 추정을 이용한 결정트리 상태 공유 모델링 방법을 제안하였다. 제안 방법은 Bayesian 기법의 파라미터 추정을 통하여 탐색된 결과로부터 결정트리 기반 상태 공유 모델링의 최대 확률 기법에 따라 인식모델을 결정한다. 본 논문에서 제안하여 시뮬레이션 데이터를 이용한 실험 결과에서 제안한 군집화 방식을 비교하여 1.29%의 음성인식 오류감소율을 보였으며, 기존 군집화 방식에 비해 개선된 성능을 보였다.

자동차 소음 환경에서 음성 인식 (Speech Recognition in the Car Noise Environment)

  • 김완구;차일환;윤대희
    • 전자공학회논문지B
    • /
    • 제30B권2호
    • /
    • pp.51-58
    • /
    • 1993
  • This paper describes the development of a speaker-dependent isolated word recognizer as applied to voice dialing in a car noise environment. for this purpose, several methods to improve performance under such condition are evaluated using database collected in a small car moving at 100km/h The main features of the recognizer are as follow: The endpoint detection error can be reduced by using the magnitude of the signal which is inverse filtered by the AR model of the background noise, and it can be compensated by using variants of the DTW algorithm. To remove the noise, an autocorrelation subtraction method is used with the constraint that residual energy obtainable by linear predictive analysis should be positive. By using the noise rubust distance measure, distortion of the feature vector is minimized. The speech recognizer is implemented using the Motorola DSP56001(24-bit general purpose digital signal processor). The recognition database is composed of 50 Korean names spoken by 3 male speakers. The recognition error rate of the system is reduced to 4.3% using a single reference pattern for each word and 1.5% using 2 reference patterns for each word.

  • PDF