• 제목/요약/키워드: speech feature extraction

검색결과 155건 처리시간 0.023초

이동통신 환경에서 강인한 음성 감성특징 추출에 대한 연구 (A Study on Robust Speech Emotion Feature Extraction Under the Mobile Communication Environment)

  • 조윤호;박규식
    • 한국음향학회지
    • /
    • 제25권6호
    • /
    • pp.269-276
    • /
    • 2006
  • 본 논문은 이동전화 (Cellular phone)를 통해 실시간으로 습득된 음성으로부터 사람의 감성 상태를 평상 혹은 화남으로 인식할 수 있는 음성 감성인식 시스템을 제안하였다. 일반적으로 이동전화를 통해 수신된 음성은 화자의 환경 잡음과 네트워크 잡음을 포함하고 있어 음성 신호의 감성특정을 왜곡하게 되고 이로 인해 인식 시스템에 심각한 성능저하를 초래하게 된다. 본 논문에서는 이러한 잡음 영향을 최소화하기 위해 비교적 단순한 구조와 적은 연산량을 가진 MA (Moving Average) 필터를 감성 특정벡터에 적용해서 잡음에 의한 시스템 성능저하를 최소화하였다. 또한 특정벡터를 최적화할 수 있는 SFS (Sequential Forward Selection) 기법을 사용해서 제안 감성인식 시스템의 성능을 한층 더 안 정화시켰으며 감성 패턴 분류기로는 k-NN과 SVM을 비교하였다. 실험 결과 제안 시스템은 이동통신 잡음 환경에서 약 86.5%의 높은 인식률을 달성할 수 있어 향후 고객 센터 (Call-center) 등에 유용하게 사용될 수 있을 것으로 기대된다.

Aurora DB를 이용한 잡음 음성 인식실험을 위한 Segmental K-means 훈련 방식의 기반인식기의 구현 (An Implementation of the Baseline Recognizer Using the Segmental K-means Algorithm for the Noisy Speech Recognition Using the Aurora DB)

  • 김희근;정용주
    • 대한음성학회지:말소리
    • /
    • 제57호
    • /
    • pp.113-122
    • /
    • 2006
  • Recently, many studies have been done for speech recognition in noisy environments. Particularly, the Aurora DB has been built as the common database for comparing the various feature extraction schemes. However, in general, the recognition models as well as the features have to be modified for effective noisy speech recognition. As the structure of the HTK is very complex, it is not easy to modify, the recognition engine. In this paper, we implemented a baseline recognizer based on the segmental K-means algorithm whose performance is comparable to the HTK in spite of the simplicity in its implementation.

  • PDF

청각모델을 이용한 음성신호의 특징 추출 방법에 관한 연구 (Speech Feature Extraction Using Auditory Model)

  • 박규홍;김영호;정상국;노승용
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1998년도 하계학술대회 논문집 G
    • /
    • pp.2259-2261
    • /
    • 1998
  • Auditory Models that are capable of achieving human performance would provide a basis for realizing effective speech processing systems. Perceptual invariance to adverse signal conditions (noise, microphone and channel distortions, room reverberations) may provide a basis for robust speech recognition and speech coder with high efficiency. Auditory model that simulates the part of auditory periphery up through the auditory nerve level and new distance measure that is defined as angle between vectors are described.

  • PDF

연결숫자음 전화음성 인식에서의 오인식 유형 분석 (Analysis of Error Patterns in Korean Connected Digit Telephone Speech Recognition)

  • 김민성;정성윤;손종목;배건성;김상훈
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.115-118
    • /
    • 2003
  • Channel distortion and coarticulation effect in the connected digit telephone speech make it difficult to recognize, and degrade recognition performance in the telephone environment. In this paper, as a basic research to improve the recognition performance of Korean connected digit telephone, error patterns are investigated and analyzed. Telephone digit speech database released by SITEC with HTK system is used for recognition experiments. Both DWFBA and MRTCN methods are used for feature extraction and channel compensation, respectively. Experimental results are discussed with our findings.

  • PDF

발화 속도와 휴지 구간 길이를 사용한 방언 분류 (Dialect classification based on the speed and the pause of speech utterances)

  • 나종환;이보원
    • 말소리와 음성과학
    • /
    • 제15권2호
    • /
    • pp.43-51
    • /
    • 2023
  • 본 논문에서는 음성의 발화 속도와 휴지 구간의 길이 그리고 화자의 연령과 성별에 기반한 방언 분류 접근 방법을 제안한다. 방언 분류는 음성 분석을 위한 중요한 기술 중 하나이다. 예를 들어 정확한 방언 분류 모델은 화자 인식 또는 음성 인식의 성능을 향상시킬 수 있는 잠재력을 가질 수 있다. 선행 연구에 따르면, Mel-Frequency Cepstral Coefficients(MFCC) 특징을 사용한 딥러닝 기반의 연구가 주류를 이루었다. 우리는 지역 간의 음향적 차이에 주목하여 그 차이를 바탕으로 추출한 특징을 사용하여 방언 분류를 진행하였다. 본 논문에서는 음성의 발화 속도, 휴지 구간의 길이 특성을 추출하여 사용하며 이와 함께 화자의 연령과 성별과 같은 메타데이터를 추가로 사용하는 새로운 접근 방법을 제안한다. 실험 결과 제안된 접근 방법이 더 높은 정확도를 보이는 것을 확인하였으며 특히 음성의 발화 속도 특성을 사용하는 것이 기존 MFCC만을 사용하는 방법보다 향상된 성능을 보여준다는 것을 확인할 수 있었다. MFCC 특성만을 사용한 방법과 비교했을 때 본 논문에서 제안한 특성들을 모두 사용하였을 때의 정확도는 91.02%에서 97.02%로 향상되었다.

DSP를 이용한 자동차 소음에 강인한 음성인식기 구현 (Implementation of a Robust Speech Recognizer in Noisy Car Environment Using a DSP)

  • 정익주
    • 음성과학
    • /
    • 제15권2호
    • /
    • pp.67-77
    • /
    • 2008
  • In this paper, we implemented a robust speech recognizer using the TMS320VC33 DSP. For this implementation, we had built speech and noise database suitable for the recognizer using spectral subtraction method for noise removal. The recognizer has an explicit structure in aspect that a speech signal is enhanced through spectral subtraction before endpoints detection and feature extraction. This helps make the operation of the recognizer clear and build HMM models which give minimum model-mismatch. Since the recognizer was developed for the purpose of controlling car facilities and voice dialing, it has two recognition engines, speaker independent one for controlling car facilities and speaker dependent one for voice dialing. We adopted a conventional DTW algorithm for the latter and a continuous HMM for the former. Though various off-line recognition test, we made a selection of optimal conditions of several recognition parameters for a resource-limited embedded recognizer, which led to HMM models of the three mixtures per state. The car noise added speech database is enhanced using spectral subtraction before HMM parameter estimation for reducing model-mismatch caused by nonlinear distortion from spectral subtraction. The hardware module developed includes a microcontroller for host interface which processes the protocol between the DSP and a host.

  • PDF

선형예측법을 이용한 심전도 신호의 부호화와 특징추출 (Pulse-Coded Train and QRS Feature extraction Using Linear Prediction)

  • 송철규;이병채;정기삼;이명호
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1992년도 춘계학술대회
    • /
    • pp.175-178
    • /
    • 1992
  • This paper proposes a method called linear prediction (a high performant technique in digital speech processing) for analyzing digital ECG signals. There are several significant properties indicating that ECG signals have an important feature in the residual error signal obtained after processing by Durbin's linear prediction algorithm. The ECG signal classification puts an emphasis on the residual error signal. For each ECG's QRS complex. the feature for recognition is obtained from a nonlinear transformation which transforms every residual error signal to set of three states pulse-cord train relative to the original ECG signal. The pulse-cord train has the advantage of easy implementation in digital hardware circuits to achive automated ECG diagnosis. The algorithm performs very well feature extraction in arrythmia detection. Using this method, our studies indicate that the PVC (premature ventricular contration) detection has a at least 90 percent sensityvity for arrythmia data.

  • PDF

EEG기반 언어 인식 시스템을 위한 국제음성기호를 이용한 모음 특징 추출 연구 (EEG based Vowel Feature Extraction for Speech Recognition System using International Phonetic Alphabet)

  • 이태주;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제24권1호
    • /
    • pp.90-95
    • /
    • 2014
  • 인간과 기계를 연결하는 새로운 인터페이스인 Brain-computer interface (BCI)를 이용해 휠체어를 제어하거나 단어를 입력하는 등, 사용자를 위한 다양한 장치를 개발하는 연구들이 진행되어 왔다. 특히 최근에는 뇌파를 이용한 음성인식을 구현하고 이를 통해 무음통신 등에 적용하려는 시도들이 있었다. 본 논문에서는 이러한 연구의 일환으로 electroencephalogram (EEG) 기반의 언어 인식 시스템을 개발하기 위한 기초 단계로서, 국제음성기호에 기반을 둔 모음들의 특징을 추출하는 방법에 대한 연구를 진행하였다. 실험은 건장한 세 명의 남성 피험자를 대상으로 진행되었으며, 한 개의 모음을 제시하는 첫 번째 실험 과정과 두 개의 연속된 모음을 제시하는 두 번째 실험 과정으로 두 단계에 나누어서 실험이 진행되었다. 습득된 64개의 채널중 선택적으로 32개의 채널만을 사용해 특징을 추출하였으며, 사고 활동과 관련된 전두엽과 언어활동에 관련된 측두엽을 기준으로 영역을 선택하였다. 알고리즘 적용을 위해서 특징으로는 신호의 고유 값을 사용하였고, support vector machine (SVM)을 이용하여 분류를 수행하였다. 실험 결과, 첫 번째 단계의 실험을 통해서, 언어의 뇌파를 분석하기 위해서는 10차원 이상의 특징 벡터를 사용해야 됨을 알게 되었고, 11차원의 특징 벡터를 사용할 경우, 평균분류율은 최고 95.63 %로 /a/와 /o/를 분류할 때 나타났고, 가장 낮은 분류율을 보이는 모음은 /a/와 /u/로 86.85 %였다. 두 번째 단계의 실험에서는 두 개 이상의 모음을 발음하는 것이 단일 모음 발음과 어떤 차이가 있는지 확인해 보았다.

Automatic proficiency assessment of Korean speech read aloud by non-natives using bidirectional LSTM-based speech recognition

  • Oh, Yoo Rhee;Park, Kiyoung;Jeon, Hyung-Bae;Park, Jeon Gue
    • ETRI Journal
    • /
    • 제42권5호
    • /
    • pp.761-772
    • /
    • 2020
  • This paper presents an automatic proficiency assessment method for a non-native Korean read utterance using bidirectional long short-term memory (BLSTM)-based acoustic models (AMs) and speech data augmentation techniques. Specifically, the proposed method considers two scenarios, with and without prompted text. The proposed method with the prompted text performs (a) a speech feature extraction step, (b) a forced-alignment step using a native AM and non-native AM, and (c) a linear regression-based proficiency scoring step for the five proficiency scores. Meanwhile, the proposed method without the prompted text additionally performs Korean speech recognition and a subword un-segmentation for the missing text. The experimental results indicate that the proposed method with prompted text improves the performance for all scores when compared to a method employing conventional AMs. In addition, the proposed method without the prompted text has a fluency score performance comparable to that of the method with prompted text.

시각 음성인식을 위한 영상 기반 접근방법에 기반한 강인한 시각 특징 파라미터의 추출 방법 (Robust Feature Extraction Based on Image-based Approach for Visual Speech Recognition)

  • 송민규;;민소희;김진영;나승유;황성택
    • 한국지능시스템학회논문지
    • /
    • 제20권3호
    • /
    • pp.348-355
    • /
    • 2010
  • 음성 인식 기술의 발전에도 불구하고 잡음 환경하의 음성 인식은 여전히 어려운 분야이다. 이를 해결하기 위한 방안으로 음성 정보 이외에 시각 정보를 이용한 시각 음성인식에 대한 연구가 진행되고 있다. 하지만 시각 정보 또한 음성과 마찬가지로 주위 조명 환경이나 기타, 다른 요인에 따른 영상잡음이 존재하며, 이런 영상잡음은 시각 음성 인식의 성능 저하를 야기한다. 따라서 인식 성능 향상을 위해 시각 특징 파라미터를 어떻게 추출하느냐는 하나의 관심분야이다. 본 논문에서는 HMM기반 시각 음성인식의 인식 성능 향상을 위한 영상 기반 접근방법에 따른 시각 특징 파라미터의 추출 방법에 대하여 논하고 그에 따른 인식성능을 비교하였다. 실험을 위해 105명에 화자에 대한 62단어의 데이터베이스를 구축하고, 이를 이용하여 히스토그램 매칭, 입술 접기, 프레임 간 필터링 기법, 선형마스크, DCT, PCA 등을 적용하여 시각 특징 파라미터를 추출하였다. 실험결과, 제안된 방법에 의해 추출된 특징 파라미터를 인식기에 적용하였을 때의 인식 성능은 기본 파라미터에 비해 약21%의 성능 향상이 됨을 알 수 있다.