• 제목/요약/키워드: Speech Feature Analysis

검색결과 177건 처리시간 0.023초

파워 스펙트럼 warping을 이용한 성도 정규화 (Vocal Tract Normalization Using The Power Spectrum Warping)

  • 유일수;김동주;노용완;홍광석
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2003년도 학술회의 논문집 정보 및 제어부문 A
    • /
    • pp.215-218
    • /
    • 2003
  • The method of vocal tract normalization has been known as a successful method for improving the accuracy of speech recognition. A frequency warping procedure based low complexity and maximum likelihood has been generally applied for vocal tract normalization. In this paper, we propose a new power spectrum warping procedure that can be improve on vocal tract normalization performance than a frequency warping procedure. A mechanism for implementing this method can be simply achieved by modifying the power spectrum of filter bank in Mel-frequency cepstrum feature(MFCC) analysis. Experimental study compared our Proposal method with the well-known frequency warping method. The results have shown that the power spectrum warping is better 50% about the recognition performance than the frequency warping.

  • PDF

웨이블렛 변환을 이용한 음성특징 추출에 관한 연구 (A Study on Feature Extraction using Wavelet Transform for Speech Recognition)

  • 정의준;장성욱;양성일;권영헌
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.33-36
    • /
    • 2001
  • 본 논문에서는 기존의 음성인식에서 사용하는 특징벡터인 MFCC(Mel-Frequency Cepstral Cefficients)를 대신하여 웨이블렛 변환을 이용한 새로운 특징벡터를 추출하는 방법을 제안한다. 새 특징벡터로는 MRA(Multi-Resolution Analysis)를 이용하여 구성하였다. 웨이블렛 변환을 이용한 새로운 특징벡터의 추출 목적은 시간축과 주파수축에서의 더 좋은 해상도를 가지는 성질을 이용하는 것이다. 실험결과에서 웨이블렛 변환을 이용한 새로운 특징벡터를 이용한 인식이 기존의 방식보다 더 좋은 인식률을 보이고 있음을 확인하였다.

  • PDF

The Variable Acquisition of Discourse Marker Use in Korean American Speakers of English

  • Lee, Hi-Kyoung
    • 영어어문교육
    • /
    • 제11권2호
    • /
    • pp.1-18
    • /
    • 2005
  • This study is a preliminary investigation of the nature of discourse marker acquisition in Korean American speakers of English. Discourse markers are of interest because they are not an aspect of language taught through formal instruction either to native or non-native speakers. Therefore, discourse marker use serves as indirect evidence of face-to-face interaction with native speakers and an indicator of integration. In this light, the present study examines the presence of discourse markers in Korean Americans. The markers chosen for analysis were you know, like, and I mean. The data consist of spontaneous speech elicited from interviews. Sociolinguistic variables such as age, sex, and generation (i.e., $1^{st}$, 1.5, $2^{nd}$) were examined. Results show that there appears to be interaction between the variables and discourse marker use. While all speakers showed variable acquisition of markers, younger, female, and 1.5 generation speakers were found to use discourse markers more than other speakers. Although discourse marker use is optional and thus not a linguistic feature that must be necessarily acquired, it is clear that use is pervasive and acquired differentially by English speakers irrespective of whether they are native or not.

  • PDF

시간영역 필터를 이용한 립리딩 성능향상에 관한 연구 (A Study on Lip-reading Enhancement Using Time-domain Filter)

  • 신도성;김진영;최승호
    • 한국음향학회지
    • /
    • 제22권5호
    • /
    • pp.375-382
    • /
    • 2003
  • 현재 음성인식 분야에서는 잡음이 심한 환경에서 음성 인식률을 향상시킬 수 있는 바이모달의 한 형태인 립리딩 기술에 관한 연구가 활발히 진행되고 있다. 립리딩 연구에 있어서 가장 중요한 것은 정확한 입술 이미지를 찾아내는 것이다. 그러나 조명변화, 화자의 발음습관, 입술 모양의 다양성, 입술의 회전과 크기 변화 등의 환경 변화 요인 때문에 안정적인 성능을 예측하기가 힘든 실정이다. 본 논문에서는 보다 안정적 성능을 얻기 위해 시간영역에서 이미지를 임펄스 응답 필터링을 수행을 통해 향상된 인식성능을 보였다. 또한 본 연구에서는 입술 전체 영상을 대상으로 처리하는 립리딩 기법의 사용으로 인해 발생하는 데이터 용량 증가를 고려해 영상의 정보는 손실하지 않고 그 특징만을 추출하여 데이터의 양을 줄일 수 있는 주성분 분석을 전처리 과정으로 사용하였다. 본 연구에서는 영상정보만을 사용하여 음성인식 성능 관찰을 위해 자동차 내에서 서비스가 가능한 22단어를 선정하여 인식실험을 하였다. 이 단어들의 인식 성능을 비교하기 위하여 음성 인식 알고리듬으로 잘 알려진 HMM(Hidden Markov Model)을 이용하였다. 실험결과 PCA(Principal component Analysis)하였던 경우 립리딩이 64%의 인식률을 보인 반면, 시간영역필터를 립리딩에 적용시 72.7%로 인식률의 향상을 보였다.

채널에 강인한 화자 인식을 위한 채널 정규화 피치 동기 켑스트럼에 관한 연구 (A Study on the Channel Normalized Pitch Synchronous Cepstrum for Speaker Recognition)

  • 김유진;정재호
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.61-74
    • /
    • 2004
  • 본 논문에서는 채널 환경에 강인한 화자 인식 시스템을 위하여 문맥과 화자에 종속적인 켑스트럼 추출 방법과 추출된 켑스트럼에서 화자 정보의 손실을 최소화하는 채널 정규화 방법을 제안하였다. 제안된 추출 방법은 화자의 고유한 피치를 이용한 피치 동기 분석 방법에 기반을 두어 켑스트럼을 추출한다. 따라서 일명 피치 동기 켑스트럼 (PSC)은 유성음 구간에서 성도의 임펄스 응답을 보다 정확하게 표현할 수 있다. 또한 피치는 채널 환경에서 스펙트럼에 비해 강인하므로 피치 동기 켑스트럼은 채널에 의한 스펙트럼의 왜곡을 보상할 수 있다. 제안된 채널 정규화방법인 포먼트 평활화 피치 동기 켑스트랄 평균 차감법 (FBPSCMS)은 포먼트 평활화 켑스트랄 평균 차감법을 PSC에 적용하여 프레임 내 처리의 정확도를 개선시킨다. 제안된 방법들의 화자 인식 성능을 비교하기 위해 남자 112명과 여자 56명에 대해 WMIT과 전화선 환경의 NTIMIT을 이용한 화자 식별을 수행하였다. 실험 결과 피치 동기 LPCC는 기존 단구간 켑스트럼과 비교하여 에러 감소율을 최대 7.7%까지 향상시켰고, FBPSCMS는 극점 필터링 CMS에 비해 보다 안정되고 낮은 에러율을 나타내었다.

성대마비와 성대구증의 강도 변화에 따른 최대발성지속시간 비교 (Comparison of Maximum Phonation Time Associated with the Changes in Vocal Intensity in Patients with Unilateral Vocal Fold Palsy and Sulcus Vocalis)

  • 최세진;최홍식;김재옥;최예린
    • 말소리와 음성과학
    • /
    • 제4권1호
    • /
    • pp.125-131
    • /
    • 2012
  • The patients with incomplete glottic closure have an important feature decreasing the maximum phonation time (MPT) because airflow rate or air leakage is greater than people without voice disorders. Also they can appear a problem in the intensity regulation. This study analyzed MPT difference based on the comfortable intensity and louder intensity and the correlation between MPT and respiration volume of unilateral vocal fold palsy (UVFP) and sulcus vocalis (SV) group. The twenty with UVFP, the 21 with SV, the 21 normal subjects measured MPT in /a/ vowel prolongation task with comfortable intensity and louder intensity and compared analysis by measuring FVC, $FEV_1$, $FEV_1/FVC$ to analyze the correlation between MPT and respiration volume. First, a comparison of MPT according to the intensity between groups is that MPT of the normal group was statistically significant long compared to the patient group in comfortable intensity, but MPT between groups was not statistically significant difference in the louder intensity. Second, an analysis of the correlation between MPT and respiration volume is that this was statistically significant correlation between MPT in comfortable intensity and MPT in louder intensity. But this did not show statistically significant correlation between intensity and respiration volume. This study can be supported the preceding study results deduced that shorting MPT of the patient group compared to the normal group was originated in the problem of laryngeal valving mechanism at the level of vocal folds rather than a problem of respiratory function. Also at the phonation by varying the intensity, the result can deduce that in the case of patient group, the length of MPT had been improved by increasing the glottal closure ratio in the louder intensity. These results can support the theoretical basis that should be applied to the clinicians by varying the intensity at the voice evaluation and voice therapy for the patients with the glottis incompetence.

스웨덴어 발음 교육상의 몇 가지 문제점 - 모음을 중심으로 -

  • 변광수
    • 대한음성학회지:말소리
    • /
    • 제4호
    • /
    • pp.20-30
    • /
    • 1982
  • The aim of this paper is to analyse difficulties of the pronunciation in swedish vowels encountered by Koreans learners and to seek solutions in order to correct the possible errors. In the course of the analysis the swedish and Korean vowels in question are compared with the purpose of describing differences aha similarities between these two systems. This contrastive description is largely based on the students' articulatory speech level ana the writer's auditory , judgement . The following points are discussed : 1 ) Vowel length as a distinctive feature in Swedish compared with that of Korean. 2) A special attention is paid on the Swedish vowel [w:] that is characterized by its peculiar type of lip rounding. 3) The six pairs of Swedish vowels that are phonologically contrastive but difficult for Koreans to distinguish one from the other: [y:] ~ [w:], [i:] ~ [y:], [e:] ~ [${\phi}$:], [w;] ~ [u:] [w:] ~ [$\theta$], [$\theta$] ~ [u] 4) The r-colored vowel in the case of the postvocalic /r/ that is very common in American English is not allowed in English sound sequences. The r-colored vowel in the American English pattern has to be broken up and replaced hi-segmental vowel-consonant sequences . Korean accustomed to the American pronunciation are warned in this respect. For a more distinct articulation of the postvocalic /r/ trill [r] is preferred to fricative [z]. 5) The front vowels [e, $\varepsilon, {\;}{\phi}$) become opener variants (${\ae}, {\;}:{\ae}$] before / r / or supradentals. The results of the analysis show that difficulties of the pronunciation of the target language (Swedish) are mostly due to the interference from the Learner's source language (Korean). However, the Learner sometimes tends to get interference also from the other foreign language with which he or she is already familiar when he or she finds in that language more similarity to the target language than in his or her own mother tongue. Hence this foreign language (American English) in this case functions as a second language for Koreans in Learning Swedish.

  • PDF

성대구증 환자의 공기역학적 검사 방법에 따른 치료 전과 후의 평균호기류율 비교 (Comparison of mean airflow rate before and after treatment in patients with sulcus vocalis according to aerodynamic analysis methods)

  • 이승연;최홍식;김재옥
    • 말소리와 음성과학
    • /
    • 제15권4호
    • /
    • pp.61-69
    • /
    • 2023
  • 성대구증은 불완전 성대폐쇄부전으로 평균호기류율(mean airflow rate, MFR)이 높은 것이 특징이다. MFR은 phonatory aerodynamic system(PAS)의 두 공기역학적 검사 방법(MXPH, VOEF)으로 측정하며, 두 검사 방법에 따라 결과가 다르게 나타날 수 있다. 본 연구는 성대구증 환자 30명을 대상으로 PAS의 MXPH, VOEF 프로토콜에 따른 MFR의 치료 전과 후 차이, 치료 전후 변화량 간의 차이가 있는지 비교하였다. 그리고 치료 전과 후의 Voice handicap index(VHI), GRBS 및 기본주파수(F0)를 비교하였다. 연구결과, 성대구증 환자의 치료 전과 후 모두에서 검사 방법 간에 유의한 차이가 나타났으나 치료 전후의 변화량은 유의한 차이가 없었다. VHI와 GRBS는 치료 전에 비해 치료 후에 유의하게 감소하였으나 F0는 치료 전과 후에 유의한 차이가 없었다. 본 연구를 통해 성대구증 환자의 치료에 따른 MFR 변화를 평가할 때, 두 공기역학적 검사 방법(MXPH, VOEF) 중 어떠한 검사 방법을 사용해도 된다는 것을 알 수 있다.

SOM과 LVQ에 의한 자음의 분류 (Classification of Consonants by SOM and LVQ)

  • 이채봉;이창영
    • 한국전자통신학회논문지
    • /
    • 제6권1호
    • /
    • pp.34-42
    • /
    • 2011
  • 음성타자기의 구현에 접근하려는 노력의 일환으로서, 우리는 본 논문에서 자음의 분류에 대해 연구한다. 많은 자음들은 시간에 따른 주기적 거동을 보이지 않고 따라서 그들에 대한 푸리에 해석의 타당성에 확신을 갖기 어렵다. 그러므로, 우선 음성 신호로부터 추출되는 MFCC와 LPCC 특징벡터들이 자음에 대해 어느 정도의 의미가 있는지를 파악하기 위하여 LBG 클러스터링을 통한 벡터양자화를 수행한다. VQ의 실험적 결과는 자음에 대한 푸리에 해석의 타당성에 관해 분명한 결론을 내리는 것이 쉽지 않음을 보여주었다. 자음의 분류를 위해 SOM과 LVQ의 두 가지 신경망이 사용되었다. SOM의 결과는 몇 쌍의 자음들이 나뉘어 분류되지 않음을 보여주었다. LVQ에서는 본질적으로 이 문제가 사라지지만 자음의 분류 정확도는 낮은 수준이었다. 이로부터, LVQ에 의한 자음 분류에 있어서는 MFCC 및 다른 특징 벡터들이 함께 사용되어야 함이 사료된다. 하지만 본 연구에서 도입한 MFCC/LVQ의 결합은 기존의 언어모델을 기반으로 하는 음소 분류에 비해 그 결과가 나쁘지 않은 것으로 나타났다. 모든 경우에 LPCC 특징벡터는 MFCC에 비해 그 결과가 좋지 않았다.

안면근육 표면근전도 신호기반 근육 조합 최적화를 통한 단모음인식 (Monophthong Recognition Optimizing Muscle Mixing Based on Facial Surface EMG Signals)

  • 이병현;류재환;이미란;김덕환
    • 전자공학회논문지
    • /
    • 제53권3호
    • /
    • pp.143-150
    • /
    • 2016
  • 본 논문에서는 안면근육 표면근전도를 기반으로 근육 조합 최적화를 통한 한국어 단모음 인식 방법을 제안한다. 표면근전도 신호는 한국어 단모음 발음에 따라 서로 다른 패턴과 근육 활성도를 보였다. 이전 연구에서 높은 인식 정확도를 보였던 RMS, VAR, MMAV1, MMAV2와 Cepstral Coefficients를 특징 추출 알고리즘으로 사용하였으며, QDA(Quadratic Discriminant Analysis)와 HMM(Hidden Markov Model)으로 한국어 단모음을 분류하였다. 트레이닝 단계에서 입력 받은 데이터로 근육조합을 최적화하고, 최적화 결과를 인식단계에 적용한다. 이때, 새로운 근전도 신호를 입력받고 한국어 단모음을 최종 인식한다. 실험결과 제안한 방법의 인식 정확도가 QDA에서 평균 85.7%, HMM에서 평균 75.1%를 보였다.