• Title/Summary/Keyword: cepstral

검색결과 293건 처리시간 0.025초

수평이동방식 입체카메라의 주시각 제어를 위한 Hybrid Cepstral Filter에 의한 시차정보 추출 (Hybrid Cepstral Filter for Precise Vergence Control of Parallel Stereoscopic Camera)

  • 권기철;김남
    • 방송공학회논문지
    • /
    • 제9권1호
    • /
    • pp.91-94
    • /
    • 2004
  • 수평이동방식 입체영상 카메라의 주시각 제어에는 수평방향에 대한 좌, 우 영상의 시차정보만이 필요하다. 본 논문에서는 입체영상의 수평방향에 대한 빠르고 정확한 시차 값과 방향 정보를 찾기 위한 Hybrid Cepstral 필터에 의한 시차정보 추출 알고리즘을 제안하였다. 제안된 시차정보 추출 알고리즘은 좌, 우 영상의 수직 프로젝션 데이터를 사용하는 1차원 Cepstral 필터와 축소된 영상을 사용하는 2차원 Cepstral 필터를 같이 사용함으로써 수평 방향의 정확한 시차 값과 방향정보를 얻을 수 있다.

켑스트럼 거리 기반의 음성/음악 판별 성능 향상 (Performance Improvement of Speech/Music Discrimination Based on Cepstral Distance)

  • 박슬한;최무열;김형순
    • 대한음성학회지:말소리
    • /
    • 제56호
    • /
    • pp.195-206
    • /
    • 2005
  • Discrimination between speech and music is important in many multimedia applications. In this paper, focusing on the spectral change characteristics of speech and music, we propose a new method of speech/music discrimination based on cepstral distance. Instead of using cepstral distance between the frames with fixed interval, the minimum of cepstral distances among neighbor frames is employed to increase discriminability between fast changing music and speech. And, to prevent misclassification of speech segments including short pause into music, short pause segments are excluded from computing cepstral distance. The experimental results show that proposed method yields the error rate reduction of$68\%$, in comparison with the conventional approach using cepstral distance.

  • PDF

감정에 강인한 음성 인식을 위한 음성 파라메터 (Speech Parameters for the Robust Emotional Speech Recognition)

  • 김원구
    • 제어로봇시스템학회논문지
    • /
    • 제16권12호
    • /
    • pp.1137-1142
    • /
    • 2010
  • This paper studied the speech parameters less affected by the human emotion for the development of the robust speech recognition system. For this purpose, the effect of emotion on the speech recognition system and robust speech parameters of speech recognition system were studied using speech database containing various emotions. In this study, mel-cepstral coefficient, delta-cepstral coefficient, RASTA mel-cepstral coefficient and frequency warped mel-cepstral coefficient were used as feature parameters. And CMS (Cepstral Mean Subtraction) method were used as a signal bias removal technique. Experimental results showed that the HMM based speaker independent word recognizer using vocal tract length normalized mel-cepstral coefficient, its derivatives and CMS as a signal bias removal showed the best performance of 0.78% word error rate. This corresponds to about a 50% word error reduction as compare to the performance of baseline system using mel-cepstral coefficient, its derivatives and CMS.

Filtering of Filter-Bank Energies for Robust Speech Recognition

  • Jung, Ho-Young
    • ETRI Journal
    • /
    • 제26권3호
    • /
    • pp.273-276
    • /
    • 2004
  • We propose a novel feature processing technique which can provide a cepstral liftering effect in the log-spectral domain. Cepstral liftering aims at the equalization of variance of cepstral coefficients for the distance-based speech recognizer, and as a result, provides the robustness for additive noise and speaker variability. However, in the popular hidden Markov model based framework, cepstral liftering has no effect in recognition performance. We derive a filtering method in log-spectral domain corresponding to the cepstral liftering. The proposed method performs a high-pass filtering based on the decorrelation of filter-bank energies. We show that in noisy speech recognition, the proposed method reduces the error rate by 52.7% to conventional feature.

  • PDF

강인한 음성인식을 위한 극점 필터링 및 스케일 정규화를 이용한 켑스트럼 특징 정규화 방식 (Cepstral Feature Normalization Methods Using Pole Filtering and Scale Normalization for Robust Speech Recognition)

  • 최보경;반성민;김형순
    • 한국음향학회지
    • /
    • 제34권4호
    • /
    • pp.316-320
    • /
    • 2015
  • 본 논문에서는 Cepstral Mean Normalization(CMN)과 Cepstral Mean and Variance Normalization(CMVN) 프레임워크에서 극점 필터링(pole filtering) 개념을 Mel-Frequency Cepstral Coefficient(MFCC) 특징 벡터에 적용한다. 또한 분산 정규화를 대신하여 스케일 정규화를 사용하는 Cepstral Mean and Scale Normalization(CMSN)의 성능을 잡음 환경 음성인식 실험을 통해 평가한다. CMN과 CMVN은 보통 발화 단위로 수행되기 때문에 짧은 발화의 경우 특징에 대한 평균과 분산의 추정 신뢰도가 보장되지 않는 문제점을 가지는데, 극점 필터링과 스케일 정규화 방식을 적용함으로 이러한 문제점을 보완할 수 있다. Aurora 2 데이터베이스를 이용한 실험 결과, 극점 필터링과 스케일 정규화를 결합한 특징 정규화 방식의 성능이 가장 높은 성능 향상을 보인다.

LPC Cepstral 벡터 양자화에 의한 저 전송율 CELP 음성부호기의 스펙트럼 표기 (Spectrum Representation Based on LPC Cepstral VQ for Low Bit Rate CELP Coder)

  • 정재호
    • 한국통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.761-771
    • /
    • 1994
  • 본 논문에서는, 매우 낮은 전송율이 요구되는 음성통신의 환경하에서 CELP 음성 부호기를 사용할 경우, 스펙트럼에 대한 정보를 어떻게 효과적으로 나타낼 것인가에 대하여 고찰하였다. 구체적으로, 스펙트럼에 대한 정보를 나타내는 LPC 파라메타를 cepstrum으로 변형시키고, 변형된 LPC cepstrum계수들을 효과적으로 벡터 양자화하는 방법을 제시하였다. 벡터 양자화에 사용되는 코드-북의 설계를 위하여, 주파수 대역에서 서로 다른 의미를 갖는 세계의 cepstral distance measure들을 시도하였으며, 각각에 대한 성능이 분석되어졌다. 시뮬레이션을 통하여, 본 논문에서 제시한 LPC cepstral 벡터 양자화 방식이 스펙트럼에 대한 정보를 매우 효과적으로 나타낼 수 있음을 보였다.

  • PDF

Cepstral 필터를 이용한 스테레오 카메라의 운동제어 (Motion Control of Stereo Camera Using Cepstral Filter)

  • 문용선;정남채
    • 한국통신학회논문지
    • /
    • 제25권11B호
    • /
    • pp.1920-1927
    • /
    • 2000
  • 본 논문은 cepstral 필터를 이용하여 지적인 비주얼 센싱을 위한 카메라의 운동 제어법을 제안한다. 화상은 pursuit 운동을 위하여 물체의 옵티컬 플로우가 필요하고, vergence 운동을 위하여 양안시차 정보를 필요로 한다. 그러나, 화상정보에는 올바른 정보와 잘못된 정보가 존재하기 때문에 해의 올바른 시차를 선택해야 하는데, 옵티컬 플로우의 계산에서와 마찬가지로 템플리트 매칭을 이용하여 올바른 정보를 선택한다. 그리고, 화상 중의 하나를 3 조각으로 분할한 후 각각 cepstral 필터링에 의하여 양안시차를 검출한다. 본 논문은 saccade 운동, pursuit 운동, vergence 운동에 관한 제어 알고리즘을 제안하고, 실험에 의하여 알고리즘을 비교 및 분석한다.

  • PDF

지능형 서비스 로봇을 위한 잡음에 강인한 문맥독립 화자식별 시스템 (Noise Robust Text-Independent Speaker Identification for Ubiquitous Robot Companion)

  • 김성탁;지미경;김회린;김혜진;윤호섭
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.190-194
    • /
    • 2008
  • 본 논문은 지능형 서비스 로봇의 여러 기술들 중에서 기본적인 기술인 화자식별 기술에 관한 내용이다. 화자식별 기술은 화자의 음성신호를 이용하여 등록된 화자들 중에서 가장 유사한 화자를 찾아내는 것이다. 기존의 mel-frequency cepstral coefficient 를 이용한 화자식별 시스템은 무잡음 환경에서는 높은 성능을 보장하지만 잡음환경에서는 성능이 급격하게 떨어진다. 이렇게 잡음환경에서 성능이 떨어지는 요인은 등록환경과 식별환경이 다른 불일치문제 때문이다. 본 논문에서는 불일치문제를 해결하기 위해 relative autocorrelation sequence mel-frequency cepstral coefficient 를 사용하였다. 또한, 기존의 relative autocorrelation sequence mel-frequency cepstral coefficient 의 제한된 정보문제와 잔여잡음문제를 해결하기 위해 멀티스트리밍 방법과 멀티스트리밍 방법에 특정벡터 재결합 방법을 결합한 하이브리드 방법을 제한 하였다. 실험결과 제한된 방법들이 기존의 특정벡터보다 잡음환경에서 높은 화자식별 성능을 보여주었다.

  • PDF

Condition Monitoring기법에 의한 베어링의 이상진단 (Bearing Fault Diagnosis by Condition Monitoring Method)

  • 이정철;오재응;염성하;권오관
    • Tribology and Lubricants
    • /
    • 제3권1호
    • /
    • pp.52-60
    • /
    • 1987
  • Many kinds of condition monitoring technique as the preventive maintenance technique have been studied, so this study has investigated the possibility of chbcking the trend in the fault diagnosis of ball bearing, one of the important elements of rotating machine, by applying the cepstral analysis method. And computer simulation is conducted in order to identify obviously the physical meaning of cepstral analysis. It is identified that cepstral analysis is effective method to distinguish between the basic and reflected wave by computer simulation, and we know that it is possible to apply the cepstral analysis to the arbitrary elements of rotating machine which are different in fundamental frequency. It is verified that cepstral analysis method is more effective than the other conventional method in bearing fault diganosis.

기식 등급에 따른 CPP (Cepstral Peak Prominence) 분석 비교 (A comparison of CPP analysis among breathiness ranks)

  • 강영애;구본석;조철우
    • 말소리와 음성과학
    • /
    • 제7권1호
    • /
    • pp.21-26
    • /
    • 2015
  • The aim of this study is to synthesize pathological breathy voice and to make a cepstral peak prominence (CPP) table following breathiness ranks by cepstral analysis to supplement reliability of the perceptual auditory judgment task. KlattGrid synthesizer included in Praat was used. Synthesis parameters consist of two groups, i.e., constants and variables. Constant parameters are pitch, amplitude, flutter, open phase, oral formant and bandwidth. Variable parameters are breathiness (BR), aspiration amplitude (AH), and spectral tilt (TL). Five hundred sixty samples of synthetic breathy vowel /a/ for male were created. Three raters participated in ranking of the breathiness. 217 were proved to be inadequate samples from perceptual judgment and cepstral analysis. Finally, 343 samples were selected. These CPP values and other related parameters from cepstral analysis are classified under four breathiness ranks (B0~B3). The mean and standard deviation of CPP is $16.10{\pm}1.15$ dB(B0), $13.68{\pm}1.34$ dB(B1), $10.97{\pm}1.41$ dB(B2), and $3.03{\pm}4.07$ dB(B3). The value of CPP decreases toward the severe group of breathiness because there is a lot of noise and a small quantity of harmonics.