• 제목/요약/키워드: cepstral

검색결과 293건 처리시간 0.026초

캡스트럼 포락선을 이용한 해금 소리의 포만트 합성 (Formant Synthesis of Haegeum Sounds Using Cepstral Envelope)

  • 홍연우;조상진;김종면;정의필
    • 한국음향학회지
    • /
    • 제28권6호
    • /
    • pp.526-533
    • /
    • 2009
  • 본 논문에서는 전통 현악기 해금의 스펙트럼 모델링을 위해 캡스트럼 포락선을 이용한 포만트 합성법을 제안한다. 스펙트럼 모델링은 입력 신호를 정현파 성분과 노이즈 성분의 합으로 해석하여 음을 합성하는 기술로 주기성이 있는 현악기나 관악기의 음 합성에 효과적이다. 캡스트럼 포락선의 포만트는 정현파 성분 합성을 위한 파라미터로 활용하였다. 정현파 성분을 합성하기 위해 기존의 가산합성 방식과는 달리 IIT (Impulse Invariant Transform)로 공명기를 설계하였으며 배음간 크기 보완을 위해 대역 통과 필터를 추가하였다. 원음과 합성된 정현파 성분의 차로 구해진 노이즈 성분에 포함된 일부 유효배음을 제거하면 완전한 노이즈 성분을 구할 수 있으며 선형 보간법 (linear interpolation)에 기초하여 그 주파수 특성을 파라미터화 하였다. 최종적으로 합성된 노이즈 성분과 정현파 성분을 더하여 해금 단위음을 합성하였고 합성음은 원음과 매우 유사하였다.

숨은마코프모형을 이용하는 음성구간 추출을 위한 특징벡터 (A New Feature for Speech Segments Extraction with Hidden Markov Models)

  • 홍정우;오창혁
    • Communications for Statistical Applications and Methods
    • /
    • 제15권2호
    • /
    • pp.293-302
    • /
    • 2008
  • 본 논문에서는 숨은마코프모형을 사용하여 음성구간을 추출하는 경우에 사용되는 새로운 특징벡터인 평균파워를 제안하고, 이를 멜주파수 켑스트럴 계수(met frequency cepstral coefficients, MFCC)와 파워계수와 비교한다. 이들 세 가지 특징벡터의 수행력을 비교하기 위하여 일반적으로 추출이 상대적으로 어렵다고 알려진 파열음을 가진 단어에 대한 음성 데이터를 수집하여 실험한다. 다양한 수준의 잡음이 있는 환경에서 음성구간을 추출하는 경우 MFCC나 파워계수에 비해 평균파워가 더 정확하고 효율적임을 실험을 통해 보인다.

Text-Independent Speaker Identification System Based On Vowel And Incremental Learning Neural Networks

  • Heo, Kwang-Seung;Lee, Dong-Wook;Sim, Kwee-Bo
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2003년도 ICCAS
    • /
    • pp.1042-1045
    • /
    • 2003
  • In this paper, we propose the speaker identification system that uses vowel that has speaker's characteristic. System is divided to speech feature extraction part and speaker identification part. Speech feature extraction part extracts speaker's feature. Voiced speech has the characteristic that divides speakers. For vowel extraction, formants are used in voiced speech through frequency analysis. Vowel-a that different formants is extracted in text. Pitch, formant, intensity, log area ratio, LP coefficients, cepstral coefficients are used by method to draw characteristic. The cpestral coefficients that show the best performance in speaker identification among several methods are used. Speaker identification part distinguishes speaker using Neural Network. 12 order cepstral coefficients are used learning input data. Neural Network's structure is MLP and learning algorithm is BP (Backpropagation). Hidden nodes and output nodes are incremented. The nodes in the incremental learning neural network are interconnected via weighted links and each node in a layer is generally connected to each node in the succeeding layer leaving the output node to provide output for the network. Though the vowel extract and incremental learning, the proposed system uses low learning data and reduces learning time and improves identification rate.

  • PDF

잡음에 강인한 음성 인식을 위한 환경 파라미터 보상에 관한 연구 (A Study on Environment Parameter Compensation Method for Robust Speech Recognition)

  • 홍미정;이호웅
    • 한국ITS학회 논문지
    • /
    • 제5권2호
    • /
    • pp.1-10
    • /
    • 2006
  • 본 논문에서는 강인한 음성인식 기술의 하나인 모델 파라미터 변환 기법 중 Carnegie Mellon University(1996)에서 Moreno가 제안한 최신 VTS(Vector Taylor Series) 알고리즘을 이용하여 주어진 잡음 환경에서 실험하였다. 이러한 VTS 알고리즘의 성능평가를 위해서 기존의 잡음 처리 방법 중 CMN(Cepstral Mean Normalization) 기법을 도입하였으며, 데시벨별로 설정한 백색 잡음과 거리잡음을 환경잡음으로 주어졌을 때의 인식률을 비교하였다. 또한 기존 Moreno가 제안한 실험환경의 인식 결과와 본 논문에서의 실험결과를 비교 분석하였다. 인식 알고리즘으로는 실시간 구현이 가능한 이산HMM(Hidden Markov Model)을 사용하였다.

  • PDF

Adaptive Noise Cancelling 법에 의한 기계이상진단 소프트웨어 개발 (제 1 보 : Cepstrum 해석)

  • 오재응;김종관;박수홍
    • 한국음향학회지
    • /
    • 제7권4호
    • /
    • pp.77-85
    • /
    • 1988
  • 各種의 Conditioning Monitoring 技術이 硏究되고 있는데 本 硏究에서는 Cepstrum 解析法에 Adaptive Noise Cancelling (ANC) 법을 利用하여 回轉機械要素의 하나인 베어링의 缺陷을 管理하는 手段으로써의 可能性을 檢討하였으며 ANC의 物理的 意味를 正確히 把握하고자 컴퓨터 시뮬레이션을 行하였다. 컴퓨터 시뮬레이션에 衣해 Adaptive filter 에서의 最適한 適應利得을 推定하였으며 信號對雜音比에 따른 ANC의 性能과 LMS알고리즘의 收劍性을 考察하였다. 또한 ANC法을 Cepstrum 解析法에 利用한 베어링의 異常診斷은 旣存의 Cepstrum解析法보다 有效함을 알았다.

  • PDF

잡음 환경에서 음성인식을 위한 스펙트럼 기울기의 효과적인 보상 방법 (Efficient Compensation of Spectral Tilt for Speech Recognition in Noisy Environment)

  • 조정호
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.199-206
    • /
    • 2017
  • 환경 잡음은 음성인식 시스템의 성능을 떨어뜨릴 수 있다. 이 논문은 인식 시스템이 잡음에 강인하도록 만들기 위하여, 켑스트럼에 기초한 특징 보상을 수행하는 과정을 제시한다. 이 방법은 부가적인 잡음의 영향을 제거하기 위한 직접적인 스펙트럼 기울기 보상에 기초를 둔다. 잡음 보상 방법은 로그 전력 스펙트럼의 스펙트럼 기울기 계산에 의하여 캡스트럼 영역에서 동작한다. 스펙트럼 보상은 SNR에 의존하는 켑스트럼 평균 보상 방법과 함께 사용된다. 백색 가우스 잡음, 지하철 잡음 및 자동차 잡음에 있는 조건에서, 실험 결과는 제안한 보상 방법이 여러 SNR에서 인식률을 상당히 개선한다는 것을 보여준다.

켑스트럼 파라미터를 이용한 후두암 검진 (Laryngeal Cancer Screening using Cepstral Parameters)

  • 이원범;전경명;권순복;전계록;김수미;김형순;양병곤;조철우;왕수건
    • 대한후두음성언어의학회지
    • /
    • 제14권2호
    • /
    • pp.110-116
    • /
    • 2003
  • Background and Objectives : Laryngeal cancer discrimination using voice signals is a non-invasive method that can carry out the examination rapidly and simply without giving discomfort to the patients. n appropriate analysis parameters and classifiers are developed, this method can be used effectively in various applications including telemedicine. This study examines voice analysis parameters used for laryngeal disease discrimination to help discriminate laryngeal diseases by voice signal analysis. The study also estimates the laryngeal cancer discrimination activity of the Gaussian mixture model (GMM) classifier based on the statistical modelling of voice analysis parameters. Materials and Methods : The Multi-dimensional voice program (MDVP) parameters, which have been widely used for the analysis of laryngeal cancer voice, sometimes fail to analyze the voice of a laryngeal cancer patient whose cycle is seriously damaged. Accordingly, it is necessary to develop a new method that enables an analysis of high reliability for the voice signals that cannot be analyzed by the MDVP. To conduct the experiments of laryngeal cancer discrimination, the authors used three types of voices collected at the Department of Otorhinorlaryngology, Pusan National University Hospital. 50 normal males voice data, 50 voices of males with benign laryngeal diseases and 105 voices of males laryngeal cancer. In addition, the experiment also included 11 voices data of males with laryngeal cancer that cannot be analyzed by the MDVP, Only monosyllabic vowel /a/ was used as voice data. Since there were only 11 voices of laryngeal cancer patients that cannot be analyzed by the MDVP, those voices were used only for discrimination. This study examined the linear predictive cepstral coefficients (LPCC) and the met-frequency cepstral coefficients (MFCC) that are the two major cepstrum analysis methods in the area of acoustic recognition. Results : The results showed that this met frequency scaling process was effective in acoustic recognition but not useful for laryngeal cancer discrimination. Accordingly, the linear frequency cepstral coefficients (LFCC) that excluded the met frequency scaling from the MFCC was introduced. The LFCC showed more excellent discrimination activity rather than the MFCC in predictability of laryngeal cancer. Conclusion : In conclusion, the parameters applied in this study could discriminate accurately even the terminal laryngeal cancer whose periodicity is disturbed. Also it is thought that future studies on various classification algorithms and parameters representing pathophysiology of vocal cords will make it possible to discriminate benign laryngeal diseases as well, in addition to laryngeal cancer.

  • PDF

발성장애 평가 시 /a/ 모음연장발성 및 문장검사의 켑스트럼 분석 비교 (Comparison of Vowel and Text-Based Cepstral Analysis in Dysphonia Evaluation)

  • 김태환;최정임;이상혁;진성민
    • 대한후두음성언어의학회지
    • /
    • 제26권2호
    • /
    • pp.117-121
    • /
    • 2015
  • Background : Cepstral analysis which is obtained from Fourier transformation of spectrum has been known to be effective indicator to analyze the voice disorder. To evaluate the voice disorder, phonation of sustained vowel /a/ sound or continuous speech have been used but the former was limited to capture hoarseness properly. This study is aimed to compare the effectiveness in analysis of cepstrum between the sustained vowel /a/ sound and continuous speech. Methods : From March 2012 to December 2014, total 72 patients was enrolled in this study, including 24 unilateral vocal cord palsy, vocal nodule and vocal polyp patients, respectively. The entire patient evaluated their voice quality by VHI (Voice Handicap Index) before and after treatment. Phonation of sustained vowel /a/ sample and continuous speech using the first sentence of autumn paragraph was subjected by cepstral analysis and compare the pre-treatment group and post-treatment group. Results : The measured values of pre and post treatment in CPP-a (cepstral peak prominence in /a/ vowel sound) was 13.80, 13.91 in vocal cord palsy, 16.62, 17.99 in vocal cord nodule, 14.19, 18.50 in vocal cord polyp respectively. Values of CPP-s (cepstral peak prominence in text-based speech) in pre and post treatment was 11.11, 12.09 in vocal cord palsy, 12.11, 14.09 in vocal cord nodule, 12.63, 14.17 in vocal cord polyp. All 72 patients showed subjective improvement in VHI after treatment. CPP-a showed statistical improvement only in vocal polyp group, but CPP-s showed statistical improvement in all three groups (p<0.05). Conclusion : In analysis of cepstrum, text-based analysis is more representative in voice disorder than vowel sound speech. So when the acoustic analysis of voice by cepstrum, both phonation of sustained vowel /a/ sound and text based speech should be performed to obtain more accurate result.

  • PDF

켑스트럼으로부터 변환된 로그 스펙트럼을 이용한 포먼트 평활화 켑스트럴 평균 차감법 (Formant-broadened CMS Using the Log-spectrum Transformed from the Cepstrum)

  • 김유진;정혜경;정재호
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.361-373
    • /
    • 2002
  • 본 논문에서는 음성 인식과 화자 인식에서 채널 변이 정규화를 위해 널리 사용되는 전통적인 켑스트럴 평균차감법 (CMS: Cepstral Mean Subtraction)의 성능을 향상시키기 위한 정규화 방법을 제안한다. 기존의 켑스트럴 평균 차감법은 장구간 켑스트럼의 평균으로 채널 성분을 추정하므로 유성음의 포먼트에 의해 채널 성분이 편향되는 단점을 가진다. 제안된 포먼트 평활화 켑스트럴 평균 차감법 (FBCMS; Formant-broadened CMS)은 켑스트럼으로부터 변환된 로그 스펙트럼에서 포먼트 위치를 쉽게 찾을 수 있고, 포먼트는 전극점 모델로 표현되는 성도 전달 함수의 우세 극점에 대응된다는 사실에 근거한다. 따라서 제안된 방법은 켑스트럼으로부터 음성의 포먼트를 구하고, 이로부터 포먼트의 대역폭을 확장한 켑스트럼을 구한 후 평균함으로써 채널 켑스트럼 성분으로부터 우세 극점들의 영향을 제거한다. 전극점 모델의 우세 극점을 얻기 위해 다항식 인수분해 과정을 거치지 않으므로 연산량을 줄일 수 있으며 포먼트에 해당하는 우세 극점만으로 선택적으로 처리할 수 있다. 본 연구에서는 4가지의 모의 채널을 이용하여 전통적인 켑스트럴 평균 차감법, 극점 필터화 켑스트럴 평균 차감법 (Pole-filtered CMS) 그리고 제안된 방법의 비교실험을 수행하였다. 실제 채널 켑스트럼과 추정된 채널 켑스트럼과의 거리를 측정하는 실험에서 음성에 의한 편향을 완화시켜 실제 채널에 보다 가까운 평균 켑스트럼을 얻을 수 있음을 확인하였다. 또한 문장독립 화자 식별에서 제안된 방법은 전통적인 켑스트럴 평균 차감법보다 우세하고 극점 필터화 켑스트럴 평균 차감법 (Pole-filtered CU)과는 비슷한 결과를 보였다. 결과적으로 제안된 방법은 전통적인 켑스트럴 평균 차감법에 기반하여 효과적인 채널 정규화가 가능하다는 것을 보였다.

C# 언어를 이용한 음성 분석 시스템의 구현

  • 김윤중;오지영;오신영
    • 한국정보기술응용학회:학술대회논문집
    • /
    • 한국정보기술응용학회 2001년도 추계공동학술대회 논문자료집 정보화 젼략 패러다임의 변화에 대한 보기술의 대응
    • /
    • pp.185-187
    • /
    • 2001
  • PDF