• 제목/요약/키워드: cepstral

검색결과 293건 처리시간 0.029초

RoutingConvNet: 양방향 MFCC 기반 경량 음성감정인식 모델 (RoutingConvNet: A Light-weight Speech Emotion Recognition Model Based on Bidirectional MFCC)

  • 임현택;김수형;이귀상;양형정
    • 스마트미디어저널
    • /
    • 제12권5호
    • /
    • pp.28-35
    • /
    • 2023
  • 본 연구에서는 음성감정인식의 적용 가능성과 실용성 향상을 위해 적은 수의 파라미터를 가지는 새로운 경량화 모델 RoutingConvNet(Routing Convolutional Neural Network)을 제안한다. 제안모델은 학습 가능한 매개변수를 줄이기 위해 양방향 MFCC(Mel-Frequency Cepstral Coefficient)를 채널 단위로 연결해 장기간의 감정 의존성을 학습하고 상황 특징을 추출한다. 저수준 특징 추출을 위해 경량심층 CNN을 구성하고, 음성신호에서의 채널 및 공간 신호에 대한 정보 확보를 위해 셀프어텐션(Self-attention)을 사용한다. 또한, 정확도 향상을 위해 동적 라우팅을 적용해 특징의 변형에 강인한 모델을 구성하였다. 제안모델은 음성감정 데이터셋(EMO-DB, RAVDESS, IEMOCAP)의 전반적인 실험에서 매개변수 감소와 정확도 향상을 보여주며 약 156,000개의 매개변수로 각각 87.86%, 83.44%, 66.06%의 정확도를 달성하였다. 본 연구에서는 경량화 대비 성능 평가를 위한 매개변수의 수, 정확도간 trade-off를 계산하는 지표를 제안하였다.

잡음을 활용한 효과적인 화자 인식 기술 (Effective Speaker Recognition Technology Using Noise)

  • 고수완;강민지;방세희;정원태;이경률
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.259-262
    • /
    • 2022
  • 정보화 시대 스마트폰이 대중화되고 실시간 인터넷 사용이 가능해짐에 따라, 본인을 식별하기 위한 사용자 인증이 필수적으로 요구된다. 대표적인 사용자 인증 기술로는 아이디와 비밀번호를 이용한 비밀번호 인증이 있지만, 키보드로부터 입력받는 이러한 인증 정보는 시각 장애인이나 손 사용이 불편한 사람, 고령층과 같은 사람들이 많은 서비스로부터 요구되는 아이디와 비밀번호를 기억하고 입력하기에는 불편함이 따를 뿐만 아니라, 키로거와 같은 공격에 노출되는 문제점이 존재한다. 이러한 문제점을 해결하기 위하여, 자신의 신체의 특징을 활용하는 생체 인증이 대두되고 있으며, 그중 목소리로 사용자를 인증한다면, 효과적으로 비밀번호 인증의 한계점을 극복할 수 있다. 이러한 화자 인식 기술은 KT의 기가 지니와 같은 음성 인식 기술에서 활용되고 있지만, 목소리는 위조 및 변조가 비교적 쉽기에 지문이나 홍채 등을 활용하는 인증 방식보다 정확도가 낮고 음성 인식 오류 또한 높다는 한계점이 존재한다. 상기 목소리를 활용한 사용자 인증 기술인 화자 인식 기술을 활용하기 위하여, 사용자 목소리를 학습시켰으며, 목소리의 주파수를 추출하는 MFCC 알고리즘을 이용해 테스트 목소리와 정확도를 측정하였다. 그리고 악의적인 공격자가 사용자 목소리를 흉내 내는 경우나 사용자 목소리를 마이크로 녹음하는 등의 방법으로 획득하였을 경우에는 높은 확률로 인증의 우회가 가능한 것을 검증하였다. 이에 따라, 더욱 효과적으로 화자 인식의 정확도를 향상시키기 위하여, 본 논문에서는 목소리에 잡음을 섞는 방법으로 화자를 인식하는 방안을 제안한다. 제안하는 방안은 잡음이 정확도에 매우 민감하게 반영되기 때문에, 기존의 인증 우회 방법을 무력화하고, 더욱 효과적으로 목소리를 활용한 화자 인식 기술을 제공할 것으로 사료된다.

  • PDF

머리 전달 함수의 보간에 적합한 왜곡 척도 (A Relevant Distortion Criterion for Interpolation of the Head-Related Transfer Functions)

  • 이기승;이석필
    • 한국음향학회지
    • /
    • 제28권2호
    • /
    • pp.85-95
    • /
    • 2009
  • 양이 재생 환경에서 다양하고 정확한 공간 이미지 형성을 위해서는 다양하고 세분화된 머리 전달 함수가 요구된다. 방대한 양의 머리 전달 함수를 효과적으로 감축하기 위한 방법으로, 모든 방향에 대한 머리 전달 함수를 몇 개의 대표 값들을 이용해 보간을 통해 얻는 방법이 주로 사용되고 있다. 본 논문에서는 머리 전달 함수의 보간 시 중요한 역할을 하는 보간 왜곡의 측정 방법에 대해 연구하였다. 다양한 객관적 왜곡 측정 방법을 이용하여 보간된 머리전달 함수와 본래의 머리전달 함수 간 차이를 표현하였으며 차이 값과 청취 테스트의 결과를 비교, 분석하였다. 분석 결과로부터 음원의 공간 이미지 차이를 가장 잘 반영하는 객관적 왜곡 측정 방법을 선택하였으며 이를 실제 보간 기법에 적용하였다. 3명의 사람으로부터 측정된 머리전달함수와 1개의 마네킹에서 측정된 머리 전달함수에 제안된 방법을 적용한 결과, 3명의 사람에 대한 머리전달 함수에 대해서는 멜-주파수 켑스트럼 왜곡이, 4 종류의 머리전달 함수에 대해서는 시간 영역의 신호 대 왜곡비자 음원의 공간 이미지 차이를 가장 잘 예측하는 왜곡 척도임을 알 수 있었다.

다양한 잡음 환경하에서 환경 군집화를 통한 화자 및 환경 동시 적응 (Simultaneous Speaker and Environment Adaptation by Environment Clustering in Various Noise Environments)

  • 김영국;송화전;김형순
    • 한국음향학회지
    • /
    • 제28권6호
    • /
    • pp.566-571
    • /
    • 2009
  • 본 논문에서는 eigenvoice 방식에 기반하여 다양한 잡음 환경에 강인한 고속 화자 적응 방법을 제안하였다. 제안된 방법은 잡음 제거 기술과 환경 군집화 방법을 기반으로 한다. 그러나, 잡음 제거 기술을 통해 잡음을 제거한 후에도 여전히 잔여 잡음이 존재하므로 비음성 구간의 켑스트럼 평균을 사용하여 잡음 환경별로 화자 적응 데이터를 분류한 후 각각의 환경별로 환경 모델을 구성한다. 이러한 환경 군집화를 적응데이터에 대해 구성한 후 테스트 음성이 입력되면 군집화된 모델 중에서 인식 데이터와 가장 유사한 복수의 환경별 군집화된 화자 적응 모델을 구한 후 이들의 가중함을 통해 화자 적응을 수행하는 방법이다. 제안된 방법은 적응 및 평가를 통해 화자 독립 모델을 사용한 경우에 비해 $40{\sim}59%$ 인식 오류 감소율을 얻었다.

발성장애 환자에서 주관적 음성검사와 객관적 음성검사의 연관성 연구 (Study for Correlation between Objective and Subjective Voice Parameters in Patients with Dysphonia)

  • 박정우;김보람;오재환;강태규;김동영;우주현
    • 대한후두음성언어의학회지
    • /
    • 제30권2호
    • /
    • pp.118-123
    • /
    • 2019
  • Background and Objectives Voice evaluation is classified into subjective tests such as auditory perception and self-measurement, and objective tests such as acoustic and aerodynamic analysis. When evaluating dysphonia, subjective and objective test results do not always match. The purpose of this study was to analyze the relationship between subjective and objective evaluation in patients with dysphonia and to identify meaningful parameters by disease. Materials and Method The total of 322 patients who visited voice clinic from May 2017 to May 2018 were included in this study. Laryngeal lesions were identified using stroboscopy. Pearson correlation test was performed to analyse correlation between subjective tests including GRBAS scale and voice handicap index, and objective tests including jitter, shimmer, noise to harmonic ratio (NHR), cepstral peak prominence (CPP), maximal phonation time (MPT), mean flow rate, and subglottic pressure. Results In vocal nodule and sulcus vocalis, among GRBAS system, grade and breathiness showed good correlation with CPP, and roughness showed good correlation with jitter or shimmer. In unilateral vocal cord paralysis (UVCP), grade and breathiness showed a very good correlation with CPP, and also good correlation with jitter, shimmer, NHR, and MPT. Also asthenia showed good correlation with CPP and MPT. Vocal polyp has a limited association with other diseases. Conclusion In patients with dysphonia, grade and breathiness showed good correlation with CPP, jitter, and shimmer, and reflect the state of voice change well especially in UVCP, CPP, and MPT.

음성 분류 인공신경망을 활용한 자폐아 치료용 로봇의 지능화 동작 연구 (Motion Study of Treatment Robot for Autistic Children Using Speech Data Classification Based on Artificial Neural Network)

  • 이진규;이보희
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1440-1447
    • /
    • 2019
  • 현재 아이들의 자폐스펙트럼장애 유병률이 한층 더 높게 보고되고 있으며 다양한 형태의 장애 징후를 보이고 있다. 특히 이들은 사회적 의사소통 영역에서 의사소통장애로 인한 대화에 어려움을 겪고 있으며 이를 훈련을 통해 개선 시킬 필요가 대두된다. 이를 위해 본 연구에서는 사전 연구를 통해 설계된 로봇에 장착된 마이크를 통해 음성 정보를 취득하고 이러한 정보를 이용하여 지능적인 동작을 만드는 방식을 제안한다. 음성 정보를 로봇 동작으로 분류하기 위해 인공신경망을 이용하였으며 여러 신경망 기법중 합성곱 방식을 기본으로 한 순환신경망을 결합하여 정확도를 향상시키려고 하였다. 입력 음성 데이터의 전처리는 MFCC를 이용하여 분석하였으며 여러 데이터 정규화 및 인공신경망 최적화 기법을 활용하여 로봇의 동작을 추정하였다. 아울러 설계된 인공신경망은 기존에 사용한 구조 및 사람이 개입하여 분석하는 방법과의 정확도 비교 실험을 진행하여 분석 결과가 높은 정확도를 나타냈다. 향후 보다 높은 정확도를 가질 수 있는 로봇 동작을 설계하여 실제의 자폐아 치료 및 교육 환경에서 적용할 수 있기 위하여 다양한 형태의 데이터를 수집하고 효율적으로 전처리하는 방식에 대한 연구가 요구된다.

잡음환경에서의 음성인식을 위한 모델 파라미터 변환 방식에 관한 연구 (A Study on a Model Parameter Compensation Method for Noise-Robust Speech Recognition)

  • 장육현;정용주;박성현;은종관
    • 한국음향학회지
    • /
    • 제16권5호
    • /
    • pp.112-121
    • /
    • 1997
  • 본 논문에서는 잡음에 강한 음성 인식기를 위한 모델 파라미터 변환 방식에 관하여 살펴보았다. 모델 파라미터 변환에 있어서 잡음에 대한 어떠한 통계 모델도 사용하지 않고 각 단어 단위로 수행되어 실시간 음성 인식이 가능하도록 하였다. Parallel model combination(PCM)은 본 논문에서 제안한 방법과의 성능 비교를 위하여 cepstrum 영역에서 구현되었다. 본 논문에서 제안한 PCM 방법은 modified PCM(MPMC)라 하며, 이 방법은 각 hidden Markov mode(HMM)의 state별로 평균적인 가우시안 믹스처(Gaussian mixture)의 변화률과 개별적인 변화률간에 결합지수를 이용하여 평균을 재조정한다. 또한, vector Taylor series 근사화를 이용한 모델 파라미터 변환을 위하여 cepstrum 영역에서의 환경모델 예측을 위한 expectation-maximization(EM) 해를 유도하여 구현하였다. 본 논문에서 구현된 알고리즘들의 성능 위해 HMM 인식기를 이용한 화자독립 고립단어 인식을 수행하였다. 시용된 잡음은 가우시안 백색 잡음과 주행중에 녹음된 자동차 잡음이며, 각 잡음울 signal-to-noise ratio(SNR)별로 사용하였다. 잡음의 모델은 1 state HMM으로 단어시작 3 프레임(frame)을 이용하여 만들어졌다. 인식 결과는 VTS 접근방식을 이용하였을 경우 매우 우수한 인식률을 나타내었으며, MPMC의 경우도 기존의 PMC보다 인식률이 향상되었다. 특히, 영차 VTS의 경우는 단순히 평균만을 조정하였음에도 불구하고 PMC와 MPMC보다 인식률이 우수하게 나타났다.

  • PDF

진동 데이터 기반 설비고장예지를 위한 신호처리기법 (A Signal Processing Technique for Predictive Fault Detection based on Vibration Data)

  • 송예원;이홍성;박훈석;김영진;정재윤
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.111-121
    • /
    • 2018
  • 항공기 엔진, 풍력발전기, 모터 등 회전기기에서 발생하는 많은 문제들은 진동이나 소음과 같은 신호 데이터를 측정하여 이상감지를 할 수 있으며, 주파수 분석 등 여러 가지 신호처리가 데이터 전처리 단계에서 필요하다. 본 논문에서는 진동 데이터를 분석하여 설비 이상상태를 감지하는 기법을 소개한다. 정상상태 데이터를 기반으로 마할라노비스 거리를 측정하여 이상상태 유무를 모니터링 하는 방식을 사용한다. 특히 신호 데이터의 전처리 기법들을 도입하여 이상상태 감지의 성능을 개선할 수 있음을 보여준다. 전처리 단계에서 신호 데이터 수집 과정에서 발생한 누설오차(leakage)를 없애기 위해 해밍 윈도우(Hamming window)를 적용하고, 신호 데이터의 원신호인 포먼트(formant)를 분리하기 위하여 켑스트럼(cepstrum) 분석을 실시한다. IMS 베어링 진동 공개데이터를 대상으로 시간 구간별로 6가지 통계지표를 추출한 후 마할라노비스 거리 분류기를 적용하여 성능을 검증하였다. 제시된 신호처리 전처리 기법을 적용함으로써 성능이 획기적으로 향상되는 것을 실험에서 보여주었다.

한국 전통음악 (국악)에 대한 자동 장르 분류 시스템 구현 (An Implementation of Automatic Genre Classification System for Korean Traditional Music)

  • 이강규;윤원중;박규식
    • 한국음향학회지
    • /
    • 제24권1호
    • /
    • pp.29-37
    • /
    • 2005
  • 본 논문은 한국의 전통 음악, 즉 국악 장르를 자동으로 분류하는 시스템을 제안한다. 제안된 시스템은 입력 음악의 내용기반 분석을 통하여 궁중음악, 풍류방음악, 민속성악, 민속기악, 불교음악, 무속음악 등 6가지 장르중 하나로 자동분류하여 해당 음악의 장르 결과를 보여준다. 국악 장르 분류에 사용된 내용기반 알고리즘은 크게 음악의 특징 벡터 추출 그리고 장르 분류를 위한 패턴인식 과정 2가지로 구성된다. 음악의 특징 벡터 추출은 디지탈 신호 처리기술을 이용하여 해당 음악의 spectral centroid, rolloff, flux 등 STFT (Short Time Fourier Transform) 기반의 특징 계수들과 MFCC (Mel frequency cepstral coefficient), LPC (Linear predictive coding) 등의 계수들을 구한 후 SFS (Sequential Forward Selection) 최적 특징 벡터 열을 선별하여 사용하였으며 패틴 분류 알고리즘으로는 k-NN (k -Nearest Neighbor), Gaussian, GMM (Gaussian Mixture Model), SVM (Support Vector Machine) 분류기를 사용하였다. 특히 본 연구에서는 입력 질의의 패턴 (혹은 구간) 변화에 따른 시스템의 불확실성을 개선하기 위하여 MFC (Multi Feature Clustring) 방법을 이용하여 DB를 구축하였다. 모의실험 결과 k-NN 과 SVM 분류기 모두 $97{\%}$ 이상의 장르 분류 성공률을 보였으나, SVM 이 k-NN에 비해 약 3배 이상의 빠른 분류 성능을 가지고 있음을 확인하였다.

디지털 보청기 사용자를 위한 압신 알고리즘의 성능 연구 (A Study on the Performance of Companding Algorithms for Digital Hearing Aid Users)

  • 황윤수;한종희;지윤상;홍성화;이상민;김동욱;김인영;김선일
    • 대한의용생체공학회:의공학회지
    • /
    • 제32권3호
    • /
    • pp.218-229
    • /
    • 2011
  • Companding algorithms have been used to enhance speech recognition in noise for cochlea implant users. The efficiency of using companding for digital hearing aid users is not yet validated. The purpose of this study is to evaluate the performance of the companding for digital hearing aid users in the various hearing loss cases. Using HeLPS, a hearing loss simulator, two different sensorinerual hearing loss conditions were simulated; mild gently sloping hearing loss(HL1) and moderate to steeply sloping hearing loss(HL2). In addition, a non-linear compression was simulated to compensate for hearing loss using national acoustic laboratories-non-linear version 1(NAL-NL1) in HeLPS. In companding, the following four different companding strategies were used changing Q values(q1, q2) of pre-filter(F filter) and post filter(G filter). Firstly, five IEEE sentences which were presented with speech-shaped noise at different SNRs(0, 5, 10, 15 dB) were processed by the companding. Secondly, the processed signals were applied to HeLPS. For comparison, signals which were not processed by companding were also applied to HeLPS. For the processed signals, log-likelihood ratio(LLR) and cepstral distance(CEP) were measured for evaluation of speech quality. Also, fourteen normal hearing listeners performed speech reception threshold(SRT) test for evaluation of speech intelligibility. As a result of this study, the processed signals with the companding and NAL-NL1 have performed better than that with only NAL-NL1 in the sensorineural hearing loss conditions. Moreover, the higher ratio of Q values showed better scores in LLR and CEP. In the SRT test, the processed signals with companding(SRT = -13.33 dB SPL) showed significantly better speech perception in noise than those processed using only NAL-NL1(SRT = -11.56 dB SPL).