• 제목/요약/키워드: Voice classification

검색결과 150건 처리시간 0.026초

연결발화에서 마비말화자의 음질 특성 (Voice Quality of Dysarthric Speakers in Connected Speech)

  • 서인효;성철재
    • 말소리와 음성과학
    • /
    • 제5권4호
    • /
    • pp.33-41
    • /
    • 2013
  • This study investigated the perceptual and cepstral/spectral characteristics of phonation and their relationships in dysarthria in connected speech. Twenty-two participants were divided into two groups; the eleven dysarthric speakers were paired with matching age and gender healthy control participants. A perceptual evaluation was performed by three speech pathologists using the GRBAS scale to measure the cepstrual/spectral characteristics of phonation between the two groups' connected speech. Correlations showed dysarthric speakers scored significantly worse (with a higher rating) with severities in G (overall dysphonia grade), B (breathiness), and S (strain), while the smoothed prominence of the cepstral peak (CPPs) was significantly lower. The CPPs were significantly correlated with the perceptual ratings, including G, B, and S. The utility of CPPs is supported by its high relationship with perceptually rated dysphonia severity in dysarthric speakers. The receiver operating characteristic (ROC) analysis showed that the threshold of 5.08 dB for the CPPs achieved a good classification for dysarthria, with 63.6% sensitivity and the perfect specificity (100%). Those results indicate the CPPs reliably distinguished between healthy controls and dysarthric speakers. However, the CPP frequency (CPP F0) and low-high spectral ratio (L/H ratio) were not significantly different between the two groups.

Mobile VoIP 기술 동향 및 분석 (Technical Trend of Mobile VoIP)

  • 이영표;박준수;김희동
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 한국정보통신설비학회 2008년도 정보통신설비 학술대회
    • /
    • pp.97-101
    • /
    • 2008
  • Voice over IP is a telephone service which sends and receives the voices through the Internet. Because the infrastructure of wireless and mobile communication networks such as 3G, Wi-Fi and WiMAX has expanded, the study about Mobile VoIP, which provides the voice service from wireless network, has been actively in progress. Since Rei 6 HSPA in 3GPP and Rev A lxEVDO in 3GPP2, VoIP through the data channel is more efficient than circuit switch. It is predicted that VoIP over 4G will be more effective and 4G mobile VoIP business will be vitalized in the future. In addition, there are businesses which offer VoWLAN by using software such as Skype and Fring. They provide services which cheapen the price of international calls and long distance calls. This paper will present the Korean and other countries' mobile VoIP trends, its classification along the network connection, the study on techniques, and conditions of mobile VoIP. It also will be described a view of terminal convergence and service convergence.

  • PDF

기계학습에 의한 후두 장애음성 식별기의 성능 비교 (Performance comparison on vocal cords disordered voice discrimination via machine learning methods)

  • 조철우;왕수건;권익환
    • 말소리와 음성과학
    • /
    • 제14권4호
    • /
    • pp.35-43
    • /
    • 2022
  • 본 논문은 후두 장애음성 데이터의 식별률을 CNN과 기계학습 앙상블 학습 방법에 의해 개선하는 방법에 대한 연구이다. 일반적으로 후두 장애음성 데이터는 그 수가 적으므로 통계적 방법에 의해 식별기가 구성되더라도, 훈련 방식에 따라 과적합으로 인해 일어나는 현상으로 인해 외부 데이터에 노출될 시 식별률의 저하가 발생할 수 있다. 본 연구에서는 다양한 정확도를 갖도록 훈련된 CNN 모델과 기계학습 모델로부터 도출된 결과를 다중 투표 방식으로 결합하여 원래의 훈련된 모델에 비해 향상된 분류 효율을 갖도록 하는 방법과 함께, 기존의 기계학습 중 앙상블 방법을 적용해 보고 그 결과를 확인하였다. 알고리즘을 훈련하고 검증하기 위해 PNUH(Pusan National University Hospital) 데이터셋을 이용하였다. 데이터셋에는 정상음성과 양성종양 및 악성 종양의 음성 데이터가 포함되어 있다. 실험에서는 정상 및 양성 종양과 악성종양을 구분하는 시도를 하였다. 실험결과 random forest 방법이 가장 우수한 앙상블 방법으로 나타났으며 85%의 식별률을 보였다.

우도비 특징 벡터를 이용한 SVM 기반의 음성 검출기 (Voice Activity Detection Based on SVM Classifier Using Likelihood Ratio Feature Vector)

  • 조규행;강상기;장준혁
    • 한국음향학회지
    • /
    • 제26권8호
    • /
    • pp.397-402
    • /
    • 2007
  • 본 논문에서는 기존의 통계적 모델 기반의 음성 검출기의 성능 향상을 위해 이진 분류에 우수한 support vector machine(SVM)을 도입한다. 기존의 통계적 모델 기반 음성 검출기의 경우 음성의 존재와 부재에 대한 가설로부터 각각의 통계적 모델을 세워 입력 데이타에 의해 결정된 각 주파수 채널별 우도비(likelihood ratio)를 단순히 기하 평균을 취하여 문턱값과 비교, 음성 검출 여부를 판단한다. 제안된 음성 검출기는 기존의 기하 평균을 이용한 결정식을 대신하여 분류 오류 확률이 최소화되도록 각 주파수 채널별 우도비를 SVM의 특징 벡터로 적용한다. 제안된 SVM 기반의 통계적 모델 음성 검출기는 기존의 LRT를 이용한 음성 검출기 및 SVM 기반의 음성 검출기들과 비교하여 다양한 잡음 환경에서 우수한 성능을 나타낸다.

베이지안 최적화를 이용한 암상 분류 모델의 하이퍼 파라미터 탐색 (Hyperparameter Search for Facies Classification with Bayesian Optimization)

  • 최용욱;윤대웅;최준환;변중무
    • 지구물리와물리탐사
    • /
    • 제23권3호
    • /
    • pp.157-167
    • /
    • 2020
  • 최근 인공지능 기술의 발전과 함께 물리탐사의 다양한 분야에서도 인공지능의 핵심 기술인 머신러닝의 활용도가 증가하고 있다. 또한 머신러닝 및 딥러닝을 활용한 연구는 이미지, 비디오, 음성, 자연어 등 다양한 태스크의 추론 정확도를 높이기 위해 복잡한 알고리즘들이 개발되고 있고, 더 나아가 자료의 특성, 알고리즘 구조 및 하이퍼 파라미터의 최적화를 위한 자동 머신러닝(AutoML) 분야로 그 폭을 넓혀가고 있다. 본 연구에서는 AutoML 분야 중에서도 하이퍼 파라미터(hyperparameter) 자동 탐색을 위한 베이지안 최적화 기술에 중점을 두었으며, 본 기술을 물리탐사 분야에서도 암상 분류(facies classification) 문제에 적용했다. Vincent field의 현장 물리검층 및 탄성파 자료를 이용하여 암상 및 공극유체를 분류하는 지도학습 기반 모델에 적용하였고, 랜덤 탐색 기법의 결과와 비교하여 베이지안 최적화 기반 예측 프레임워크의 효율성을 검증하였다.

소프트 컴퓨팅 기법을 이용한 근전도 신호의 패턴 분류와 재활 로봇 팔 제어에의 응용 (EMG Pattern Classification using Soft Computing Techniques and Its Application to the Control of a Rehabilitation Robotic Arm)

  • 한정수;김종성;송원경;방원철;이희영;변증남
    • 전자공학회논문지SC
    • /
    • 제37권6호
    • /
    • pp.50-63
    • /
    • 2000
  • 본 논문에서는 소프트 컴퓨팅 기법을 이용한 새로운 근전도 신호 패턴 분류 방법을 제안한다. 재활 로봇시스템에서 기존에 사용되었던 여러 가지 입력 장치(음성, 레이저 포인터, 키패드, 3차원 입력기 등)에 비해 근전도 신호를 이용한 방식이 가지는 장점을 서술한다. 기존의 근전도 신호 분류 방법의 문제점인 사용자 의존성을 줄이기 위해 제안한 사용자 독립적인 특징 선택 방법에 대해 상술한다. 선택된 특징 집합을 이용하여 퍼지 패턴 분류기 및 퍼지 최대-최소 신경망을 구성하여 학습 전(퍼지 패턴 분류기)과 학습 후(퍼지 최대-최소 신경망)에 각각 83%와 90%의 분류 성공률을 얻어 제안된 방법의 유용성을 확인할 수 있었다.

  • PDF

음성 신호 분석에 의한 사상 체질 분류 (Sasang Constitution Classification by Speech Signal Processing)

  • 조동욱
    • 한국통신학회논문지
    • /
    • 제31권5C호
    • /
    • pp.548-555
    • /
    • 2006
  • 본 논문에서는 사상 의학에서 가장 중요한 사상 체질 분류에 대한 방법론을 제안하고자 한다. 기존에 사상 체질 분류를 위해 사용해 온 방법들은 대개 용모사기와 체형기상에 의한 방법이었다. 또한 QSCC, QSCCII라고 불리우는 설문지를 이용하거나 사람이 말하는 음성을 듣고 판별하는 법등과 최근에는 체질 침이나 약물 반응 등의 방법도 사상 체질 분류를 위해 사용되고 있다. 그러나 이러한 방법들은 대개가 임상의들의 직관에 의지하는 방법들이 대부분으로 이와 같은 임상의들의 직관을 정량화하여 기기로 구현하는 것이 보다 정확하고 유용한 사상 체질 분류 방법이 되리라 사료된다. 이를 위해 본 논문에서는 음성 신호 분석에 의해 사상 체질을 분류하는 방법에 대해 제안하고자 한다. 각 사상 체질별로 음성 특성을 분류하고 이를 통해 피치, 인텐서티, 포먼트 값의 특징을 체질별로 차이점과 유사성을 분류하여 사상 체질 분류를 행하고자 한다. 끝으로 실험에 의해 제안한 방법의 유용성을 입증하고자 한다.

판정불능을 포함한 안면 체질 분류 방법에 관한 연구 (Four Constitution Types Classifier with IndecisionUsing Facial Images)

  • 도준형;김성훈;구임회;김근호;김종열
    • 사상체질의학회지
    • /
    • 제21권3호
    • /
    • pp.39-47
    • /
    • 2009
  • 1. Objectives: In order to classify an individual into four constitution type, an oriental medical doctor utilizes various information such as face, pulse, voice, and questionnaire. When only one type of information is used, one's constitution may not be decided correctly. 2. Methods: In this paper, we propose a novel four constitution types classifier using facial images which classifies subjects into indecision group as well as Taeumin, Soeumin, and Soyangin. 3. Results: Experimental results show that it increases the classification rate though the decision rate is rather decreased, which is more effective and reliable than conventional classifiers without indecision. 4. Conclusion: For the effective classification, we have found that it is more useful to add an indecision group which requires more information to be properly classified into one constitution type.

  • PDF

연속 잡음 음성 인식을 위한 다 모델 기반 인식기의 성능 향상에 대한 연구 (Performance Improvement in the Multi-Model Based Speech Recognizer for Continuous Noisy Speech Recognition)

  • 정용주
    • 음성과학
    • /
    • 제15권2호
    • /
    • pp.55-65
    • /
    • 2008
  • Recently, the multi-model based speech recognizer has been used quite successfully for noisy speech recognition. For the selection of the reference HMM (hidden Markov model) which best matches the noise type and SNR (signal to noise ratio) of the input testing speech, the estimation of the SNR value using the VAD (voice activity detection) algorithm and the classification of the noise type based on the GMM (Gaussian mixture model) have been done separately in the multi-model framework. As the SNR estimation process is vulnerable to errors, we propose an efficient method which can classify simultaneously the SNR values and noise types. The KL (Kullback-Leibler) distance between the single Gaussian distributions for the noise signal during the training and testing is utilized for the classification. The recognition experiments have been done on the Aurora 2 database showing the usefulness of the model compensation method in the multi-model based speech recognizer. We could also see that further performance improvement was achievable by combining the probability density function of the MCT (multi-condition training) with that of the reference HMM compensated by the D-JA (data-driven Jacobian adaptation) in the multi-model based speech recognizer.

  • PDF

장애 음성 판별을 위한 의료/전자 융복합 소프트웨어 개발 (Development of medical/electrical convergence software for classification between normal and pathological voices)

  • 문지혜;이지연
    • 디지털융복합연구
    • /
    • 제13권12호
    • /
    • pp.187-192
    • /
    • 2015
  • 장애음성을 판별할 수 있는 소프트웨어가 개발 될 경우, 원격의료와 언어치료 등 여러 융복합 분야에서의 활용도가 매우 높다. 본 논문은 성대 진동에 대한 변화율을 나타내는 의료정보인 음향학적 파라미터와 신호처리 기반 고차 통계량에 기반을 둔 파라미터를 융합하여, CART(Classification And Regression Trees) 분석을 통해서 정상/장애음성 판별 프로그램을 구현하였다. 사용된 음향학적 파라미터는 Jitter(%)와 shimmer(%)이다. 그리고 본 연구에서 제안된 고차통계량 기반 파라미터는 왜도(Skewness)와 첨도(Kurtosis)의 평균과 분산이다. Kay Elemetrics의 데이터베이스에서 무작위로 발췌된 정상음성 53명, 장애 음성 173명의 /아/ 발화를 이용하여 결정트리(Decision tree) 기반장애음성 판별을 위해 평균적으로 83.15%의 성능을 보이는 알고리즘을 구현하였다. 그 결과를 바탕으로 추후 상용화를 고려하여 사용자 친화적인 프레임 워크에 의해 컨텐츠를 생성하는 융복합형 기능이 포함된 장애음성 판별 프로그램을 개발하였다.