• 제목/요약/키워드: Voice training

검색결과 182건 처리시간 0.022초

음성 다이얼링을 위한 화자적응 (Speaker Adaptation for Voice Dialing)

  • 김원구
    • 한국음향학회지
    • /
    • 제21권5호
    • /
    • pp.455-461
    • /
    • 2002
  • 본 논문에서는 화자독립 음소 모델을 사용하는 개인용 음성 다이얼링 시스템의 성능 개선 방법을 제안하였다. 화자독립 음소모델을 사용한 음성 다이얼링 방법은 각 화자가 발성한 단어와 연관된 음소 열만을 저장하므로 저장 공간은 크게 줄일 수 있으나 화자독립 모델을 음소 인식에 사용할 때 발생하는 오차로 인하여 화자종속 모델을 사용하는 방법보다는 인식 성능이 저하되는 문제점이 있다. 본 논문에서는 이러한 문제를 해결하기 위하여 학습과정에서 학습 데이터의 음소 열과 화자 적응을 위한 변환 벡터를 동시에 추정한 후 음소 열과 함께 저장하고, 인식 시에 화자독립 음소 모델을 각 화자의 변환벡터를 사용하여 변환한 후 인식을 수행하는 방법을 제안하였다. 여기서 화자적응을 위한 변환 벡터는 확률적 매칭 (stochastic matching)을 위한 최고 유사도 (maximum likelihood) 방법을 이용하여 구하였으며 음소 열과 함께 반복적으로 추정되었다. 인식 실험에서 제안된 방법은 음소 열만을 사용하는 기존 인식 시스템보다 우수한 성능을 나타내었다.

음성 에너지 분포 처리와 에너지 파라미터를 융합한 음성 인식 성능 향상 (Voice Recognition Performance Improvement using a convergence of Voice Energy Distribution Process and Parameter)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제13권10호
    • /
    • pp.313-318
    • /
    • 2015
  • 전통적인 음성 향상 방법은 잘못된 잡음의 추정에 따라 남아있는 잡음이 발생하여 음성 스펙트럼을 왜곡하거나 음성 프레임을 찾지 못하여 음성 인식 성능을 저하시키는 문제가 발생된다. 본 논문에서는 음성 에너지 분포 처리와 음성 에너지 파라미터를 융합한 음성 검출 방법을 제안하였다. 제안한 방법은 음성 에너지를 최대화시켜 잡음의 영향을 적게 받는 특성을 이용하였다. 또한, 음성 신호의 특징 파라미터 중에서 작은 값을 가지는 로그에너지 특징의 구간에서는 큰 에너지를 가지는 구간에 비해 상대적으로 로그에너지 값을 더 많이 키워서 잡음이 포함한 음성신호의 로그에너지 특징의 크기와 비슷하게 하여 훈련과 인식 환경의 불일치를 융합으로 인해 줄여준다. 인식 실험 결과 기존 방법에 비해 향상된 인식 성능을 확인할 수 있었으며, car 잡음 환경의 음성 구간 적중률은 낮은 SNR구간인 0dB과 5dB에서는 97.1%와 97.3%의 정확도를 보였으며, 높은 SNR구간인 10dB와 15dB에서는 98.3%, 98.6%의 정확도를 보였다.

음성 에너지 최대화와 묵음 특징 정규화를 이용한 잡음 환경에 강인한 음성 검출 (Voice Activity Detection in Noisy Environment using Speech Energy Maximization and Silence Feature Normalization)

  • 안찬식;최기호
    • 디지털융복합연구
    • /
    • 제11권6호
    • /
    • pp.169-174
    • /
    • 2013
  • 음성 인식 성능 저하의 문제는 모델 훈련 환경과 인식 환경의 차이이다. 이러한 환경의 불일치를 줄이기 위한 방법으로 다양한 묵음 특징 정규화 방법을 사용하고 있다. 기존의 묵음 특징 정규화 방법은 낮은 신호 대 잡음비에서 묵음 구간의 에너지 레벨이 증가하여 음성과 비음성에 대한 분류의 정확도가 떨어짐으로 인해 인식 성능이 저하되는 문제점이 있다. 본 논문에서는 음성 에너지 최대화와 묵음 특징 정규화를 이용한 잡음 환경에 강인한 음성 검출 방법을 제안하였다. 제안한 방법은 높은 신호 대 잡음비에서는 음성 에너지를 최대화시켜 특징이 잡음의 영향을 적게 받는 특성을 이용하였고 낮은 신호 대 잡음비에서는 음성/비음성의 켑스트럼 특징 분포 특성을 이용하여 인식 성능을 향상시켰다. 인식 실험 결과 기존 방법에 비해 향상된 인식 성능을 확인할 수 있었다.

켑스트럼 기반의 후두암 감별을 위한 채널보상 (Channel Compensation for Cepstrum-Based Detection of Laryngeal Diseases)

  • 김영국;김수미;김형순;왕수건;조철우;양병곤
    • 대한음성학회지:말소리
    • /
    • 제50호
    • /
    • pp.111-122
    • /
    • 2004
  • Automatic detection of laryngeal diseases by voice is attractive because of its non-intrusive nature. Cepstrum based approach to detect laryngeal cancer shows reliable performance even when the periodicity of voice signals is severely lost, but it has a drawback that it is not robust to channel mismatch due to different microphone characteristics. In this paper, to deal with mismatched training and test microphone conditions, we investigate channel compensation techniques such as Cepstral Mean Subtraction (CMS) and Pole Filtered CMS (PFCMS). According to our experiments, PFCMS yields better performance than CMS. By using PFCMS, we obtained 12% and 40% error reduction over baseline and CMS, respectively.

  • PDF

Performance of GMM and ANN as a Classifier for Pathological Voice

  • Wang, Jianglin;Jo, Cheol-Woo
    • 음성과학
    • /
    • 제14권1호
    • /
    • pp.151-162
    • /
    • 2007
  • This study focuses on the classification of pathological voice using GMM (Gaussian Mixture Model) and compares the results to the previous work which was done by ANN (Artificial Neural Network). Speech data from normal people and patients were collected, then diagnosed and classified into two different categories. Six characteristic parameters (Jitter, Shimmer, NHR, SPI, APQ and RAP) were chosen. Then the classification method based on the artificial neural network and Gaussian mixture method was employed to discriminate the data into normal and pathological speech. The GMM method attained 98.4% average correct classification rate with training data and 95.2% average correct classification rate with test data. The different mixture number (3 to 15) of GMM was used in order to obtain an optimal condition for classification. We also compared the average classification rate based on GMM, ANN and HMM. The proper number of mixtures on Gaussian model needs to be investigated in our future work.

  • PDF

배우의 미학적 발성을 위한 판소리의 활용방안 (Use of Pansori for Developing Actor's Aesthetic Voice)

  • 이기호
    • 한국콘텐츠학회논문지
    • /
    • 제9권12호
    • /
    • pp.181-192
    • /
    • 2009
  • 본 연구는 배우가 한국전통의 고유한 미학적 발성을 체득하기 위하여 한국 전통연극의 소리미학인 판소리의 호흡법, 발성법, 공명법을 분석하여 그 활용방안을 모색하는데 목적이 있다. 오늘날 세계의 연극흐름에서 상호문화교류주의와 글로벌 현상은 더 이상 새로운 이슈도, 새로운 접근법도 아니다. 세계 연극의 글로벌 현상은 이미 보편화되었는바, 연극을 완성시키는 배우의 연기 또한 글로벌 연극문화를 수용, 교류할 수 있어야 하겠다. 이는 배우들에게 다양한 스타일의 연기를 표현할 수 있는 능력의 요구를 의미하기도 하지만, 상호문화교류주의의 근간이 되는 자국의 문화와 미학을 연기에 담아낼 수 있어야 한다는 말이기도 하다. 따라서 배우가 자국의 문화와 예술을 담아낼 수 있는 몸짓과 소리미학 능력을 갖추는 것은 연기의 문화적 정체성을 획득하는데 있어서도 필수 불가결한 것이라 할 수 있겠다. 그 중에서도 미학적인 소리의 습득을 위하여 판소리의 발성원리와 발성법, 수련방법의 적용 및 응용 방법을 제시하는 것은 배우의 연기술에 문화적, 예술적 정체성을 획득하도록 돕는 일이 된다. 본고에서는 오늘날 세계적으로 가장 널리 알려진 서구의 발성이론과 훈련법을 토대로 판소리의 발성원리와 발성법, 수련기법을 분석하여 배우의 미학적 발성을 위한 활용방안을 모색하였다.

후처리를 이용한 음성 다이얼링 시스템의 성능향상 (Performance Improvement of Voice Dialing System using Post-Processing)

  • 김원구
    • 한국음향학회지
    • /
    • 제19권5호
    • /
    • pp.9-12
    • /
    • 2000
  • 음성 다이얼링 시스템은 화자의 음성을 인식하여 원하는 전화번호로 자동으로 전화를 걸어주는 시스템으로 주로 이동 전화나 휴대형 통신 장비에 유용하게 사용된다. 개인 음성 다이얼링 시스템의 경우, 다이얼링에 사용되는 모든 구문은 사용자가 선택하고 사용자의 음성을 사용하여 학습되어 음성 인식을 위한 HMM을 생성한다. 이러한 시스템은 화자독립 시스템 보다 매우 적은 메모리 공간과 계산량으로 구현이 가능하다. 그러나 이러한 시스템은 학습시 각 단어당 2-3개의 음성만을 사용하므로 음성인식 시스템의 성능을 개선하기 위한 각 상태에서의 상태지속분포을 추정하기는 매우 어렵다. 따라서 본 논문에서는 성능개선을 위한 후처리기를 제안하였다. 전화선을 통하여 구성된 데이터베이스를 이용한 실험에서 제안된 후처리기가 인식 시스템의 성능을 향상시킴을 확인하였다.

  • PDF

성도 공명을 중심으로 한 성악 전공 대학생의 발음법 연구 (Diction Problem of Student Singers Based on the Vocal Tract Resonance)

  • 김선숙
    • 음성과학
    • /
    • 제7권4호
    • /
    • pp.59-72
    • /
    • 2000
  • Vocal tract resonances are of paramount importance to voice sounds. Resonance frequencies determine vowel quality and the personal voice timber. The aim of this study was to make an effective diction program according to tuning formant frequencies by adjusting the vocal tract shape in professional voice users. Twelve male student singers and eleven female student singers participated in this study. The subjects repeated five simple vowels /a, e, i, o, u/ in normal speech and singing. The spoken vowels and sung vowels were measured by formant frequencies and the singer's formant frequencies using CSL and DSP Sona-Graph. Separately, Plot formants program was used to draw the vowel chart. The results were as follows. (1) Total formant frequencies of female singers were 11% higher than those of males singers in singing. (2) The F1 and F3 of sung vowels increased compared to F1 and F3 spoken vowels. However, The F2 of sung vowels decreased in comparison with F2 of spoken vowels. (3) Posterior vowel /u/ were moved anteriorly. This phenomenon seemed to be due to head voice singing training. (4) Singer's formant frequencies in student singers appeared according to the part: 2560 Hz for baritone, 2760 Hz for Tenor, 2821 Hz for Mezzo soprano and 3420 Hz for soprano.

  • PDF

Design and Implementation of Procedural Self-Instructional Contents and Application on Smart Glasses

  • Yoon, Hyoseok;Kim, Seong Beom;Kim, Nahyun
    • Journal of Multimedia Information System
    • /
    • 제8권4호
    • /
    • pp.243-250
    • /
    • 2021
  • Instructional contents are used to demonstrate a technical process to teach and walkthrough certain procedures to carry out a task. This type of informational content is widely used for teaching and lectures in form of tutorial videos and training videos. Since there are questions and uncertainties for what could be the killer application for the novel wearables, we propose a self-instruction training application on a smart glass to utilize already-available instruction videos as well as public open data in creative ways. We design and implement a prototype application to help users train by wearing smart glasses specifically designed for two concrete and hand-constrained use cases where the user's hands need to be free to operate. To increase the efficiency and feasibility of the self-instruction training, we contribute to the development of a wearable killer application by integrating a voice-based user interface using speech recognizer, public open data APIs, and timestamp-based procedural content navigation structure into our proof-of-concept application.

발성장애아동을 위한 발성훈련시스템 설계 (Design of Speech-Training System for Voice Disorders Using Visual Effect)

  • 정은순;김봉완;이용주
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.696-698
    • /
    • 2000
  • 본 연구는 발성장애아동을 대상으로 시각적 효과를 이용하여 발성치료 및 교육을 위한 도구 개발을 목적으로 한다. 따라서 특수아동의 발성장애에 대한 특성을 고려하여 그에 적합한 반복학습이 가능하도록 설계하였다. 또한 GUI와 게임적 요소를 가미하여 발성에 대한 아동의 흥미유발과 자발적 학습이 가능하도록 하였다.

  • PDF