• Title/Summary/Keyword: 음성 훈련

Search Result 281, Processing Time 0.027 seconds

DNN based Robust Speech Feature Extraction and Signal Noise Removal Method Using Improved Average Prediction LMS Filter for Speech Recognition (음성 인식을 위한 개선된 평균 예측 LMS 필터를 이용한 DNN 기반의 강인한 음성 특징 추출 및 신호 잡음 제거 기법)

  • Oh, SangYeob
    • Journal of Convergence for Information Technology
    • /
    • v.11 no.6
    • /
    • pp.1-6
    • /
    • 2021
  • In the field of speech recognition, as the DNN is applied, the use of speech recognition is increasing, but the amount of calculation for parallel training needs to be larger than that of the conventional GMM, and if the amount of data is small, overfitting occurs. To solve this problem, we propose an efficient method for robust voice feature extraction and voice signal noise removal even when the amount of data is small. Speech feature extraction efficiently extracts speech energy by applying the difference in frame energy for speech and the zero-crossing ratio and level-crossing ratio that are affected by the speech signal. In addition, in order to remove noise, the noise of the speech signal is removed by removing the noise of the speech signal with an average predictive improved LMS filter with little loss of speech information while maintaining the intrinsic characteristics of speech in detection of the speech signal. The improved LMS filter uses a method of processing noise on the input speech signal by adjusting the active parameter threshold for the input signal. As a result of comparing the method proposed in this paper with the conventional frame energy method, it was confirmed that the error rate at the start point of speech is 7% and the error rate at the end point is improved by 11%.

Development of Tennis Training Machine in Ourdoor Environment with Human Tracking (사용자 추적 기능을 가진 야외용 테니스 훈련용 장치 개발)

  • Yang, Jeong-Yean
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.3
    • /
    • pp.424-431
    • /
    • 2020
  • This paper focused on the development of sports robot that detects a human player and shots a serve ball automatically. When robot technologies apply to the sports machine, the domain problems occurs such as outdoor environments and playing condition to recognize the visual and the vocal modalities. Gaussian mixture model and Kalman filter are used to detect the player's position in the left, right, and depth direction and to avoid the noises caused by the player's posture variation around the net. The sports robot is designed by the pan-tilt structure to shot a serve ball by pneumatic control under the multi layered software architecture. Finally, the proposed tracking and the machine performance are discussed by experimental results.

Sound event classification using deep neural network based transfer learning (깊은 신경망 기반의 전이학습을 이용한 사운드 이벤트 분류)

  • Lim, Hyungjun;Kim, Myung Jong;Kim, Hoirin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.35 no.2
    • /
    • pp.143-148
    • /
    • 2016
  • Deep neural network that effectively capture the characteristics of data has been widely used in various applications. However, the amount of sound database is often insufficient for learning the deep neural network properly, so resulting in overfitting problems. In this paper, we propose a transfer learning framework that can effectively train the deep neural network even with insufficient sound event data by employing rich speech or music data. A series of experimental results verify that proposed method performs significantly better than the baseline deep neural network that was trained only with small sound event data.

Presentation Training System based on 3D Virtual Reality (3D 가상현실기반의 발표훈련시스템)

  • Jung, Young-Kee
    • The Journal of the Convergence on Culture Technology
    • /
    • v.4 no.4
    • /
    • pp.309-316
    • /
    • 2018
  • In this study, we propose a 3D virtual reality based presentation training system to help implement the virtual presentation environment, such as the real world, to present it confidently in the real world. The proposed system provided a realistic and highly engaging presentation and interview environment by analyzing the speakers' voice and behavior in real time to be reflected in the audience of the virtual space. Using HMD and VR Controller that become 6DOF Tracking, the presenter can change the timing and interaction of the virtual space using Kinect, and the virtual space can be changed to various settings set by the user. The presenter will look at presentation files and scripts displayed in separate views within the virtual space to understand the content and master the presentation.

Break Strength Prediction Using Maximum a Posterior Probability (MAP 확률을 이용한 끊어 읽기 강도 예측)

  • Kim Sanghun;Park Jun;Lee Youngjik
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.75-78
    • /
    • 2000
  • 본 논문은 자연스러운 합성음 생성을 위한 끊어 읽기 강도 예측에 관한 것으로, 문장에 대한 품사열이 주어졌을 때 Posteriori 확률을 최대화하는 끊어 읽기 강도를 비터비 디코딩으로 예측한다. 훈련용 데이터는 여성화자 1인이 발성한 2,100 문장이며, 음성 데이터로부터 휴지길이(pause)에 따라 끊어 읽기 강도를 2단계로 할당하고, 텍스트에서는 30개의 품사 태그 심볼을 이용하여 형태소분석 및 태깅을 수행하였다. 관측확률은 3개 연속하는 품사열이 발생할 확률로 하고 끊어 읽기 강도 천이확률은 bigram으로 했을 때, cross validation 방법으로 성능 평가를 수행하였다 평가결과, 훈련데이타에 대해서는 $89.7\%$, 테스트 데이터에 대해서는 $84.9\%$의 예측정확률을 보였다.

  • PDF

A Study on the Prosody Generation of Korean Sentences (한국어 문장 단위운율 발생에 관한 연구)

  • 민경중
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.419-423
    • /
    • 1998
  • 법칙합성 시스템은 합성단위 합성기, 합성방식 등에 따라 여러 가지 다양한 음성합성시스템이 있으나 순수한 법칙합성 시스템이 아니고 기본 합성단위를 연결하여 합성음을 발생시키는 연결합성 시스템은 연결단위사이 그리고 문장단위에서의 매끄러운 합성계수의 변화를 구현하지 못해 자연감이 떨어지는 실정이다. 자연감을 높이기 위해 보다 자연음에 가까운 운율을 발생시키기 위해 먼저 운율에 영향을 주는 요소들을 고려하여 신경망 입력 패턴을 구성한다. 분절요인에 의한 영향을 고려해주기 위해 전후 3음소를 동시에 입력시키고 문장내에서의 구문론적인 영향을 고려해주기 위해 해당 음소의 문장내에서의 위치, 운율구에 관한 정보등을 신경망의 입력 패턴으로 구성하였다. 신경망을 훈련시키기 위한 언어자료로는 고립단어군과 음소균형 문장군 그리고 삽입음절연결어 등으로 구성한다. 특정화자로 하여금 신경망을 훈련시켜 자연음의 운율과 유사한 합성운을 발생시켰다.

  • PDF

Performance compare by the processing unit of the automatic phoneme labelling system (음운 자동 레이블링 시스템의 처리단위에 의한 성능비교)

  • Park, Soon-Cheol;Kim, Tae-Hwan;Kim, Bong-Wan;Lee, Yong-Ju
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.173-177
    • /
    • 1999
  • 본 논문에서는 레이블링 시스템에서 기본단위로 새롭게 제안된바 있는 demiphone의[1] 성능을 평가하기 위하여 monophone과 triphone, demiphone을 단위로 하는 레이블링 시스템을 구축하여 demiphone의 성능을 평가하였다. 음성 데이터 베이스는 PBW 452단어를 대상으로 남자 30명분의 데이터를 훈련에 사용하였으며, 훈련에 사용하지 않는 남자 4명분의 데이터를 시스템의 평가에 사용하였다. 평가결과 demiphone을 사용한 경우 경계오차가 20ms 이하의 경우에는 monophone에 비하여 6.31%, triphone에 비해 6.21%로 성능이 우수하다. 그리고, 40ms 이하의 경우에는 각각 4.33% 와 3.68%의 성능 향상을 가져왔다.

  • PDF

Model based Stress Decision Method (강세/비강세 모델을 이용한 강세 판정 방법)

  • Kim Wooil;Koh Hoon;Ko Hanseok
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.49-52
    • /
    • 2000
  • 본 논문에서는 일반적인 강세 판정 법이 갖는 단점을 보완하기 위하여 모델을 기반으로 하는 강세 판정 방법을 제안한다. 기존의 강세 판정 법은 기준 값과의 절대적인 비교에 의해 강세를 판정하게 되므로 발음 환경에 따라 불안정한 성능을 나타낸다. 제안하는 방법은 강세/비강세 모델을 적용한 후보들에 대해 상대적인 비교 값으로 강세를 판정한다. 소량의 강세 음성 데이터베이스로부터 강세/비강세 모델을 훈련하기 위해 적응 훈련 기법을 사용하였다. 실험 결과 $76.53\%의 판정 성공률을 나타내었으며, 이는 제안한 방법이 강세 자동 판정 방법으로 이용 가능성을 보이는 결과이다.

  • PDF

Learning/Training System Supporting Real Time Video Chatting on Web-based 3D Virtual Space (웹 기반 3차원 가상 공간에서 실시간 화상 대화 지원 학습/훈련 시스템)

  • 정헌만;탁진현;이세훈;왕창종
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.571-573
    • /
    • 2000
  • 기존 분산 가상환경 시스템에서는 참여자들 사이의 언어 외적인 의사교환을 지원하기 위해 참여자의 아바타에 몸짓이나 얼굴 표정 등을 표현할 수 있도록 애니메이션 가능한 아바타를 사용한다. 하지만 아바타 애니메이션으로 참여자의 의사 및 감정 표현을 표현하는데는 한계가 있다. 따라서, 이 논문에서는 가상 환경 내의 다중 사용자들의 의사 교환 및 감정 표현을 극대화할 수 있는 방법으로 실시간 화상 대화 가상 환경 학습.훈련 시스템을 설계하였다. 설계한 시스템은 학습 참여자의 화상 및 음성 스트림을 전달함으로써 기존 응용들에 비해 풍부한 의사 교환을 지원하고, 가상 공간에서 학습에 필요한 다양한 모듈들을 포함하고 있다.

  • PDF

A Case Study on Vocal Aerobic Treatment Voice Therapy Development and Application for Classical Singers (성악가를 위한 VAT 음성치료 개발 및 적용 사례연구)

  • Yoo, Jae-Yeon;Lee, Ha-Na
    • 재활복지
    • /
    • v.22 no.1
    • /
    • pp.157-168
    • /
    • 2018
  • The purpose of this study is to investigate the impact of semi-closed vocal training-based Vocal Aerobic Treatment on the voice improvement of soprano. Study subject was one soprano who appealed to the suffering of her voice problem due to vocal cord nodule. A study method of conducting pre/post acoustic evaluation and subjective voice evaluation to compare the measures was used; Vocal Aerobic Treatment was carried out twice a week for a total of 32 session. In the acoustic evaluation, MDVP (multi-dimensional voice program) and VRP (voice range profile) were used to evaluate the pitch, voice quality, and voice range; in the subjective voice evaluation, SVHI (singing voice handicap index) was used to assess voice satisfaction. As a result of the pitch evaluation, the soprano maintained a proper Fo. As a result of the voice quality evaluation, the jitter, shimmer, and the noise harmonic ratio numbers decreased compared to the numbers shown before the treatment. As a result of the voice range evaluation, the scope of the range was broadened, with the number of semitone increasing from 30 to 35. As for the subjective voice evaluation, the result of the total score obtained after the survey report divided by the number of questions showed a decrease from 3.6 to 0.6. The soprano herself reported of having a minor extent of a voice problem. The summary of the above results reflects that Vocal Aerobic Treatment is useful in the voice improvement of vocalists However, as this study is case research regarding the Vocal Aerobic Treatment effect on one soprano, further research on the treatment effect covering many other vocalists is necessary. Also, there is a need for follow-up studies regarding voice management and voice treatment program on not only the vocalists but also the voice users in many other professions.