• Title/Summary/Keyword: 음성 훈련

Search Result 277, Processing Time 0.037 seconds

Learning of Artificial Neural Networks about the Prosody of Korean Sentences. (인공 신경망의 한국어 운율 학습)

  • Shin Dong-Yup;Min Kyung-Joong;Lim Un-Cheon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.121-124
    • /
    • 2001
  • 음성 합성기의 합성음의 자연감을 높이기 위해 자연음에 내재하는 정확한 운율 법칙을 구하여 음성합성 시스템에서 이를 구현해 주어야 한다 무제한 어휘 음성합성 시스템의 문-음성 합성기에서 필요한 운율 법칙은 언어학적 정보를 이용해 구하거나, 자연음에서 추출하고 있다 그러나 추출한 운율 법칙이 자연음에 내재하는 모든 운율 법칙을 반영하지 못했거나, 잘못 구현되는 경우에는 합성음의 자연성이 떨어지게 된다. 이런 점을 고려하여 본 논문에서는 한국어 자연음을 분석하여 추출한 운율 정보를 인공 신경망이 학습하도록 하고 훈련을 마친 인공 신경망에 문장을 입력하고, 출력으로 나오는 운율 정보와 자연음의 운율 정보를 비교한 결과 제안한 인공 신경망이 자연음에 내재하고 있는 운율을 학습할 수 있음을 알 수 있었다. 운율의 3대 요소는 피치 , 지속시간, 크기의 변화이다. 제안한 인공 신경망이 한국어 문장의 음소 열을 입력으로 받아들이고, 각 음소의 지속시간에 따른 피치변화와 크기 변화를 출력으로 내보내면 자연음을 분석해 구한 각 음소의 운율 정보인 목표 패턴과 출력 패턴 의 오차를 최소화하도록 인공 신경망의 가중치를 조절할 수 있도록 설계하였다. 지속시간에 따른 각 음소의 피치와 크기 변화를 학습시키기 위해 피치 및 크기 인공 신경망을 구성하였다. 이들 인공 신경망을 훈련시키기 위해 먼저 음소 균형 문장 군을 구축하여야 하고, 이들 언어 자료를 특정 화자가 일정 환경에서 읽고 이를 녹음하여 , 분석하여 구한운율 정보를 운율 데이터베이스로 구축하였다. 문장 내의 각 음소에 대해 지속 시간과 피치 변화 그리고 크기 변화를 구하고, 곡선 적응 방법을 이용하여 각 변화 곡선에 대한 다항식 계수와 초기 값을 구해 운율 데이터베이스를 구축한다. 이 운율 데이터베이스의 일부는 인공 신경망을 훈련시키는데 이용하고, 나머지로 인공 신경망의 성능을 평가하여 인공 신경망이 운율 법칙을 학습할 수 있었다. 언어 자료의 문장 수를 늘리고 발음 횟수를 늘려 운율 데이터베이스를 확장하면 인공 신경망의 성능을 높일 수 있고, 문장 내의 음소의 수를 감안하여 인공 신경망의 입력 단자의 수는 계산량과 초분절 요인을 감안하여 결정해야 할 것이다

  • PDF

English auditory discrimination test for Japanese (일본인을 대상으로 한 영어 청취판별 테스트)

  • Lee Hyun Bok;Song YoonGyoung;Kong JungHye
    • MALSORI
    • /
    • no.37
    • /
    • pp.119-128
    • /
    • 1999
  • 이 논문의 목적은 일본 학생들의 영어 청취 능력에 대한 확실한 평가를 내릴 수 있는 청취판별테스트를 개발하는 데에 있다. 이 테스트를 통하여 일본사람들이 범하는 청취 오류를 평가, 분석하고 일본어의 음성·음운체계가 이러한 오류에 미치는 영향을 평가한다. 테스트의 결과는 청취 및 발음훈련에 적용될 수 있으므로 일본인의 영어 능력을 향상시키는데 공헌할 수 있을 것이다.

  • PDF

A Study on Real-time Discrimination of FM Radio Broadcast Speech/Music (실시간 FM 방송중 음악/음성 검출에 관한 연구)

  • 황진만;강동욱;김기두
    • Proceedings of the IEEK Conference
    • /
    • 2003.07e
    • /
    • pp.2136-2139
    • /
    • 2003
  • 본 논문은 FM 라디오 방송중의 오디오 신호를 블록단위로 음악 및 음성을 검출하는 알고리즘에 대한 것으로, 이를 기반으로 방송중의 노래(가요, 팝, 클래식‥‥)만을 자동으로 인식하여 녹음하는 알고리즘을 개발한다. 본 논문에서는 기존에 제안되었던 것[1-4]과 같이 단지 음악과 음성을 구분함과 동시에 음악구간의 논리적 조합으로 이루어진 노래를 자동으로 인식하여 녹음하는 것을 알고리즘의 최종 목표로 한다. 알고리즘의 접근 역시 기존의 음소단위의 모델링을 거치는 GMM 기반의 접근이 아니기 때문에 모델링에 대한 훈련과정이 필요 없고, 시간영역에서의 오디오신호가 가지고 있는 직관적인 특징을 분석함으로써 비교적 적은 연산으로 실시간 구현이 가능하다.

  • PDF

Implementation of the Automatic Segmentation and Labeling System (자동 음성분할 및 레이블링 시스템의 구현)

  • Sung, Jong-Mo;Kim, Hyung-Soon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.16 no.5
    • /
    • pp.50-59
    • /
    • 1997
  • In this paper, we implement an automatic speech segmentation and labeling system which marks phone boundaries automatically for constructing the Korean speech database. We specify and implement the system based on conventional speech segmentation and labeling techniques, and also develop the graphic user interface(GUI) on Hangul $Motif^{TM}$ environment for the users to examine the automatic alignment boundaries and to refine them easily. The developed system is applied to 16kHz sampled speech, and the labeling unit is composed of 46 phoneme-like units(PLUs) and silence. The system uses both of the phonetic and orthographic transcription as input methods of linguistic information. For pattern-matching method, hidden Markov models(HMM) is employed. Each phoneme model is trained using the manually segmented 445 phonetically balanced word (PBW) database. In order to evaluate the performance of the system, we test it using another database consisting of sentence-type speech. According to our experiment, 74.7% of phoneme boundaries are within 20ms of the true boundary and 92.8% are within 40ms.

  • PDF

VR-simulated Sailor Training Platform for Emergency (긴급상황에 대한 가상현실 선원 훈련 플랫폼)

  • Park, Chur-Woong;Jung, Jinki;Yang, Hyun-Seung
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2015.10a
    • /
    • pp.175-178
    • /
    • 2015
  • This paper presents a VR-simulated sailor training platform for emergency in order to prevent a human error that causes 60~80% of domestic/ abroad marine accidents. Through virtual reality technology, the proposed platform provides an interaction method for proficiency of procedures in emergency, and a crowd control method for controlling crowd agents in a virtual ship environment. The interaction method uses speech recognition and gesture recognition to enhance the immersiveness and efficiency of the training. The crowd control method provides natural simulations of crowd agents by applying a behavior model that reflects the social behavior model of human. To examine the efficiency of the proposed platform, a prototype whose virtual training scenario describes the outbreak of fire in a ship was implemented as a standalone system.

  • PDF

The Construction of a Children Speech Database for Speech Recognition and The Validation of Acoustic Models (음성인식용 아동음성데이터베이스의 구축 및 음향모델의 검토)

  • Kim, Yoen-Whoa;Lee, Yong-Ju
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.717-720
    • /
    • 2003
  • 최근 아동음성을 이용한 응용분야가 활기를 띄고 있다. 따라서 아동음성DB의 구축이 시급히 필요하게 되었다. 이러한 요구에 따라 아동음성을 여러 응용분야에 적용하기 위한 한 방법으로 아동음성DB를 구축하였고, 이를 이용한 음향모델을 작성하였다. 아동음성의 효율적인 인식을 위한 음향모델을 고찰하기 위하여 연령대별로 음향모델을 만들고, 이를 이용하여 훈련 및 평가용 데이터로 인식 실험한 결과를 비교 검토한다.

  • PDF

Speech Recognition Imptovement Using Extraction Selective Observation in DHMM (선별적인 관측열 추출을 통한 DHMM 음성인식의 성능 개선)

  • 김우창;조선호;고수정;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.374-376
    • /
    • 2000
  • 음성인식 시스템에 사용하는 알고리즘 중에 하나인 DHMM은 코드북을 이용하여 음성의 프레임들에 대한 특징을 관측열로 추출하여 음성의 패턴에 대한 훈련과 인식을 수행하게 된다. 그러나 음성은 유성음과 무성음의 특징 차이가 많이 나게 되므로 하나의 코드북을 이용하게 되면 코드북 오차에 의하여 성질이 전혀 다른 코드북 인덱스를 DHMM의 관측열로 사용하게 된다. 본 논문에서는 음성의 유성음과 무성음에 대한 선별적인 작업을 통해 서로 다른 코드북을 만들어 관측열을 추출하고 선행 관측과 현 관측과의 거리 비교 연산을 통하여 관측의 시간축을 정규화한 관측열을 음성인식에 사용하였다. 본 논문에서 제시하는 인식 방법을 사용하여 실험한 결과, 기존의 인식 방법보다 5.33% 향상된 결과를 얻었다.

  • PDF

Learning acoustic cue weights for Korean stops through L2 perception training (지각 훈련을 통한 한국어 폐쇄음 음향 신호 가중치의 L2 학습)

  • Oh, Eunjin
    • Phonetics and Speech Sciences
    • /
    • v.13 no.4
    • /
    • pp.9-21
    • /
    • 2021
  • This study investigated whether Korean learners improve acoustic cue weights to identify Korean lenis and aspirated stops in the direction of native values through perception training that focused on contrasting the stops in various phonetic contexts. Nineteen native Chinese learners of Korean and two native Korean instructors for the perception training participated in the experiment. A training group and a non-training group were divided according to pretest results, and only the training group participated in the training for 5 days. To estimate the perceptual weights of the stop cues, a pretest and a posttest were conducted with stimuli whose stop cues (F0 and VOT) were systematically manipulated. Binary logistic regression analyses were performed on each learner's test results to calculate perceptual β coefficients, which estimate the perceptual weights of the acoustic cues used in identifying the stop contrast. The training group showed a statistically significant increase of 0.451 on average in the posttest for the coefficient values of the F0, which is the primary cue for the stop contrast, whereas the non-training group showed an insignificant increase of 0.246. The patterns of change in the F0 use after training varied considerably among individual learners.

A Study on the Removal of Unusual Feature Vectors in Speech Recognition (음성인식에서 특이 특징벡터의 제거에 대한 연구)

  • Lee, Chang-Young
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.8 no.4
    • /
    • pp.561-567
    • /
    • 2013
  • Some of the feature vectors for speech recognition are rare and unusual. These patterns lead to overfitting for the parameters of the speech recognition system and, as a result, cause structural risks in the system that hinder the good performance in recognition. In this paper, as a method of removing these unusual patterns, we try to exclude vectors whose norms are larger than a specified cutoff value and then train the speech recognition system. The objective of this study is to exclude as many unusual feature vectors under the condition of no significant degradation in the speech recognition error rate. For this purpose, we introduce a cutoff parameter and investigate the resultant effect on the speaker-independent speech recognition of isolated words by using FVQ(Fuzzy Vector Quantization)/HMM(Hidden Markov Model). Experimental results showed that roughly 3%~6% of the feature vectors might be considered as unusual, and therefore be excluded without deteriorating the speech recognition accuracy.

A Study on Error Correction Using Phoneme Similarity in Post-Processing of Speech Recognition (음성인식 후처리에서 음소 유사율을 이용한 오류보정에 관한 연구)

  • Han, Dong-Jo;Choi, Ki-Ho
    • The Journal of The Korea Institute of Intelligent Transport Systems
    • /
    • v.6 no.3
    • /
    • pp.77-86
    • /
    • 2007
  • Recently, systems based on speech recognition interface such as telematics terminals are being developed. However, many errors still exist in speech recognition and then studies about error correction are actively conducting. This paper proposes an error correction in post-processing of the speech recognition based on features of Korean phoneme. To support this algorithm, we used the phoneme similarity considering features of Korean phoneme. The phoneme similarity, which is utilized in this paper, rams data by mono-phoneme, and uses MFCC and LPC to extract feature in each Korean phoneme. In addition, the phoneme similarity uses a Bhattacharrya distance measure to get the similarity between one phoneme and the other. By using the phoneme similarity, the error of eo-jeol that may not be morphologically analyzed could be corrected. Also, the syllable recovery and morphological analysis are performed again. The results of the experiment show the improvement of 7.5% and 5.3% for each of MFCC and LPC.

  • PDF