• 제목/요약/키워드: Voiced

검색결과 282건 처리시간 0.026초

선형예측에 의한 숫자음성 자동인식 (A Spoken Korean-Digits Recognition System Based on Linear Prdiction Spectra)

  • 오영환
    • 대한전자공학회논문지
    • /
    • 제17권3호
    • /
    • pp.12-19
    • /
    • 1980
  • A speech recognition system for separately pronounced Korean digits is described. The system is composed of four stages ; parameter extraction, segmentation by voiced-unovied analysis, formant tracking and pattern matching. Digit speech is segmented into an unvoiced segment and/or a voiced one using ZCR and energy measurements, then to estimate the first three formant frequencies a relatively simple formant tracking scheme is applied to the raw formant data extracted from linear prediction spectra. Finally, pattern matching is made using dynamic programmig method. Recognition experiment is carried out for 150 digit utterences spoken by three male speakers, and recgnition rate 94 % is obtained.

  • PDF

영어파열음 시구간신호의 음향과 지각 비대칭성 연구 (The Study on Asymmetry between Acoustics and Perception of the Temporal Cues of English Plosives)

  • 강석한
    • 대한음성학회지:말소리
    • /
    • 제55권
    • /
    • pp.15-31
    • /
    • 2005
  • This study tests the hypothesis that the voiced-voiceless distinction is influenced by the relationship between acoustics and perception. Production and perception tests are conducted with temporal cues in different environments(CV, VCV, VC). The result showed that acoustic cues indicating significant difference between voiceless/voiced plosives do not behave just as do in perception. The result also showed that there existed an asymmetry between acoustics and perception.

  • PDF

최대진폭의 Fluctuation에 의한 유성음구간 Explicit 검출 (An Explicit Voiced Speech Classification by using the Fluctuation of Maximum Magitudes)

  • 배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1987년도 학술발표회 논문집
    • /
    • pp.86-88
    • /
    • 1987
  • Accurate detection of the voicved segment in speech signals is important for robust pitch extraction. This paper describes an explicit detection algorithmfor detecting the voiced segment in speech signals. Thsi algoithm is based on the fluctuation properties of maximum magnitudes in each frame of speech signals. The performance of this detector is evaluated and compared to that obtained from manually classifying 150 recorded digit utterances.

  • PDF

Recognize vowel using self organizing map

  • Jang, Sung-Hwan;Lee, Ja-Yong;Kang, Hoon
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2001년도 ICCAS
    • /
    • pp.115.4-115
    • /
    • 2001
  • This paper deals with recognizing ten korean voiced vowels using Self Organizing Map. SOM is a good classifier. The output layer is composed of two dimensions. The input vector is the frequency values having the characteristic of voiced vowels. The short time frequency transform is used getting input vector. The final neural networks is attached SOM output layer.

  • PDF

저전송속도 CELP 부호화기에서 여기신호의 개선 (Improving The Excitation Signal for Low-rate CELP Speech Coding)

  • 권철홍
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.136-141
    • /
    • 1998
  • In order to enhance the performance of a CELP coder at low bit rates, it would be necessary to make the CELP excitation have the peaky pulse characteristic. In this paper we introduce an excitation signal with peaky pulse characteristic. It is obtained by using a two-tap pitch predictor. Samples of the signal have different gains according to their amplitudes by the predictor. In voiced sound the signal has the desirable peaky pulse characteristic, and its periodicity is well reproduced. Particularly, peaky pulses at voiced onset and a burst of plosive sound are clearly reconstructed.

  • PDF

Improved Excitation Modeling for Low-Rate CELP Speech Coding

  • Kwon, Chul-Hong
    • The Journal of the Acoustical Society of Korea
    • /
    • 제18권2E호
    • /
    • pp.24-30
    • /
    • 1999
  • In this paper, we propose a weighting dependent mixed source model (WD-MSM) coder that is an improved version of a CELP-based mixed source model (C-MSM) coder. The coder classifies speech segments into three types : voiced, unvoiced and mixed. The excitation for a voiced frame is an adaptive source, and the excitation for an unvoiced frame is a stochastic source. The coder has a modified mixed source for a mixed frame. We apply different weighting functions for three classes. Simulation results show that the proposed coder at 4 kbits/s yields very good performance both subjectively and objectively.

  • PDF

음성신호 압축 및 복원을 위한 음성 천이구간 검출과 근사합성 방식 (Speech Transition Detection and approximate-synthesis Method for Speech Signal Compression and Recovery)

  • 이광석;김봉기;강성수;김현덕
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 춘계종합학술대회 A
    • /
    • pp.763-767
    • /
    • 2008
  • 유 무성음의 음원을 이용한 음성부호화 시스템에서는 프레임 내에 유성자음과 무성자음이 공존하는 경우 음질의 왜곡을 수반할 수 있다. 따라서 프레임 내에 유성자음과 무성자음이 공존하지 않도록 하기 위해서 무성자음을 탐색 및 검출을 포함하는 천이구간을 제안하였다. 본 연구는 최소 자승법과 주파수 대역 분할법을 사용함으로써 TS 근사합성의 새로운 방식을 제시하였다 결과적으로 이 방식은 0.547kHz이하와 2.813kHz 이상에서의 주파수 정보를 이용함으로써 TS내에서 고품질의 근사합성 파형을 얻을 수 있었다. 중요한 것은 최대 오류신호는 TS내에 저 왜곡 근사 합성파형이 생길 수 있다는 것이다. 이 방식은 유성음/묵음/TS의 새로운 음성부호화, 음성해석 및 음성합성에 적용할 수 있으리라 생각한다.

  • PDF

L1-L2 Transfer in VOT and f0 Production by Korean English Learners: L1 Sound Change and L2 Stop Production

  • Kim, Mi-Ryoung
    • 말소리와 음성과학
    • /
    • 제4권3호
    • /
    • pp.31-41
    • /
    • 2012
  • Recent studies have shown that the stop system of Korean is undergoing a sound change in terms of the two acoustic parameters, voice onset time (VOT) and fundamental frequency (f0). Because of a VOT merger of a consonantal opposition and onset-f0 interaction, the relative importance of the two parameters has been changing in Korean where f0 is a primary cue and VOT is a secondary cue in distinguishing lax from aspirated stops in speech production as well as perception. In English, however, VOT is a primary cue and f0 is a secondary cue in contrasting voiced and voiceless stops. This study examines how Korean English learners use the two acoustic parameters of L1 in producing L2 English stops and whether the sound change of acoustic parameters in L1 affects L2 speech production. The data were collected from six adult Korean English learners. Results show that Korean English learners use not only VOT but also f0 to contrast L2 voiced and voiceless stops. However, unlike VOT variations among speakers, the magnitude effect of onset consonants on f0 in L2 English was steady and robust, indicating that f0 also plays an important role in contrasting the [voice] contrast in L2 English. The results suggest that the important role of f0 in contrasting lax and aspirated stops in L1 Korean is transferred to the contrast of voiced and voiceless stops in L2 English. The results imply that, for Korean English learners, f0 rather than VOT will play an important perceptual cue in contrasting voiced and voiceless stops in L2 English.

천이구간 추출 및 근사합성에 의한 음성신호 압축과 복원 (Speech Signal Compression and Recovery Using Transition Detection and Approximate-Synthesis)

  • 이광석;이병로
    • 한국정보통신학회논문지
    • /
    • 제13권2호
    • /
    • pp.413-418
    • /
    • 2009
  • 유 무성음의 음원을 이용한 음성부호화 시스템에서는 프레임 내에 유성자음과 무성자음이 공존하는 경우에 음질왜곡을 일으킬 수 있다. 따라서 프레임 내에 유성자음과 무성자음이 공존하지 않도록 하기 방법으로써 무성자음을 탐색하고 검출을 포함하는 천이 구간을 제안하였다. 본 연구는 최소 자승법과 주파수 대 역 분할법을 사용함으로써 TS 근사합성의 새로운 방식을 제시하였으며 결과적으로 이는 0.547KHz이하와 2.813kHz 이상에서의 주파수 정보를 이용함으로써 TS내에서 고품질의 근사합성 파형을 얻을 수 있었다. 보다 중요한 것은 최대 오류신호는 TS 내에 저 왜곡 근사 합성파형이 생길 수 있다는 것이다. 이 방식은 유성음/묵음/TS의 새로운 음성부호화, 음성해석 및 음성 합성에 적용할 수 있으리라 생각한다.

개량형 다중대역 여기 (IMBE: Improved Multi-band Excitation) 음성 부호기의 피치 예측 개선 (An Efficient Pitch Estimation for IMBE (Improved Multi-band Excitation) Speech Coder)

  • 나훈;정대권
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.34-41
    • /
    • 2001
  • 기존의 IMBE (개량형 다중대역 여기 : Improved Multi-band Excitation) 음성 부호기의 초기 피치 추정 과정은 전체 부호기 연산 시간의 대부분을 차지하며 또한 미래의 음성 프레임들이 초기 피치 추정시 사용되므로 시간 지연이 유발되어 실시간 구현에 장애 요소로 작용되었다. 또한 무성음에 해당되는 프레임에 대해서도 유성음과 동일한 피치 추정을 수행하므로 알고리즘의 효율성을 떨어뜨린다 본 논문에서는 초기 피치 추정 전에 다이애딕 웨이브렛 변환 (Dyadic Wavelet Transform)을 이용하여 이를 바탕으로 유/무성음을 판별한 후 유성음으로 결정된 프레임에 대해서만 피치 추정을 행하고 무성음으로 결정된 프레임은 랜덤 잡음을 주어서 부호화시의 처리 시간을 단축하였다. 또한, 초기 피치 추정 전에 판별된 유/무성음을 판별하여 유성음과 무성음에 각기 다른 초기 피치 추정 알고리즘을 사용하고 미래의 두 프레임을 사용하지 않음으로써 송, 수신단에 유발되는 시간 지연을 제거하였다. 그 결과 초기 피치 추정 과정의 상대적인 복잡도가 23% 감소되었고 프레임당 처리 시간이 1/10∼ 1/11로 감소되었고 기존의 부호기와 거의 같은 음질을 얻을 수 있었다.

  • PDF