• 제목/요약/키워드: Korean speech

검색결과 5,286건 처리시간 0.026초

음성특성 학습 모델을 이용한 음성인식 시스템의 성능 향상 (Improvement of Speech Recognition System Using the Trained Model of Speech Feature)

  • 송점동
    • 정보학연구
    • /
    • 제3권4호
    • /
    • pp.1-12
    • /
    • 2000
  • 음성은 특성에 따라 고음성분이 강한 음성과 저음성분이 강한 음성으로 구분할 수 있다. 그러나 이제까지 음성인식의 연구에 있어서는 이러한 특성을 고려하지 않고, 인식기를 구성함으로써 상대적으로 낮은 인식률과 인식모델을 구성할 때 많은 데이터를 필요로 하고 있다. 본 논문에서는 화자의 이러한 특성을 포만트 주파수를 이용하여 구분할 수 있는 방법을 제안하고, 화자음성의 고음과 저음특성을 반영하여 인식모델을 구성한 후 인식하는 방법을 제안한다. 한국어에서 가능한 47개의 모노폰을 이용하여 인식모델을 구성하였으며, 여성과 남성 각각 20명의 음성을 이용하여 인식모델을 학습시켰다. 포만트 주파수를 추출하여 구성한 포만트 주파수 테이불과 피치 정보값을 이용하여 음성의 특성을 구분한 후, 음성특성에 따라 학습된 인식모델을 이용하여 인식을 수행하였다. 본 논문에서 제안한 시스템을 이용하여 실험한 결과 기존의 방법보다 인식률이 향상됨을 보였다.

  • PDF

통계적 스펙트럼 이퀄라이저를 이용한 저 비트율 음성부호화기의 명료도 향상 (Intelligibility Improvement of Low Bit-Rate Speech Coder Using Stochastic Spectral Equalizer)

  • 이정훈;윤덕규;최승호
    • 한국통신학회논문지
    • /
    • 제41권10호
    • /
    • pp.1183-1185
    • /
    • 2016
  • 디지털 음성통신에서의 저 비트율 음성부호화기는 음성발성모델의 파라미터를 사용하여 음성을 합성한다. 이 경우, 파라미터에 할당된 비트가 매우 한정적이기 때문에 합성된 음성의 스펙트럼이 크게 왜곡될 수 있으며, 이는 명료도 저하의 요인이 된다. 본 논문에서는 통계적 스펙트럼 이퀄라이저를 이용한 명료도 향상 기법을 제안한다. 본 기법은 각각의 음성부호화기별로 원음과 합성음의 스펙트럼 비율을 이용하여 통계적으로 가중치 벡터를 구하며, 이를 합성 음성에 적용한다. 객관적인 음성명료도 평가 실험을 통해, 제안한 기법이 기존의 방법보다 성능이 우수함을 확인하였다.

Effects of Age and Type of Stimulus on the Cortical Auditory Evoked Potential in Healthy Malaysian Children

  • Mukari, Siti Zamratol-Mai Sarah;Umat, Cila;Chan, Soon Chien;Ali, Akmaliza;Maamor, Nashrah;Zakaria, Mohd Normani
    • 대한청각학회지
    • /
    • 제24권1호
    • /
    • pp.35-39
    • /
    • 2020
  • Background and Objectives: The cortical auditory evoked potential (CAEP) is a useful objective test for diagnosing hearing loss and auditory disorders. Prior to its clinical applications in the pediatric population, the possible influences of fundamental variables on the CAEP should be studied. The aim of the present study was to determine the effects of age and type of stimulus on the CAEP waveforms. Subjects and Methods: Thirty-five healthy Malaysian children aged 4 to 12 years participated in this repeated-measures study. The CAEP waveforms were recorded from each child using a 1 kHz tone burst and the speech syllable /ba/. Latencies and amplitudes of P1, N1, and P2 peaks were analyzed accordingly. Results: Significant negative correlations were found between age and speech-evoked CAEP latency for each peak (p<0.05). However, no significant correlations were found between age and tone-evoked CAEP amplitudes and latencies (p>0.05). The speech syllable /ba/ produced a higher mean P1 amplitude than the 1 kHz tone burst (p=0.001). Conclusions: The CAEP latencies recorded with the speech syllable became shorter with age. While both tone-burst and speech stimuli were appropriate for recording the CAEP, significantly bigger amplitudes were found in speech-evoked CAEP. The preliminary normative CAEP data provided in the present study may be beneficial for clinical and research applications in Malaysian children.

Speech cues를 이용한 반복훈련이 뇌성마비 아동의 자음정확도 및 말명료도에 미치는 영향: 단일대상연구 (The effects of repeated speech training using speech cues on the percentage of correct consonants and speech intelligibility in children with cerebral palsy: A single-subject design research)

  • 서새희;정필연;심현섭
    • 말소리와 음성과학
    • /
    • 제13권3호
    • /
    • pp.79-90
    • /
    • 2021
  • 본 연구에서는 단일대상연구로서 speech cues를 이용한 반복훈련이 뇌성마비 아동의 자음정확도 및 말명료도에 미치는 영향에 대해 알아보고자 하였다. 연구에는 만 5-8세의 뇌성마비 아동 3명이 참여하였다. 중재는 한 달간 주 4회, 총 16회기 동안 진행하였으며, 한 회기는 30분으로 구성하였다. 훈련과제는 목표 음소가 포함된 1-2음절의 단어와 2어절의 문장을 speech cues의 두 가지 발화유형인 'Big mouth'와 'Strong voice'로 훈련하였다. 연구 결과, 첫째, 세 아동 모두 자음정확도와 말명료도의 평균이 중재단계에서 증가하였으나, 효과크기는 아동 간 상이하였다. 또한, 자음정확도에 비해 말명료도에서 더 높은 효과가 나타났다. 세 아동 모두 훈련 문항에서 유지 효과도 나타났다. 둘째, 세 아동 모두 비훈련 단어와 문장에서 일반화 효과가 나타났다. 따라서 speech cues를 이용한 반복훈련을 통해 뇌성마비 아동의 자음정확도와 말명료도가 증가된 것을 알 수 있었으며, 임상에서 좀 더 쉽고 간편한 중재로 그 효용성이 있다는 것을 확인하였다.

음성 신호로부터 주기, 비주기 성분의 반복적 계산법에 의한 분리 실험 (Iterative Computation of Periodic and Aperiodic Part from Speech Signal)

  • 조철우;리타오
    • 대한음성학회지:말소리
    • /
    • 제48호
    • /
    • pp.117-126
    • /
    • 2003
  • source of speech signal is actually composed of combination of periodic and aperiodic components, although it is often modeled to either one of those. In the paper an experiment which can separate periodic and aperiodic components from speech source. Linear predictive residual signal was used as a approximated vocal source the original speech to obtain the estimated aperiodic part. Iterative extrapolation method was used to compute the aperiodic part.

  • PDF

발화 유형에 따른 습관적 음도의 차이 (Effect of Speech Tasks on Habitual Pitch)

  • 임혜진;한지연
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.55-58
    • /
    • 2007
  • This study was investigated the effect of speech tasks on habitual pitch. Seven male and female young adult speakers participated in this study. The experiment consisted of seven different speech tasks: counting, reading, sustained phonation /a/, prolonged /i:/, answering /ne/. Data was analyzed via Visi-pitch IV. The results showed that there was no significant F0 difference among speech tasks.

  • PDF

음성인식을 위한 퍼지 카오스 차원의 고찰 (Consideration on the Fuzzy Chaos Dimension for Speech Recognition)

  • 유병욱;김승겸;박현숙;김창석
    • 음성과학
    • /
    • 제4권2호
    • /
    • pp.25-39
    • /
    • 1998
  • This paper deals with fuzzy correlation dimension for an appropriate speech recognition. The proposed fuzzy correlation dimension has absorbed time variation value of strange attractor as utilizing fuzzy membership function at calculation of integral correlation when the results of proposed dimension are applied to speech recognition fuzzed correlation dimension is superior to speech recognition, and correlation dimension is superior to speaker discrimination.

  • PDF

An Optimality Theoretic Approach to the Feature Model for Speech Understanding

  • Kim, Kee-Ho
    • 음성과학
    • /
    • 제2권
    • /
    • pp.109-124
    • /
    • 1997
  • This paper shows how a distinctive feature model can effectively be implemented into speech understanding within the framework of the Optimality Theory(OT); i.e., to show how distinctive features can optimally be extracted from given speech signals, and how segments can be chosen as the optimal ones among plausible candidates. This paper will also show how the sequence of segments can successfully be matched with optimal words in a lexicon.

  • PDF

MRI를 이용한 조음모델시뮬레이터 구현에 관하여 (On the Implementation of Articulatory Speech Simulator Using MRI)

  • 조철우
    • 음성과학
    • /
    • 제2권
    • /
    • pp.45-55
    • /
    • 1997
  • This paper describes the procedure of implementing an articulatory speech simulator, in order to model the human articulatory organs and to synthesize speech from this model after. Images required to construct the vocal tract model were obtained from MRI, they were then used to construct 2D and 3D vocal tract shapes. In this paper 3D vocal tract shapes were constructed by spatially concatenating and interpolating sectional MRI images. 2D vocal tract shapes were constructed and analyzed automatically into a digital filter model. Following this speech sounds corresponding to the model were then synthesized from the filter. All procedures in this study were using MATLAB.

  • PDF

신경망과 퍼지논리를 이용한 음소인식에 관한 연구 (A Study on Phoneme Recognition using Neural Networks and Fuzzy logic)

  • 한정현;최두일
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1998년도 하계학술대회 논문집 G
    • /
    • pp.2265-2267
    • /
    • 1998
  • This paper deals with study of Fast Speaker Adaptation Type Speech Recognition, and to analyze speech signal efficiently in time domain and time-frequency domain, utilizes SCONN[1] with Speech Signal Process suffices for Fast Speaker Adaptation Type Speech Recognition, and examined Speech Recognition to investigate adaptation of system, which has speech data input after speaker dependent recognition test.

  • PDF