• 제목/요약/키워드: continuous speech

검색결과 314건 처리시간 0.025초

Noise Elimination Using Improved MFCC and Gaussian Noise Deviation Estimation

  • Sang-Yeob, Oh
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권1호
    • /
    • pp.87-92
    • /
    • 2023
  • 음성 인식 시스템의 지속적인 발전으로 음성에 대한 인식율은 급속도로 발전되었지만 사용 환경에서의 잡음과 여러 음성이 혼합되어 발생하는 잡음으로 정확한 음성을 인식할 수 없는 단점을 가진다. 환경 잡음이 있는 음성을 처리할 때 음성 인식률을 높이기 위해서는 잡음을 제거해야 하며, 기존의 HMM, CHMM, GMM, 그리고 AI 모델이 적용된 DNN에서도 예상치 못한 잡음이 발생하거나 기본적으로 디지털 신호에 양자화 잡음이 추가되면 소스 신호가 변경되거나 손상되어 인식률이 저하된다. 이를 해결하기 위해 각 음성 프레임에 대한 음성 신호의 특징을 효율적으로 추출하기 위해 MFCC를 개선하여 처리하였으며, 음성 신호에 대한 잡음을 제거하기 위해 가우시안 모델을 적용한 잡음 편차 추정을 이용한 잡음 제거 방법을 개선하여 적용하였다. 제안된 모델에 대한 성능 평가는 음성에 대한 정확성 평가를 위해 교차 상관 계수를 사용하여 처리하였으며, 제안하는 방법의 인식률을 평가한 결과 이들에 대한 상관 계수에 대한 평균값 차이는 0.53 dB 개선된 것을 확인하였다.

음성인식 기능을 가진 주소입력 시스템의 개발과 평가 (Development and Evaluation of an Address Input System Employing Speech Recognition)

  • 김득수;황철준;정현열
    • 한국음향학회지
    • /
    • 제18권2호
    • /
    • pp.3-10
    • /
    • 1999
  • 본 논문은 음성인식 기술을 사용자 인터페이스로 하여 국내 행정 단위 시(도), 구(군), 동(읍,면), 번지로 구성되는 주소를 인식의 대상으로 하는 주소 입력 시스템 구축에 대하여 기술한다. 본 시스템은 사운드카드가 장착된 개인용 컴퓨터상의 윈도우 95환경에서 동작하며, 음성인식부는 인식의 기본단위로 유사음소단위(Phoneme Like Units: PLUs)를 이용하여 CHMM(Continuous Hidden Markov Model) 음소모델을 작성하고, 주소인식을 위해서 주소명의 특징을 고려하여 이에 적합한 유한상태 오토마타(Finite State Automata)를 구성하여 OPDP(One Pass Dynamic Programming)법으로 인식을 수행하였다. 실용성있는 시스템 성능을 얻기 위하여 마이크, 환경잡음 및 화자의 변화 등의 사용환경변화에 대해 최대사후확률추정법(Maximum A Posteriori Probability Estimation: MAP)으로 적응화시켜 인식률의 향상을 도모하였고, 개인용 컴퓨터상에서의 인식속도를 향상시키기 위하여 가변프루닝 문턱치를 이용한 고속화 기법을 제안하였다. 평가결과, 화자적응화 후의 성인 남자 3인에 대한 100개의 연결주소명의 연결단어 인식률은 평균 96.0%이상, 인식속도는 발성완료후 약 2초 이내로 인식이 완료되어 본 시스템의 유효성을 확인할 수 있었다.

  • PDF

화자 독립 음성 인식을 위한 반연속 HMM과 RBF의 혼합 구조에 관한 연구 (A Study on Hybrid Structure of Semi-Continuous HMM and RBF for Speaker Independent Speech Recognition)

  • 문연주;전선도;강철호
    • 한국음향학회지
    • /
    • 제18권8호
    • /
    • pp.94-99
    • /
    • 1999
  • 성 인식 알고리즘에서 높은 인식률을 보이는 방법은 hidden Markov mode1(HMM)과 신경망의 혼합 형태이다. 이것은 통계적인 모델과 신경망 모델의 장점을 혼용하는 방법이다. 본 연구에서 제안하는 인식 알고리듬은 반연속 HMM과 radial basis function(RBF)의 새로운 형태의 혼합 구조로써 반연속 HMM 파라미터 중에서 관측 확률을 결정하는 가중치(혼합확률밀도함수계수)확률을 Baum-Welch 추정 이후 RBF로로써 재 추정하는 인식 모델을 제안한다. 제안한 방법은 RBF의 은닉층(hidden layer)의 기본 함수(basis function)와 반연속 HMM의 확률 밀도 함수의 유사함을 고려한 것으로 RBF의 학습 및 추정된 가중치로써 보다 음성 파형을 분별력 있게 구분하고자 하는 것이다. 모의 실험 결과는 반연속 HM만을 사용 할 때 보다 제안한 반연속 HMM/RBF 혼합 구조가 비 학습 화자에 대한 인식률을 개선함으로써 단순히 반연속 HMM만을 사용하는 것 보다 훨씬 분별력이 높은 방법임을 보여준다.

  • PDF

천이 제한 HMM을 이용한 잡음 환경에서의 음성 인식 (Speech Recognition in Noisy environment using Transition Constrained HMM)

  • 김원구;신원호;윤대희
    • 한국음향학회지
    • /
    • 제15권2호
    • /
    • pp.85-89
    • /
    • 1996
  • 본 논문에서는 상태간의 천이가 특정한 시간 구간에서만 발생하도록 하는 천이 제한(transition constrained) HMM를 제안하고 잡음 환경에서의 성능을 평가하였다. 천이 제한 HMM는 상태 지속을 제한하고 음성 신호의 시간적 변화를 단순하고 효과적으로 표현할 수 있다. 제안된 천이 제한 HMM은 기존 HMM 보다 성능이 우수할 뿐만아니라 계산량도 매우 감소한다. 제안된 방법의 성능을 평가하기 위하여 반연속(semi-continuous) HMM을 이용하여 잡음이 SNR 20, 10, 0 dB로 첨가된 음성에 화자독립 단독음 인식실험을 수행하였다. 실험 결과에서 제안된 방법은 잡음에 강인한 특성을 나타내었다. 두 가지 종류의 잡음을 SNR 10dB로 첨가하여 사용한 경우, 천이제한 HMM의 인식률은 기존 HMM의 단어 인식률 81.08%와 75.36%에 비하여 각각 7.31%와 10.35% 향상되었다.

  • PDF

신경 회로망을 이용한 연속 음성에서의 keyword spotting 인식 방식에 관한 연구 (A study on the Method of the Keyword Spotting Recognition in the Continuous speech using Neural Network)

  • 양진우;김순협
    • 한국음향학회지
    • /
    • 제15권4호
    • /
    • pp.43-49
    • /
    • 1996
  • 본 논문은 keyword spotting 기술을 이용한 247개의 DDD 지역명을 인식 대상으로 하여 화자 독립의 한국어 연속 음성인식을 위한 시스템을 제안하였다. 적용된 인식 알고리즘은 음성에서 시간축의 변화와 스펙트럼의 왜곡을 흡수할 수 있는 모델로 DP와 MLP로 구성된 동적 프로그래밍 신경회로망(DPNN)을 사용하였다. 이와 같은 실험을 위해 단어 모델을 만들고 이에 대한 단어 모델을 keyword 모델과 non-keyword 모델로 구분하여 성능을 향상시킬 수 있도록 하였다. 또한 잘못된 결과를 출력시키지 않기 위해서 후처리 과정을 두고 실험을 하였다. 실험결과, 단독어에 대한 화자 종속 실험은 93.45%의 결과를 보였고, 단독어에 대한 화자 독립 실험은 84.05%의 실험결과를 보였으며, 가장 중요한 간단한 대화체 문장의 keyword spotting 실험은 화자 종속으로 77.34%의 결과를 보였으며, 화자 독립 실험은 70.63%의 결과를 얻었다.

  • PDF

향상된 MDL 기법에 의한 음향모델의 최적화 연구 (A Study on Improved MDL Technique for Optimization of Acoustic Model)

  • 조훈영;김상훈
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.56-61
    • /
    • 2010
  • 본 논문에서는 HMM 기반의 연속음성인식에서 음향모델의 최적화 기법을 논한다. 대부분의 음성인식 시스템에서 HMM 상태별로 동일한 개수의 가우시안 성분 (mixture component)을 사용해 왔다. 그러나, 음향 모델링에 사용되는 데이터 샘플의 개수는 HMM상태별로 다르므로 이에 따른 최적화를 수행할 경우 모델 파라미터의 개수를 효과적으로 줄일 수 있을 뿐 아니라, 디코딩 단계에서 음성인식기의 속도 및 인식 성능 개선이 기대된다. 본 연구에서 제안한 방법은 기존에 알려진 MDL (minimum description length) 기반의 음향모델 최적화 방법에서 가우시안 성분들의 통합과정에 가우시안 성분의 가중치 정보 (mixture weight)를 반영하도록 개선하였다. 인식 실험 결과, 제안한 방법은 가우시안 성분의 가중치를 반영하지 않는 기존 방법에 비해 향상된 최적화 성능을 보임을 확인할 수 있었다.

음성망을 이용한 한국어 연속 숫자음 인식에 관한 연구 (Study on the Recognition of Spoken Korean Continuous Digits Using Phone Network)

  • 이강성;이형준;변용규;김순협
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1988년도 전기.전자공학 학술대회 논문집
    • /
    • pp.624-627
    • /
    • 1988
  • This paper describes the implementation of recognition of speaker - dependent Korean spoken continuous digits. The recognition system can be divided into two parts, acoustic - phonetic processor and lexical decoder. Acoustic - phonetic processor calculates the feature vectors from input speech signal and the performs frame labelling and phone labelling. Frame labelling is performed by Bayesian classification method and phone labelling is performed using labelled frame and posteriori probability. The lexical decoder accepts segments (phones) from acoustic - phonetic processor and decodes its lexical structure through phone network which is constructed from phonetic representation of ten digits. The experiment carried out with two sets of 4continuous digits, each set is composed of 35 patterns. An evaluation of the system yielded a pattern accuracy of about 80 percent resulting from a word accuracy of about 95 percent.

  • PDF

전기 Glottography(EGG)를 이용한 후두구음역학적 특성 (The Role of the Electroglottography on the Laryngeal Articulation of Speech)

  • 홍기환;박병암;양윤수;서수영;김현기
    • 대한후두음성언어의학회지
    • /
    • 제8권1호
    • /
    • pp.18-26
    • /
    • 1997
  • There are two types of phonetic study, acoustic and physiologic, for differentiating the three manner categories of Korean stop consonants. On the physiologic studies, there are endoscopic, electromyographic(EMG), electroglottographic(EGG) and aerodynamic studies. In this study, I tried to investigate general features of Korean stops using EGG study for the open quotient of vocal fold and baseline shift during speech, and aerodynamic characteristics for e subglottal air pressure, air flow and glottal resistance at consonants. On the aerodynamic study, the glottalized and aspirated stops may be characterized by e increasing subglottal pressure comparing with lenis stop at consonants. The airflow is largest in the aspirated stops followed by lenis stops and glottalized. The glottal airway resistance (GAR) showed highest in the glottalized followed by the lenis, but lowest in e aspirated during e production of consonants, and showed highest in e aspirated, but low in the glottalized and lenis during the production of vowel. The glottal resistance at consonant showed significant difference among consonants and significant interaction between subject and types of consonant. The glottal resistance at vowel showed significant difference among consonants, and e interaction occured between subject and types of consonant. The electroglottography(EGG) has been used for investigating e functioning of e vocal folds during its vibration. The EGG should be related to the patterns of the vocal fold vibration during phonation in characterizing the temporal patterns of each vibratory cycle. The purpose of this study is to investigate the dynamic change of EGG waveforms during continuous speech. The dynamic changes of EGG waveforms fir the three-way distinction of Korean stops were characterized that the aspirated stop appears to be characterized by largest open quotient and smallest glottal contact area of the vocal folds in e initial portion of vocal fold vibration ; the lenis stop by moderate open quotient and glottal contact area ; but the glottalized stop by smallest open quotient and largest glottal contact area. There may be close relationship between the OQ(open quotient) in the initial voice onset and the glottal width at the time of consonant production, the larger glottal width just before vocal fold vibration results in the smaller OQ of the vocal fold vibration in the initial voice onset. The EGG changes of baseline shift during continuous speech production were characterized by the different patterns for the three types of Korean consonants. The small and less stiffness change of baseline shift was found for the lenis and the glottalized, and the largest and stiffest change was found for the aspirated. On the baseline shift for the initial voice onset, they showed so similar patterns with for the consonant production, larger changed in the aspirated. for the lenis and the glottalized during the initial voice onset, three subjects showed individual difference each other. I suggest at s characteristics were strongly related with articulatory activity of vocal tract for the production of consonant, especially for the aspirated stop. The suspecting factors to affect EGG waveforms are glottal width, vertical laryngeal movement and the intrapharyngeal pressure to neighboring tissue during connected spech. So the EGG may be an useful method to describe laryngeal activity to classify pulsing conditions of the larynx during speech production, and EGG research can be controls for monitoring the vocal tract articulation, although above factors to affect EGG would have played such a potentially role on vocal fold vibratory behavior obtained using consonant production.

  • PDF

프롬프트(PROMPT) 치료기법에 관한 문헌 분석(1984-2020년) (Literature Analysis on PROMPT Treatment (1984-2020))

  • 김화수;이리우;이지우
    • 디지털융복합연구
    • /
    • 제19권2호
    • /
    • pp.447-456
    • /
    • 2021
  • 본 연구는 1984년부터 2020년까지 국내·외 프롬프트(Prompts for Restructuring Oral Muscular Phonetic Targets, PROMPT) 관련 연구를 분석하여 우리말에 적합한 프롬프트 프로그램 개발에 필요한 기초자료를 마련하고자 한다. 연구 대상은 1984년부터 2020년까지의 프롬프트 치료기법과 관련된 국외 연구 27편과 국내 연구 1편을 분석하였다. 분석한 결과, 프롬프트 연구가 처음 시작된 1984년부터 지속적으로 연구가 이루어지고 있으며, 연구방법은 중재연구가 16편으로, 말소리장애가 가장 많았으며 대상 연령은 3-5세로 유아기를 대상으로 가장 많이 실시되었다. 중재프로그램은 16회기가 가장 많았으며, 중재프로그램 활동은 무발화 자폐스펙트럼장애 대상을 제외하고 운동구어계층(Motor Speech Hierarchy, MSH)을 토대로 이루어졌다. 종속변인을 분석한 결과, '구어산출'이 가장 많았으며, '말 운동제어', '조음', '구어명료도' 순으로 높게 나타났다. 지금까지의 연구를 종합해보면 국외에서는 구어산출에 직접적인 도움을 주는 운동 구어 치료법인 프롬프트가 효과적으로 쓰이고 있다. 그러나 국내에서는 현재까지 우리말에 알맞은 프롬프트 프로그램 개발 및 연구가 부족한 실정이다. 그러므로 본 연구를 통해서 국내 말·언어장애 아동에게 프롬프트를 적용하여 구어산출 및 조음에 도움을 줄 수 있는 우리말 프롬프트 프로그램 개발이 필요하다는 것을 시사한다고 볼 수 있다.

지속성 양압 치료법을 이용한 구개인두기능부전증의 치료 (Post-operative Continuous Positive Airway Pressure (CPAP) Therapy in Velopharyngeal Insufficiency Patient)

  • 김규남;고경석;정승은;하승희;박미경
    • 대한두개안면성형외과학회지
    • /
    • 제11권2호
    • /
    • pp.73-76
    • /
    • 2010
  • Purpose: There are several surgical methods for correcting a velopharyngeal insufficiency (VPI) but in some cases, it is not possible to achieve complete recovery of the velopharyngeal function. This paper introduces a new therapy for treating hypernasality without further surgery using continuous positive airway pressure (CPAP). Methods: CPAP therapy was applied to seven VPI patients for eight weeks from April of 2007 to September of 2009. All patients underwent palatoplasty for the cleft palate and six patients underwent palatal lengthening for VPI before CPAP therapy. A speech pathologist performed an auditory perceptual evaluation to evaluate the improvement in hypernasality after 8-week CPAP therapy. Results: Six patients showed an improvement in hypernasality after CPAP therapy according to the auditory perceptual evaluation. One patient with severe hypernasality responded to the early part of therapy but the hypernasality did not improve after therapy. Conclusion: CPAP therapy might be effective in reducing the hypernasality in patients with VPI by providing resistance training to strengthen the velopharyngeal closure muscles. In particular, CPAP therapy could be more effective for patients who show mild to moderate hypernasality after surgery.