• 제목/요약/키워드: Speech improvement

검색결과 610건 처리시간 0.023초

RVM을 이용한 음성인식기의 구현 (Implementation of Speech Recognizer using Relevance Vector Machine)

  • 김창근;고시영;허강인;이광석
    • 한국정보통신학회논문지
    • /
    • 제11권8호
    • /
    • pp.1596-1603
    • /
    • 2007
  • 본 논문에서는 음성인식 시스템을 구현함에 있어 중요한 특징 파라미터와 학습, 인식 알고리즘의 선택을 위한 제안을 하기 위하여 각각 세 가지의 방법을 조합하여 인식 실험을 수행하고 검토하였다. 두 종류의 실험을 통하여 하드웨어 장치로 구현할 경우 보다 효과적인 음성 인식 시스템을 제안한다. 첫 번째로는 특징 파라미터의 성능을 평가하기 위하여 기존의 MFCC와 MFCC를 PCA와 ICA를 이용하여 특징 공간을 변화시킨 새로운 특징 파라미터를 제안하여 총 3종류의 특징파라미터에 대한 인식 실험을 수행하였으며, 두 번째로는 학습데이터 수에 따른 HMM, SVM, RVM의 인식 성능을 실험하였다. 이상의 실험에 의하여 ICA에 의한 특징 파라미터가 특징 공간상에서의 높은 선형 분별성에 의해 MFCC와 비교하여 평균 1.5%의 성능향상을 확인할 수 있었으며 학습데이터의 감소에 따른 인식실험에서는 HMM과 비교하여 RVM에서 최고 3.25%의 성능향상을 확인하였다. 이에 근거하여 TI사의 DSP(TMS320C32)를 사용하여 음성 인식기를 구현하여 실시간으로 실험하여 시뮬레이션과 비교하였다. 이와 같은 결과로서 본 논문에서 제안하는 음성인식시스템을 위한 효과적인 방법은 ICA를 이용한 특징 파라미터를 추출하고 RVM을 이용하여 인식을 수행하는 것이라 판단한다.

Two-Microphone Binary Mask Speech Enhancement in Diffuse and Directional Noise Fields

  • Abdipour, Roohollah;Akbari, Ahmad;Rahmani, Mohsen
    • ETRI Journal
    • /
    • 제36권5호
    • /
    • pp.772-782
    • /
    • 2014
  • Two-microphone binary mask speech enhancement (2mBMSE) has been of particular interest in recent literature and has shown promising results. Current 2mBMSE systems rely on spatial cues of speech and noise sources. Although these cues are helpful for directional noise sources, they lose their efficiency in diffuse noise fields. We propose a new system that is effective in both directional and diffuse noise conditions. The system exploits two features. The first determines whether a given time-frequency (T-F) unit of the input spectrum is dominated by a diffuse or directional source. A diffuse signal is certainly a noise signal, but a directional signal could correspond to a noise or speech source. The second feature discriminates between T-F units dominated by speech or directional noise signals. Speech enhancement is performed using a binary mask, calculated based on the proposed features. In both directional and diffuse noise fields, the proposed system segregates speech T-F units with hit rates above 85%. It outperforms previous solutions in terms of signal-to-noise ratio and perceptual evaluation of speech quality improvement, especially in diffuse noise conditions.

배경잡음을 고려한 4배 가변 압축률을 갖는 ADPCM의 C6000 DSP 실시간 구현 (Implementation of Quad Variable Rates ADPCM Speech CODEC on C6000 DSP considering the Environmental Noise)

  • 김대성;한경호
    • 전력전자학회:학술대회논문집
    • /
    • 전력전자학회 2002년도 전력전자학술대회 논문집
    • /
    • pp.727-729
    • /
    • 2002
  • In this paper, we proposed quad variable rates ADPCM coding method and its implementation on C6000 DSP, which is modified from the standard ADPCM of ITU G.726 for speech quality improvement considering the environmental noise Four coding rates, 16Kbps, 24Kbps, 32Kbps and 40Kbps are used for speech window samples and the rate decision threshold is decided by the environmental noise level. The object of the proposed method is to reduce the coding rate while retaining the speech quality and the speech quality is considerably close to 40Kbps single rate coder with the coding rate close to 16Kbps single rate coder under the environmental noise. The environmental noise level affects the coding rate and the noise level is calculated per every speech window samples. At high noise level, more samples are coded at higher rates to enhance the quality, but at low noise level, only the big speech signals are coded at higher rates and more speech samples are coded at lower coding rates to reduce the coding rates. The influence of the noise on tile speech signal is considerably high for small signals and the small signal has the higher ZCR (zero crossing rate). The method is simulated in PC and to be implemented on C6000 floating point DSP board in real time operations.

  • PDF

잡음환경 하에서의 음성의 SNR 개선 (Improvement of Signal-to-Noise Ratio for Speech under Noisy Environment)

  • 최재승
    • 한국정보통신학회논문지
    • /
    • 제17권7호
    • /
    • pp.1571-1576
    • /
    • 2013
  • 본 논문에서는 잡음 환경 하에서 음성신호에 대한 신호대잡음비(SNR)를 개선하기 위한 알고리즘을 제안한다. 본 논문에서 제안하는 알고리즘은 백색잡음 및 자동차잡음 등과 같은 배경잡음으로부터 음성신호의 SNR을 개선할 목적으로 먼저 저역, 중역, 고역 SNR 대역에서 SNR을 추정한다. 다음으로 본 알고리즘은 각 대역에서 스펙트럼을 강조함으로써 잡음으로 오염된 음성신호 속에서 잡음신호를 차감한다. 백색잡음, 자동차잡음에 의하여 오염된 음성에 대하여 본 논문에서 제안한 알고리즘이 스펙트럼 차감 방법과 비교하여 양호한 신호대잡음비 값을 구하였다. 실험결과로부터 스펙트럼 차감 방법과 비교하여 백색잡음에 대하여 최대 4.2 dB, 자동차잡음에 대하여 최대 3.7 dB의 출력 신호대잡음비가 개선된 것을 확인할 수 있었다.

신경학적 손상에 의한 언어장애인 음성 인식률 개선(H/W, S/W)에 관한 연구 (A Study on Improving Speech Recognition Rate (H/W, S/W) of Speech Impairment by Neurological Injury)

  • 이형근;김순협;양기웅
    • 한국정보통신학회논문지
    • /
    • 제23권11호
    • /
    • pp.1397-1406
    • /
    • 2019
  • 신경학적 손상에 의한 언어장애인/비장애인 간의 일상적인 휴대폰 통화시 신경학적 손상으로 인한 발음의 정확도와 언어장애인의 발음 특징이 결합되어 원활한 의사소통을 저해하는 경우가 많다. 이러한 문제점을 개선하기 위하여 제한하는 방법은 언어장애인 특성에 맞춘 단어의 모호성(out of vocabulary) 개선과, 언어 장애인 구강 특성에 따른 어려운 발성 부분을 인위적으로 보정해주는 유도선이 포함된 MEMS(Micro Electro-mechanical System) Microphone 장치 개선이다. S/W적 개선은 도치기능이 포함된 결정트리이며, 연속어 특성을 감안하여 개선된 matrix-vector rnn 방법을 제시하였다. H/W와 S/W 특성을 감안하여 유사 사전을 만들어 원활한 의사소통을 위한 말명료도 향상에 기여하였다.

가변 윈도우 스펙트럼 분석을 이용한 CELP 부호화기의 음질 향상에 관한 연구 (A Study on a Improvement of the Speech Quality by Spectrum Analysis with Variable Window in CELP Vocoder)

  • 나덕수;민소연;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 하계종합학술대회 논문집(4)
    • /
    • pp.106-109
    • /
    • 2000
  • There have been proposed two types of low bit rate vocoder upto now : One is MBE type using the spectrum modeling and another is CELP type using the hybrid coding method. CELP type vocoder has mainly studied between them. Specially, much of intensity is concentrated in CELP vocoder due to the emergence of Internet Phone and PCS in a domestic. In order to improve the speech quality in CELP vocoder, in this paper, we proposed a new spectrum analysis algorithm with variable window, In CELP vocoder, the spectrum of the synthesised speech signal is distorted because the fixed size windows is used for spectrum analysis. So we have measured the spectral leakage and in order to minimize the spectral leakage have adjusted the window size. Applying this method G.723.1 ACELP, we can get SD(Spectral Distortion) reduction 0.084(dB), residual energy reduction 6.3% and MOS(Mean Opinion Score) improvement 0.1.

  • PDF

부대역 웨이팅 및 비트할당 알고리즘을 수정한 DSBC 음성 부호화기의 성능 개선 (Performance Improvement of DSBC Speech Coder by Subband Weighting and a Modified Bit Allocation Algorithm)

  • 김선영;김재공
    • 한국통신학회논문지
    • /
    • 제15권11호
    • /
    • pp.937-944
    • /
    • 1990
  • DSBC 음성 부호화기의 성능 개선에 관한 두 방법을 제안하였다. 첫째는 계산량이 많은 종래의 비트할당을 수정함으로써 계산량을 줄일 수 있는 방법이고 둘째는 비전송 대역 재생시 백색잡음 주입으로 인한 허상 문제를 제거하기 위한 부대역 웨이팅 방법이다. 시뮬레이션 겨로가 검토된 방법은 음성 출력의 성능 향상에 응용할 수 있음을 나타내었다.

  • PDF

방송목록과 사용자 경험 정보를 이용한 매장 음원 방송 서비스의 개선 (Improvement of Shop Music Broadcasting Services Using Music Lists and User Experience)

  • 강선미;김현득;장문수
    • 음성과학
    • /
    • 제15권4호
    • /
    • pp.121-130
    • /
    • 2008
  • This paper proposes the way of improvement and system build-up for shop music broadcasting services provided by the Internet. Comparing the shop music broadcasting services and personal music broadcasting services, we propose the way of shop music broadcasting services customers prefer to. That is, such a function is provided that a user can control the broadcasting music lists a specialist provides according to the current circumstance of shop. This paper proposes the whole system such a service is possible and verifies the efficiency by experiments.

  • PDF

Efficacy of a Hierarchical Treatment of Aphasic Perseveration (TAP) Program: A Case Study

  • Jeong, Ok-Ran;Lee, Sang-Heun;Cho, Tae-Hwan;Sohn, Jin-Ho;Yeh, Mi-Kyung
    • 음성과학
    • /
    • 제8권1호
    • /
    • pp.115-122
    • /
    • 2001
  • This paper explored the effectiveness of a hierarchical Treatment of Aphasic Perseveration (TAP) program on an aphasic in two regards: decrease in the frequency of perseveration and improvement in naming ability. The subject was a 54-year-old female with Transcortical Sensory (TCS) aphasia following a left ischemic Cerebrovascular Accident (CVA). It was concluded that the hierarchical TAP program was more effective and efficient in terms of decreasing perseveration and increasing correct naming performance. Within the data of the hierarchical TAP program, however, a substantial decrease in the frequency of occurrence of perseverative behaviors did not necessarily result in proportionate improvement of naming ability. The probable causes and reasons were discussed.

  • PDF

가변 윈도우를 이용한 CELP 부호화기의 음질 향상에 관한 연구 (A Study on a Improvement of the Speech Quality with Variable Window in CELP Vocoder)

  • 주상규
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 춘계학술발표논문집 1부
    • /
    • pp.265-268
    • /
    • 2010
  • There have been proposed two types of low bit rate vocoder upto now : One is MBE type using the spectrum modeling and another is CELP type using the hybrid coding method. CELP type vocoder has mainly studied between them. Specially, much of intensity is concentrated in CELP vocoder due to the emergence of Internet Phone and PCS in a domestic. In order to improve the speech quality in CELP vocoder, in this paper, we proposed a new spectrum analysis algorithm with variable window. In CELP vocoder, the spectrum of the synthesised speech signal is distorted because the fixed size windows is used for spectrum analysis. So we have measured the spectral leakage and in order to minimize the spectral leakage have adjusted the window size. Applying this method G.723.1 ACELP, we can get SD(Spectral Distortion) reduction 0.084(dB), residual energy reduction 6.3% and MOS(Mean Opinion Score) improvement 0.1.

  • PDF