• 제목/요약/키워드: speech signal processing

검색결과 331건 처리시간 0.03초

Investigating the Effects of Hearing Loss and Hearing Aid Digital Delay on Sound-Induced Flash Illusion

  • Moradi, Vahid;Kheirkhah, Kiana;Farahani, Saeid;Kavianpour, Iman
    • Journal of Audiology & Otology
    • /
    • 제24권4호
    • /
    • pp.174-179
    • /
    • 2020
  • Background and Objectives: The integration of auditory-visual speech information improves speech perception; however, if the auditory system input is disrupted due to hearing loss, auditory and visual inputs cannot be fully integrated. Additionally, temporal coincidence of auditory and visual input is a significantly important factor in integrating the input of these two senses. Time delayed acoustic pathway caused by the signal passing through digital signal processing. Therefore, this study aimed to investigate the effects of hearing loss and hearing aid digital delay circuit on sound-induced flash illusion. Subjects and Methods: A total of 13 adults with normal hearing, 13 with mild to moderate hearing loss, and 13 with moderate to severe hearing loss were enrolled in this study. Subsequently, the sound-induced flash illusion test was conducted, and the results were analyzed. Results: The results showed that hearing aid digital delay and hearing loss had no detrimental effect on sound-induced flash illusion. Conclusions: Transmission velocity and neural transduction rate of the auditory inputs decreased in patients with hearing loss. Hence, the integrating auditory and visual sensory cannot be combined completely. Although the transmission rate of the auditory sense input was approximately normal when the hearing aid was prescribed. Thus, it can be concluded that the processing delay in the hearing aid circuit is insufficient to disrupt the integration of auditory and visual information.

Central Auditory Processing Tests as Diagnostic Tools for the Early Identification of Elderly Individuals with Mild Cognitive Impairment

  • Jalaei, Bahram;Valadbeigi, Ayub;Panahi, Rasool;Nahrani, Morteza Hamidi;Arefi, Hossein Namvar;Zia, Maryam;Ranjbar, Nastaran
    • Journal of Audiology & Otology
    • /
    • 제23권2호
    • /
    • pp.83-88
    • /
    • 2019
  • Background and Objectives: Mild cognitive impairment (MCI) is a disorder that usually occurs in the elderly, leading to dementia in some progressive cases. The purpose of this study is to examine the utility of central auditory processing tests as early diagnostic tools for identifying the elderly with MCI. Subjects and Methods: This study was conducted on 20 elderly patients with MCI and 20 healthy matched peers. The speech perception ability in a quiet environment and in the presence of background noise and also temporal resolution were assessed by using Speech Perception in Noise (SPIN) and Gap in Noise (GIN) tests, respectively. Results: The results indicated that the ability to understand speech in a quiet environment did not differ significantly between the two groups. However, SPIN at the three signal-to-noise ratios and the temporal resolution scores were significantly different between the two groups (p<0.001). Conclusions: Individuals with MCI appear to have poorer speech comprehension in noise and a lower temporal resolution than those of the same age, but without cognitive defects. Considering the utility of these tests in identifying cognitive problems, we propose that since the GIN test seems to be less influenced by intervening factors, this test can therefore, be a useful tool for the early screening of elderly people with cognitive problems.

Central Auditory Processing Tests as Diagnostic Tools for the Early Identification of Elderly Individuals with Mild Cognitive Impairment

  • Jalaei, Bahram;Valadbeigi, Ayub;Panahi, Rasool;Nahrani, Morteza Hamidi;Arefi, Hossein Namvar;Zia, Maryam;Ranjbar, Nastaran
    • 대한청각학회지
    • /
    • 제23권2호
    • /
    • pp.83-88
    • /
    • 2019
  • Background and Objectives: Mild cognitive impairment (MCI) is a disorder that usually occurs in the elderly, leading to dementia in some progressive cases. The purpose of this study is to examine the utility of central auditory processing tests as early diagnostic tools for identifying the elderly with MCI. Subjects and Methods: This study was conducted on 20 elderly patients with MCI and 20 healthy matched peers. The speech perception ability in a quiet environment and in the presence of background noise and also temporal resolution were assessed by using Speech Perception in Noise (SPIN) and Gap in Noise (GIN) tests, respectively. Results: The results indicated that the ability to understand speech in a quiet environment did not differ significantly between the two groups. However, SPIN at the three signal-to-noise ratios and the temporal resolution scores were significantly different between the two groups (p<0.001). Conclusions: Individuals with MCI appear to have poorer speech comprehension in noise and a lower temporal resolution than those of the same age, but without cognitive defects. Considering the utility of these tests in identifying cognitive problems, we propose that since the GIN test seems to be less influenced by intervening factors, this test can therefore, be a useful tool for the early screening of elderly people with cognitive problems.

연속음성신호에서 피치와 TSIUVC 추출에 관한 연구 (A Study on Extraction of Pitch and TSIUVC in Continuous Speech)

  • 이시우
    • 인터넷정보학회논문지
    • /
    • 제6권4호
    • /
    • pp.85-92
    • /
    • 2005
  • 본 연구에서는 연속음성에서 개별 피치펄스와 TSIUVC를 추출하는 새로운 방법을 제안하고자 한다. TSIUVC 탐색과 추출은 FIR-STREAK 필터를 사용한 개별 피치펄스와 영교차율을 사용한다. 실험결과, 개별 피치펄스의 추출률은 남자음성에서 $96{\%}$, 여자음성에서 $85{\%}$를 얻을 수 있었다. 아울러, TSIUVC 추출률은 남자 음성의 경우 $88{\%}$에서 $94.9{\%}$, 여자 음성의 경우는 $84.8{\%}$에서 $94.9{\%}$의 결과를 얻었다. 제안한 방법은 음성분석, 음성합성, 새로운 Voiced/Silence/TSIUVC의 음성부호화 방식에 활용할 수 있을 것으로 기대된다.

  • PDF

내용기반 오디오 장르 분류를 위한 신호 처리 연구 (A Study on the Signal Processing for Content-Based Audio Genre Classification)

  • 윤원중;이강규;박규식
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.271-278
    • /
    • 2004
  • 본 논문에서는 디지털 신호처리를 이용하여 Classic, Hiphop, Jazz, Rock, Speech 등 5개의 오디오 장르를 자동적으로 분류하는 내용기반 오디오 장르 분류기를 제안하였다. 20초 분량의 질의 오디오로부터 23ms 크기의 Hamming window를 이동시켜 가며 Spectral Centroid, Rolloff, Flux 등 STFT 기반의 특징 계수들과 MFCC, LPC 등의 계수들을 구하여 총 54차에 해당하는 특징 벡터 열을 추출하였으며 분류 알고리즘으로는 k-NN, Gaussian, GMM 분류기를 사용하였다. 최적의 특징 벡터를 선별하는 알고리즘으로 총 54차의 특징벡터 중 가장 성능이 좋은 특징 계수들을 찾아 순차적으로 재배치하는 SFS(Sequential Forward Selection)방법을 사용하였고, 이를 이용하여 최적화 된 10차의 특징 벡터만을 선정해서 오디오 장르 분류에 사용하였다. SFS를 적용한 실험 결과 약 90% 가까운 분류 성공률을 보이고 있어 기존 연구에 비하여 약 10%∼20% 정도의 성능 향상을 꾀 할 수 있었다. 한편 실제 사용자들이 오디오 자동 장르 분류 시스템을 사용할 때 일어날 수 있는 상황을 가정하여 임의 구간에서 질의 데이터를 추출하여 실험을 수행하였으며 실험 결과 오디오 파일의 맨 앞과 맨 뒤 등 worst-case 질의를 제외하고는 약 80%대의 분류 성공률을 얻을 수 있었다.

Robust Voice Activity Detection Using the Spectral Peaks of Vowel Sounds

  • Yoo, In-Chul;Yook, Dong-Suk
    • ETRI Journal
    • /
    • 제31권4호
    • /
    • pp.451-453
    • /
    • 2009
  • This letter proposes the use of vowel sound detection for voice activity detection. Vowels have distinctive spectral peaks. These are likely to remain higher than their surroundings even after severe corruption. Therefore, by developing a method of detecting the spectral peaks of vowel sounds in corrupted signals, voice activity can be detected as well even in low signal-to-noise ratio (SNR) conditions. Experimental results indicate that the proposed algorithm performs reliably under various noise and low SNR conditions. This method is suitable for mobile environments where the characteristics of noise may not be known in advance.

신호 준공간 모델에 기반한 통계적 음성 검출기 (Statistical Voice Activity Defector Based on Signal Subspace Model)

  • 류광춘;김동국
    • 한국음향학회지
    • /
    • 제27권7호
    • /
    • pp.372-378
    • /
    • 2008
  • 음성 검출기 (VAD, Voice Activity Detector)는 이동 통신이나 음성신호처리 등에 매우 중요한 기법으로 사용된다. 일반적인 음성 검출방식은 이산 푸리에 변환 (DFT, Discrete Fourier Transform)영역에서 통계적인 모델을 기반으로 하여 우도비검정 (LRT, Likelihood Ratio Test)을 하게 된다. 그리고 이 값을 임계값과 비교하며 음성인지 아닌지 판단하게 된다. 본 논문에서는 신호 준공간 (Signal Subspace)에 기반한 새로운 통계적 음성 검출 기법을 제안하다. 확률적인 주성분 분석 (PPCA, Probabilistic Principal Component Analysis)은 신호 준공간 방법에서 잡음신호에 대한 확률적인 모델을 얻기 위해 사용된다. 제안된 기법은 신호 준공간 영역에서 우도비검정에 기반을 두는 결정규칙을 적용하였다. 음성 검출 실험 결과는 신호 준공간 모델에 근거한 음성 검출기 기법이 주파수 영역에 기반한 가우시안 (Gaussian) 음성 검출기 보다 향상된 검출 결과를 보여준다.

잡음환경 음성명료도 향상을 위한 이진 마스크 추정 후처리 알고리즘 (A Post-processing for Binary Mask Estimation Toward Improving Speech Intelligibility in Noise)

  • 김기백
    • 방송공학회논문지
    • /
    • 제18권2호
    • /
    • pp.311-318
    • /
    • 2013
  • 시간-주파수 영역에서의 이진 마스킹을 이용하여 잡음환경에서 잡음을 제거하여 음질을 향상하는 방법에 대해 논하고자 한다. 잡음이 섞여 있는 음성신호를 시간-주파수 영역으로 분해하여, 상대적으로 잡음이 많이 섞여 있는 시간-주파수 영역 (시간-주파수 유닛의 신호 대 잡음 비 (Signal-to-Noise Ratio: SNR)가 낮은 영역)의 신호에 마스크 "0"을 할당하여 제거함으로써 음성명료도를 향상시킬 수 있다. 이전의 연구에서는 가우시안 혼합 모델을 이용하여 마스크 "0"과 마스크 "1"을 분류하는 방법을 사용하였다. 각 주파수 밴드별로 수집된 데이터를 이용하여 가우시안 혼합 모델을 학습하고 테스트 데이터가 들어오면 현재의 시간-주파수 마스크가 "0"인지 "1"인지 판별하게 된다. 본 논문에서는 이러한 알고리즘에 주파수 영역에서의 종속성을 고려하여 추정된 마스크에 대해 후처리를 수행하는 알고리즘을 제안한다. 주파수 영역에서의 종속성에 관한 후처리는 비터비 (Viterbi) 알고리즘을 이용하며, 제안된 후처리 알고리즘을 적용하여 이진 마스크 추정 오차를 줄여 음성 명료도 향상을 기대할 수 있다.

DSP 프로세서를 이용한 실시간 ANC 시스템 구현에 관한 연구 (Implementation of Real-Time Adaptive Noise Cancellation System Using DSP Processor)

  • 이영일;최홍섭
    • 대한음성학회지:말소리
    • /
    • 제52호
    • /
    • pp.121-132
    • /
    • 2004
  • This paper is aiming at real-time implementation of adaptive noise cancellation system using DSP processor. ACHARF algorithm, which guarantees stability and fast convergence by adaptive compensator, is used on this DSP system. For the experiments, TLV320AIC23 stereo CODEC of TI Inc. is used with TMS320C6413 DSP processor. Signals of primary input and reference input are obtained by two microphones. The primary input is the voice plus noise signal and the reference input is white noise or real noise. The experimental results show that ANC system using DSP processor with ACHARF is verified to be an effective speech enhancement method for various speech processing units.

  • PDF

실시간 음성타자 시스템 구현 (Development of Realtime Phonetic Typewriter)

  • 조우연;최두일
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1999년도 추계학술대회 논문집 학회본부 B
    • /
    • pp.727-729
    • /
    • 1999
  • We have developed a realtime phonetic typewriter implemented on IBM PC with sound card based on Windows 95. In this system, analyzing of speech signal, learning of neural network, labeling of output neurons and visualizing of recognition results are performed on realtime. The developing environment for speech processing is established by adding various functions, such as editing, saving, loading of speech data and 3-D or gray level displaying of spectrogram. Recognition experimental using Korean phone had a 71.42% for 13 basic consonant and 90.01% for 7 basic vowel accuracy.

  • PDF