• 제목/요약/키워드: silence detection algorithm

검색결과 5건 처리시간 0.018초

퍼셉트론 신경회로망을 사용한 유성음, 무성음, 묵음 구간의 검출 알고리즘 (Voiced-Unvoiced-Silence Detection Algorithm using Perceptron Neural Network)

  • 최재승
    • 한국전자통신학회논문지
    • /
    • 제6권2호
    • /
    • pp.237-242
    • /
    • 2011
  • 본 논문에서는 다층 퍼셉트론 신경회로망을 사용하여 각 프레임에서의 유성음, 무성음, 그리고 묵음 구간을 검출하는 구간검출 알고리즘을 제안한다. 다층 퍼셉트론 신경회로망의 입력으로는 고속 푸리에변환에 의한 전력스펙트럼 및 고속 푸리에변환 계수가 사용되어 네트워크가 학습된다. 본 실험에서는 원 음성에 백색잡음이 중첩된 음성을 신경회로망에 입력함으로서 각 프레임에서의 유성음, 무성음, 묵음 구간의 검출성능 결과를 나타낸다. 본 실험에서는 신경회로망의 학습 데이터 및 평가 데이터가 다를 경우에도 이러한 음성 및 백색잡음에 대하여 92% 이상의 검출율을 구할 수 있었다.

안정적인 화상회의 시스템을 위한 알고리즘 (An Algorithm for Stable Video Conference System)

  • 이문구
    • 전자공학회논문지CI
    • /
    • 제42권2호
    • /
    • pp.11-20
    • /
    • 2005
  • 기존의 화상회의 시스템은 화상회의 참석자 수가 n으로 증가함에 따라 대역폭과 메모리가 n^2 요구된다. 그리고 또한, 음성데이터의 전송도 참석자 수가 증가하면 그에 따른 트래픽 증가와 참석자의 발언권에 대한 문제를 갖는다. 본 논문에서는 화상 데이터를 위한 서버 측 버퍼링 기법과 발언권자의 증가에 따른 트래픽 증가 등의 문제를 해결하기위한 침묵탐지기법을 이용한 원격화상회의 알고리즘을 제안한다. 화상 버퍼링 알고리즘은 서버에서 다른 클라이언트로 브로드 캐스팅하는 기법이 아니라, 클라이언트로부터 압축된 비디오데이터를 할당된 버퍼에 전송 받는 서버측 버퍼링 기법과 클라이언트에서 다른 참석자들의 비디오데이터를 자신의 대역폭과 네트워크전송속도에 맞게 얻어가는 클라이언트 인덱스처리방법을 이용한 알고리즘이다. 침묵탐지기법을 이용한 음성전송 알고리즘은 다수의 참석자 중에서 말하지 않는 것으로 탐지된 음성데이터는 서버로 전송하지 않도록 하는 방법이며 채널관리 알고리즘은 우선권이 있는 참석자에게 발언권을 할당하는 방법이다. 제안한 알고리즘을 이용한 원격 화상회의 시스템은 참석자의 수와 관계없이 제한된 메모리와 대역폭 그리고 네트워크전송속도에서 20프레임 이상, 평균 30ms의 안정적인 화상데이터와 음성데이터전송이 이루어졌다.

잡음 환경에서의 전송율 감소를 위한 G.723.1 VAD 성능개선에 관한 연구 (The Research of Reducing the Fixed Codebook Search Time of G.723.1 MP-MLQ)

  • 김정진;박영호;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 하계종합학술대회 논문집(4)
    • /
    • pp.98-101
    • /
    • 2000
  • On CELP type Vocoders G.723.1 6.3kbps/5.3kbps Dual Rate Speech Codec, which is developed for Internet Phone and videoconferencing, uses VAD(Voice Activity Detection)/CNG (Comfort Noise Generator) in order to reduce the bit rate in a silence period. In order to reduce the bit rate effectively in this paper, we first set the boundary condition of the energy threshold to prevent the consumption of unnecessary processing time, and use three decision rules to detect an active frame by energy, pitch gain and LSP distance. To evaluate the performance of the proposed algorithm we use silence-inserted speech data with 0, 5, 10, 20dB of SNR. As a result when SNR is over 5dB, the bit rate is reduced up to about 40% without speech degradation and the processing time is additionally decreased.

  • PDF

음성의 묵음구간 검출을 통한 DTW의 성능개선에 관한 연구 (A Study on the Improvement of DTW with Speech Silence Detection)

  • 김종국;조왕래;배명진
    • 음성과학
    • /
    • 제10권4호
    • /
    • pp.117-124
    • /
    • 2003
  • Speaker recognition is the technology that confirms the identification of speaker by using the characteristic of speech. Such technique is classified into speaker identification and speaker verification: The first method discriminates the speaker from the preregistered group and recognize the word, the second verifies the speaker who claims the identification. This method that extracts the information of speaker from the speech and confirms the individual identification becomes one of the most efficient technology as the service via telephone network is popularized. Some problems, however, must be solved for the real application as follows; The first thing is concerning that the safe method is necessary to reject the imposter because the recognition is not performed for the only preregistered customer. The second thing is about the fact that the characteristic of speech is changed as time goes by, So this fact causes the severe degradation of recognition rate and the inconvenience of users as the number of times to utter the text increases. The last thing is relating to the fact that the common characteristic among speakers causes the wrong recognition result. The silence parts being included the center of speech cause that identification rate is decreased. In this paper, to make improvement, We proposed identification rate can be improved by removing silence part before processing identification algorithm. The methods detecting speech area are zero crossing rate, energy of signal detect end point and starting point of the speech and process DTW algorithm by using two methods in this paper. As a result, the proposed method is obtained about 3% of improved recognition rate compare with the conventional methods.

  • PDF

Impact of Voice Activity Detection on Channel Allocation in Cellular Networks

  • Limsaksri, Wichan;Thipchaksurat, Sakchai;Varakulsiripunth, Ruttikorn
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.1067-1071
    • /
    • 2004
  • In this paper, the performance enhancement algorithm of channel allocation for voice and data transmission in cellular networks is proposed. The voice activity detection has been applied to dynamic channel allocation procedure to detect and separate the silence and speech among conversation periods. Hence a data user can use the silent period of an active voice channel to transmit its information. To control the selecting of channel allocation policies, the information of number of data in transmission waiting queue has been determined in order to accept the performance measurement. In the simulation results, the improvement of the performance shows via the quality of services, which are an average delay in queue, a blocking probability, and an impact of the proposed scheme is presented in the system.

  • PDF