• Title/Summary/Keyword: 음성검출

Search Result 726, Processing Time 0.038 seconds

Improvement of VAD Performance using the LSP Variation in the G.723.1 (LSP변화도를 이용한 G-723.1 보코더의 VAD 성능향상에 관한 연구)

  • LEE HeeWon;NA Ducksu;BAE MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.19-22
    • /
    • 2000
  • ITU-T 국제 표준화 기구에서 인터넷 폰과 화상회의를 목적으로 개발된 G.723.1 음성 부호화기는 잡음 구간에서의 전송률을 낮추기 위한 방법으로 VAD(Voice Activity Detector)와 CNG(Comfortable Noise Generator)를 사용하고 있다. 이중 VAD는 최종적으로 현재 프레임의 에너지 레벨을 비교하여 음성의 활동 유무를 판정하고 있다. 하지만 G.723.1 VAD에서는 보다 안정적인 판정을 위해 음성 활동 구간 사이에 삽입되어 있는 묵음 구간에 대해서는 거의 대부분 음성이 활동하는 영역으로 판정을 하고 있다. 따라서 본 논문에서는 묵음 구간에 대해 보다 정확한 판정을 통하여 기존의 방법에 비해 전송률을 더욱 감소시킬 수 있는 방법을 제안한다. 제안한 방법은 음성신호와 잡음신호의 LSP 파라미터 간격 정보를 이용하여 음성구간을 검출한다. 묵음구간을 길게 조절한 문장을 사용하여 실험한 결과 VAD=1로 판정한 프레임수가 약 $48.98\%$ 감소하였으며 주관적인 음질평가의 경우 음질의 열하는 거의 발생하지 않았다.

  • PDF

Design for Crowd Noise Reduction System Using DSI and Spectral Subtraction (DSI와 스펙트럼 차감법을 이용한 군중잡음 감쇄기의 설계)

  • Ahn, Yong-Woon;Kim, Sang-Chul;Kim, Joong-Hwan
    • Annual Conference of KIPS
    • /
    • 2002.11a
    • /
    • pp.703-706
    • /
    • 2002
  • 군중잡음(crowd noise)이 발생하는 환경에서 음성 통화 및 화자 인식을 할 때에는 음성에 파열음이나 마찰음과 같은 유색잡음(colored noise)이 부가되어 원래 음성이 왜곡된다. 이와 같이 왜곡된 음성 신호를 처리할 때에는 군중잡음을 제거하는 과정이 반드시 필요하다. 본 논문에서는 전형적인 군중잡음의 모델인 쇼핑 센터 잡음을 분석하고, 그 결과를 이용하여 음성 신호처리시에 효과적으로 군중잡음만을 제거할 수 있는 모델을 제안한다. 제안된 모델은 시간 영역에서 마찰음과 파열음을 제거하고. DSI(Digital Speech Interpolation)를 이용하여 침묵 구간을 검출한다. 이때 주파수 영역에서는 이 침묵구간을 잡음으로 간주하여 이를 이용한 스펙트럼 차감법(spectral subtraction)으로 음성 신호에 부가된 군중 잡음을 제거하는 과정을 거친다.

  • PDF

A Study Video using Image and Voice Search (음성과 이미지를 이용한 동영상 검색에 관한 연구)

  • Sin, In-Gyeong;Park, Sung-Hyun;Ahn, Hyo-Chang;Rhee, Sang-Burm
    • Annual Conference of KIPS
    • /
    • 2012.11a
    • /
    • pp.568-571
    • /
    • 2012
  • 정보화 사회의 정보 기반 구조로서, 고속 정보망의 구축, 개인용 컴퓨터의 급속한 보급, 멀티미디어 기술의 발전 등으로 인하여 정보 서비스의 새로운 장이 열리고 있다. 동영상 데이터는 텍스트만이 아니라 영상정보, 음성정보등 각종 의미있는 다양한 멀티미디어 정보를 포함하고 있다. 본 논문에서는 동영상에서 음성과 영상을 분리하여 음성을 이용하여 음성열을 분할 및 복원하여 음성을 텍스트로 변환하여 텍스트색인파일을 만들고 영상은 이미지를 분할 및 히스토그램을 사용하여 이미지 샷을 검출하여 두 색인파일을 이용하여 인덱싱을 하여 동영상 검색에 활용한다.

Adult Contents Filtering using Speech Information (음성 정보를 이용한 성인 컨텐츠 필터링)

  • Cho, Jung-Ik;Jo, Jin-Su;Lee, Yill-Byung
    • Annual Conference of KIPS
    • /
    • 2008.05a
    • /
    • pp.145-147
    • /
    • 2008
  • 현재까지 유해한 컨텐츠(Contents)를 차단하기 위한 활발한 연구가 있었으나, 사람의 음성(speech)정보를 이용한 필터링(filtering) 기법에 대한 연구는 활발히 이루어지지 않은 측면이 있다. 본 논문은 동영상 데이터를 가지고 있는 여러 데이터 중에서 음성 정보의 분석을 통하여 일반 컨텐츠와 성인 컨텐츠를 분류하기 위함이다. 본 논문은 음성 정보 중에서 음성 정보의 특징을 가장 잘 다루는 피치 검출을 통한 정보의 분석을 통한 성인 컨텐츠의 필터링에 그 목적이 있다. 현재까지 진행되고 있는 필터링(filtering)방법에 대한 수행 결과보다 개선된 성능을 보이고자 한다. 즉, 음성 정보의 특징 정보를 이용한 성인 컨텐츠(Adult Contents)분류 기법을 활용하는 것으로 성인 컨텐츠(Adult Contents)에서 두드러지는 특징을 보이는 사운드 패턴을 분석하는 것이다.

A Lip Movement Image Tracing Test Environment Build-up for the Speech/Image Interworking Performance Enhancement (음성/영상 연동성능 향상을 위한 입술움직임 영상 추적 테스트 환경 구축)

  • Lee, Soo-Jong;Park, Jun;Kim, Eung-Kyeu
    • Annual Conference of KIPS
    • /
    • 2007.05a
    • /
    • pp.328-329
    • /
    • 2007
  • 본 논문은 로봇과 같이 외부 음향잡음에 노출되어 있는 상황 하에서, 대면하고 있는 사람이 입술을 움직여 발성하는 경우에만 음성인식 기능이 수행되도록 하기 위한 방안의 일환으로, 입술움직임 영상을 보다 정확히 추적하기 위한 테스트 환경 구현에 관한 것이다. 음성구간 검출과정에서 입술움직임 영상 추적결과의 활용여부는 입술움직임을 얼마나 정확하게 추적할 수 있느냐에 달려있다. 이를 위해 영상 프레임율 동적 제어, 칼라/이진영상 변환, 순간 캡쳐, 녹화 및 재생기능을 구현함으로써, 다각적인 방향에서 입술움직임 영상 추적기능을 확인해 볼 수 있도록 하였다. 음성/영상기능을 연동시킨 결과 약 99.3%의 연동성공율을 보였다.

Performance Improvement of Double Talk Detection before Convergence of the Echo Canceller by Using Linear Predictive Coding Filter Gain of the Primary Input Signal (주입력신호의 LPC 필터 이득을 이용한 반향제거기의 수렴전 동시통화검출 성능 개선)

  • Yoo, Jae-Ha
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.24 no.6
    • /
    • pp.628-633
    • /
    • 2014
  • This paper proposes a performance improvement method of the conventional double talk detection method which can operate before convergence of the echo canceller. The proposed method estimates the coefficients of the linear predictive coding(LPC) filter by using the primary input signal. The time-varying threshold for double talk detection is determined based on the LPC filter gain of the primary input signal level. The proposed method can reduce not only false detection rate which means wrong detection of single talk as double talk but also double talk detection delay. Computer simulation was performed using a long-term real speech signals. It is shown that the proposed method improves the conventional method in terms of lowering the false detection rate and shortening the detection delay.

Performance Improvement of Double-talk Detector Using Normalized Error Signal Power (정규화된 오차신호 전력을 이용한 동시통화 검출기의 성능 개선)

  • Heo, Won-Chul;Bae, Keun-Sung
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.32 no.5C
    • /
    • pp.478-486
    • /
    • 2007
  • Double-talk detection errors can result in either large residual echo or distorting the near-end talker's input speech. Thus accurate double-talk detection is an important problem in the acoustic echo canceller to improve the speech quality. In the double-talk detection algorithm using a cross-correlation coefficient, double-talk detection errors can occur in the initial convergence period of an adaptive filter or in noisy environment since the cross-correlation coefficient becomes large in such situations. In this paper, we propose a new double-talk detection algorithm based on the cross-correlation method using a normalized error signal power to reduce the double-talk detection errors. The experimental results have shown the performance improvement of an acoustic echo canceller as well as the noise-robustness of the proposed double-talk detector.

Rapid Detection of Mycobacterium tuberculosis Complex in Tissues by Using the Nested PCR (Nested PCR을 이용하여 조직으로부터 Mycobacterium tuberculosis Complex 신속검출)

  • Park, Jung-Yeon;Yang, Byoung-Seon
    • Korean Journal of Clinical Laboratory Science
    • /
    • v.47 no.4
    • /
    • pp.313-317
    • /
    • 2015
  • Due to the increase in incidence of infection of Mycobacterium tuberculosis complex (MTC), it is imperative that a rapid diagnosis accompanies the handling of MTC. This is due to the three to eight weeks it takes to culture Mycobacteria, and the lack of sensitivity of microscopic examination of AFB. Recently, nested PCR has been used to detect and diagnose mycobacteria. It is especially useful in complementing diagnosis by histological extra pulmonary. After culturing all the specimens and practicing the nested PCR, we did comparison analysis between nested PCR and culture. There were 76 specimens, 31 of which were positive. Of the 31 positive specimens in culturing, only 22 were positive in nested PCR. Of the 45 negative specimens, 36 were negative in nested PCR. As a result, Sensitivity was 71% and specificity was 80%. Furthermore, the positive predictive value was 71% and negative predictive value was 80%. These results indicate that nested PCR based techniques are sensitive, specific, and rapid methods for the detection of MTC.

The Technique of Spectrum Flattening by Algorithm for Minimized Harmonics Variance Value (Harmonic 분산값 최소화 알고리즘에 의한 주파수 영역 평탄화 기법)

  • Min, So-Yeon;Kim, Young-Kyu
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.11 no.9
    • /
    • pp.3558-3562
    • /
    • 2010
  • The exact fundamental frequency (pitch) extraction is important in speech signal processing. However the exact pitch extraction from speech signal is very difficult due to the effect of formant and transitional amplitude. So in this paper, the pitch is detected after flattening the spectrum in frequency region by proposed algorithm for minimized harmonics variance value. Experimental result showed the proposed method appeared an outstanding performance in compared with LPC, Cepstrum. Also, the results show the proposed method is better than conventional method.

A Discrete Feature Vector for Endpoint Detection of Speech with Hidden Markov Model (숨은마코프모형을 이용하는 음성 끝점 검출을 위한 이산 특징벡터)

  • Lee, Jei-Ky;Oh, Chang-Hyuck
    • The Korean Journal of Applied Statistics
    • /
    • v.21 no.6
    • /
    • pp.959-967
    • /
    • 2008
  • The purpose of this paper is to suggest a discrete feature vector, robust in various levels of noisy environment and inexpensive in computation, for detection of speech segments and is to show such properties of the feature with real speech data. The suggested feature is one dimensional vector which represents slope of short term energies and is discretized into three values to reduce computational burden of computations in HMM. In experiments with speech data, the method with the suggested feature vector showed good performance even in noisy environments.