• 제목/요약/키워드: 음성구간검출

검색결과 158건 처리시간 0.026초

이중채널 잡음음성인식을 위한 공간정보를 이용한 통계모델 기반 음성구간 검출 (Statistical Model-Based Voice Activity Detection Using Spatial Cues for Dual-Channel Noisy Speech Recognition)

  • 신민화;박지훈;김홍국;이연우;이성로
    • 말소리와 음성과학
    • /
    • 제2권3호
    • /
    • pp.141-148
    • /
    • 2010
  • In this paper, voice activity detection (VAD) for dual-channel noisy speech recognition is proposed in which spatial cues are employed. In the proposed method, a probability model for speech presence/absence is constructed using spatial cues obtained from dual-channel input signal, and a speech activity interval is detected through this probability model. In particular, spatial cues are composed of interaural time differences and interaural level differences of dual-channel speech signals, and the probability model for speech presence/absence is based on a Gaussian kernel density. In order to evaluate the performance of the proposed VAD method, speech recognition is performed for speech segments that only include speech intervals detected by the proposed VAD method. The performance of the proposed method is compared with those of several methods such as an SNR-based method, a direction of arrival (DOA) based method, and a phase vector based method. It is shown from the speech recognition experiments that the proposed method outperforms conventional methods by providing relative word error rates reductions of 11.68%, 41.92%, and 10.15% compared with SNR-based, DOA-based, and phase vector based method, respectively.

  • PDF

저전송율 보코더의 성능개선에 관한 연구 (On an Improving Performance of Low Bit-Rate Speech Coder)

  • 박영호;홍성훈;배명진
    • 한국음향학회지
    • /
    • 제17권7호
    • /
    • pp.101-107
    • /
    • 1998
  • 본 논문에서는 잔차신호를 모델링하기 위해 사용되는 동적희박대수코드북에 대해 분석하고 성능이 향상된 새로운 대수코드북 구조 및 검색과정을 제안하였다. 제안된 알고리 즘은 대수 코드북의 단점을 계산량의 증가 없이 개선시켰다. 먼저 기존에 단순히 부호비트 만을 검색하는 것에 대해 다양한 펄스 진폭의 선택을 가능하게 하였다. 그리고 동일 트랙상 에서 두 펄스를 선택하게 하였으며 추가 계산량이 필요없는 무성음에서 유성음으로의 천이 구간 검출기를 이용하여 LSF 보간 시 발생하는 천이구간에서의 LP지연을 최소화하였다. 제 안된 알고리즘을 이용한 5.6kbps음성부호화기는 전화선상의 음질을 시료로 하여 주관적 음 질면에서 6.3kbps MP-MLQ와 동등하였으며 MNRU Q=15dB에서는 MP-MLQ에 비해 약간 의 음질열하가 발생하였다.

  • PDF

Mycoplasma pneumoniae 감염의 신속 항원 검사 키트 "Ribotest Mycoplasma®"의 진단적 평가 (Evaluation of a Rapid Diagnostic Antigen Test Kit Ribotest Mycoplasma® for the Detection of Mycoplasma pneumoniae)

  • 양송이;한미선;김선중;이성연;최은화
    • Pediatric Infection and Vaccine
    • /
    • 제26권2호
    • /
    • pp.81-88
    • /
    • 2019
  • 목적: Mycoplasma pneumoniae 폐렴은 학동기 소아와 청소년의 지역사회 획득 폐렴 중 가장 흔한 원인으로, 조기에 원인 진단이 가능하다면 적절한 항균 요법을 결정하는데 도움이 된다. 본 연구는 하기도 감염 소아의 호흡기 검체에서 M. pneumoniae를 검출하기 위한 신속 항원 검사 방법의 진단적 가치를 평가하고자 하였다. 방법: 2010년 8월부터 2018년 8월까지 하기도 감염으로 서울대학교 어린이병원에서 응급실 또는 입원 치료를 받은 소아로부터 채취한 비인두 흡인물 중 M. pneumoniae 배양 검사를 시행한 후 $-70^{\circ}C$ 초저온냉동고에 보관되어 있는 검체 215개를 선정하였다. 비인두 흡인물 검체를 실온에서 해동하고 면역크로마토그래피를 이용한 Ribotest $Mycoplasma^{(R)}$를 시행한 후 두 명의 검사자가 결과를 판독하였다. 검사를 시행하는 자와 판독하는 자는 배양 검사 결과를 모르는 상태에서 검사를 진행하였다. 결과: 총 215개의 비인두 흡인물 검체 중 M. pneumoniae가 배양 양성인 검체는 119개, 배양 음성인 검체는 96개였다. M. pneumoniae가 배양 양성인 119개 중 74개(62.2%)가 Ribotest $Mycoplasma^{(R)}$ 검사 결과 양성이었고, 배양 음성인 96개 중 92개(95.8%)가 Ribotest $Mycoplasma^{(R)}$ 검사 결과 음성이었다. 배양 검사 결과를 기준으로 평가한 Ribotest $Mycoplasma^{(R)}$의 민감도는 62.2%(74/119, 95% 신뢰구간, 53.5-70.9%)이었으며, 특이도는 95.8% (92/96, 95% 신뢰구간, 91.8-99.8%)이었다. 또, 양성 예측도는 94.9% (74/78, 95% 신뢰구간, 90.0-99.8%)이었으며, 음성 예측도는 67.2% (92/137, 95% 신뢰구간, 59.3-75.0%), 그리고 일치도 77.21% (166/215, 95% 신뢰구간, 71.6-82.8%)를 보였다. 결론: 본 연구 결과, 신속 항원 검출법인 Ribotest $Mycoplasma^{(R)}$ 검사결과가 양성인 경우는 M. pneumoniae 배양 양성과의 일치도가 매우 높아서 M. pneumoniae 감염의 진단에 유용하였다. 그러나, Ribotest $Mycoplasma^{(R)}$ 검사결과가 음성인 경우의 약 1/3은 M. pneumoniae 배양 양성인 검체이었으므로, 음성 검사 결과에 대한 해석은 주의하여야 한다.

MUSIC 스펙트럼을 이용한 잡음환경에서의 목표 신호 구간 검출 (Target signal detection using MUSIC spectrum in noise environments)

  • 박상준;정상배
    • 말소리와 음성과학
    • /
    • 제4권3호
    • /
    • pp.103-110
    • /
    • 2012
  • In this paper, a target signal detection method using multiple signal classification (MUSIC) algorithm is proposed. The MUSIC algorithm is a subspace-based direction of arrival (DOA) estimation method. Using the inverse of the eigenvalue-weighted eigen spectra, the algorithm detects the DOAs of multiple sources. To apply the algorithm in target signal detection for GSC-based beamforming, we utilize its spectral response for the DOA of the target source in noisy conditions. The performance of the proposed target signal detection method is compared with those of the normalized cross-correlation (NCC), the fixed beamforming, and the power ratio method. Experimental results show that the proposed algorithm significantly outperforms the conventional ones in receiver operating characteristics (ROC) curves.

ICA와 DNN을 이용한 방송 드라마 콘텐츠에서 음악구간 검출 성능 (Performance of music section detection in broadcast drama contents using independent component analysis and deep neural networks)

  • 허운행;장병용;조현호;김정현;권오욱
    • 말소리와 음성과학
    • /
    • 제10권3호
    • /
    • pp.19-29
    • /
    • 2018
  • We propose to use independent component analysis (ICA) and deep neural network (DNN) to detect music sections in broadcast drama contents. Drama contents mainly comprise silence, noise, speech, music, and mixed (speech+music) sections. The silence section is detected by signal activity detection. To detect the music section, we train noise, speech, music, and mixed models with DNN. In computer experiments, we used the MUSAN corpus for training the acoustic model, and conducted an experiment using 3 hours' worth of Korean drama contents. As the mixed section includes music signals, it was regarded as a music section. The segmentation error rate (SER) of music section detection was observed to be 19.0%. In addition, when stereo mixed signals were separated into music signals using ICA, the SER was reduced to 11.8%.

핸즈프리 전화통신을 위하여 통합된 음향 반향 및 잡음 제거 시스템 (An Integrated Acoustic Echo and Noise Cancellation System for Hands-Free Telephony)

  • 박선준;조점군;이충용;윤대희
    • 한국통신학회논문지
    • /
    • 제26권6B호
    • /
    • pp.760-766
    • /
    • 2001
  • 본 논문에서는 차량내 핸즈프리 전화통신을 위한 음향 반향 및 배경 잡음 제거기를 제안한다. 제안한 시스템은 새로운 잔여 반향 제거 기법과 실시간 구현에 적합한 동시통화 검출기를 포함한다. 잔여 반향 제거에서는 근단화자가 없는 구간에 대하여 선형 예측기를 이용하여 잔여 반향 신호의 인접 샘플간의 상관도를 제거하여 잡음 제거기의 입력으로 사용한다. 잔여 반향 신호의 음성특성을 제거함으로써 잡음 제거기를 이용하여 배경 잡음과 더불어 잔여 반향의 전력을 효과적으로 줄일 수 있다. 제안된 시스템에서는 상용 저전송률 음성부호화기와의 결합을 고려하여 IS-127(EVRC)에 포함되어 있는 잡음 제거기를 사용하였다. 90 km/h로 정속 주행하는 차내의 핸즈프리 환경에서 제안된 시스템은 30 dB이상의 간섭신호 제거 성능을 보였다. 제안된 시스템은 16비트 고정 소수점 연산을 하는 저가의 DSP를 이용하여 실시간 구현되었다.

  • PDF

음성재생 속도 제어를 위한 활성화 영역 검출방법 (An Active Region Detection Method for The Speech Playback-speed Control)

  • 유덕현;김동현;전준현
    • 대한전자공학회논문지SP
    • /
    • 제49권3호
    • /
    • pp.98-105
    • /
    • 2012
  • 본 논문은 고품질을 갖는 음성재생 속도제어를 위한 새로운 방법을 다루었다. 제안 방법은 재생 속도에 따른 음성 신호의 활성화 영역을 검출하는 가변적 임계필터링 솔루션을 제공하였다. 임계필터링을 위한 임계값은 주어진 배속에 따라 재생되는 음성 신호 내의 각 프레임의 통계(평균과 표준편차)에 의해 가변적으로 결정되며 프레임 내의 활성화 블록구간 만을 축출하는데 사용된다. 또한 높은 재생 속도에 따른 피치 손상과 같은 품질 저하를 최소화하기 위하여, 임계필터링은 유, 무성음 구분 없이 상대적은 낮은 활성도를 갖는 블록들을 우선적으로 제거한다. 실험 결과, 제안 방식은 기존의 피치 축출을 사용하는 SOLA(Synchonized OverLap Add) 방식보다 높은 품질 갖는 재생속도 제어 솔루션을 제공함을 알 수가 있었다.

서브밴드에 기반한 스펙트럼 차감 알고리즘 (Subband Based Spectrum Subtraction Algorithm)

  • 최재승
    • 한국전자통신학회논문지
    • /
    • 제8권4호
    • /
    • pp.555-560
    • /
    • 2013
  • 본 논문에서는 거리측정, 로그전력, 실효치 방법에 의하여 유성음, 무성음, 묵음 구간을 검출하여, 서브밴드 필터에 의한 잡음제거 알고리즘을 제안한다. 제안한 알고리즘은 각 프레임에서 서브밴드 필터를 사용하여 잡음으로 오염된 음성신호로부터 백색잡음 및 도로잡음의 스펙트럼을 차감하는 방법이다. 본 실험에서는 Aurora-2 데이터베이스에 포함된 음성신호와 잡음신호를 사용하여 스펙트럼 차감 알고리즘의 결과를 나타낸다. 잡음에 의하여 오염된 음성신호에 대하여 신호대잡음비를 사용하여 본 알고리즘이 유효하다는 것을 확인한다. 실험으로부터 백색잡음에 대하여 평균 2.1 dB, 도로잡음에 대하여 평균 1.91 dB의 출력 신호대잡음비가 개선된 것을 확인할 수 있었다.

은닉 마코프 모델을 이용한 음성 인식 시스템 설계 (Design of A Speech Recognition System using Hidden Markov Models)

  • 이철원;임인칠
    • 전자공학회논문지B
    • /
    • 제33B권1호
    • /
    • pp.108-115
    • /
    • 1996
  • 본 논문에서는 이산 은닉 마코프 모델(Discrete Hidden Markov Model)을 이용한 연결 음성 인식에 관한 알고리듬 및 모델 토폴로지를 제안한다. 제안된 모델은 인식률과 인식할 수 있는 어휘를 고려하여 2 음소열 및 3 음소열 모델을 사용하며, 보다 정확한 음소 간의 세그멘테이션과 알고리듬의 수행 속도를 고려하여 2 음소열에서는 첫 번째 상태와 마지막 상태를 안정 상태, 나머지 상태는 천이 상태인 4 개의 상태를 갖도록 하고, 또한 3 음소열에서는 7 개의 상태를 갖도록 하며, 여기서 7개의 상태는 3 개의 안정 상태와 4개의 천이 상태를 갖도록 개선한다. 또한, 제안된 음성 인식 알고리듬은 인식 과정 내에서 음소의 발음 구간을 검출하도록 설계한다.

  • PDF

법음성학에서의 오디오 신호의 위변조 구간 자동 검출 방법 연구 (An Automatic Method of Detecting Audio Signal Tampering in Forensic Phonetics)

  • 양일호;김경화;김명재;백록선;허희수;유하진
    • 말소리와 음성과학
    • /
    • 제6권2호
    • /
    • pp.21-28
    • /
    • 2014
  • We propose a novel scheme for digital audio authentication of given audio files which are edited by inserting small audio segments from different environmental sources. The purpose of this research is to detect inserted sections from given audio files. We expect that the proposed method will assist human investigators by notifying suspected audio section which considered to be recorded or transmitted on different environments. GMM-UBM and GSV-SVM are applied for modeling the dominant environment of a given audio file. Four kinds of likelihood ratio based scores and SVM score are used to measure the likelihood for a dominant environment model. We also use an ensemble score which is a combination of the aforementioned five kinds of scores. In the experimental results, the proposed method shows the lowest average equal error rate when we use the ensemble score. Even when dominant environments were unknown, the proposed method gives a similar accuracy.