• 제목/요약/키워드: 음성검출

검색결과 726건 처리시간 0.04초

잡음 환경에서의 전송률 감소를 위한 G.723.1 음성활동 검출기 성능 개선에 관한 연구 (Improvement of VAD Performance for the Reduction of the Bit Rate Under the Noise Environment in the G.723.1)

  • 김정진;장경아;배명진
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.42-47
    • /
    • 2001
  • 본 논문에서는 인터넷 폰 및 화상통신 등을 위해 개발된 G.723.1 부록 A 6.3kbps/5.3kbps 이중 전송율 음성 코덱의 음성활동 검출기의 성능을 개선한다. 본 논문에서는 에너지 레벨을 크게 3가지 범위로 구분하여 음성활동 유무 판정을 하도록 한다. 제안한 알고리즘에 대한 처리시간, 음질평가 및 전송율 감소량을 측정한 결과 처리시간의 경우 묵음구간에 대한 판정의 정확성에 기인하여 G.723.1에 비해 감소하고 주관적인 음질평가의 경우 G.723.1과 거의 차이가 없다. 전송율 측정을 위해 VAD=1로 판정한 프레임을 측정한 결과 묵음 구간이 많이 나타날수록 뚜렷한 전송율 감소효과를 얻을 수 있다.

  • PDF

다중 스케일 시간 확장 합성곱 신경망을 이용한 방송 콘텐츠에서의 음성 검출 (Speech detection from broadcast contents using multi-scale time-dilated convolutional neural networks)

  • 장병용;권오욱
    • 말소리와 음성과학
    • /
    • 제11권4호
    • /
    • pp.89-96
    • /
    • 2019
  • 본 논문에서는 방송 콘텐츠에서 음성 구간 검출을 효과적으로 할 수 있는 심층 학습 모델 구조를 제안한다. 또한 특징 벡터의 시간적 변화를 학습하기 위한 다중 스케일 시간 확장 합성곱 층을 제안한다. 본 논문에서 제안한 모델의 성능을 검증하기 위하여 여러 개의 비교 모델을 구현하고, 프레임 단위의 F-score, precision, recall을 계산하여 보여 준다. 제안 모델과 비교 모델은 모두 같은 학습 데이터로 학습되었으며, 모든 모델은 다양한 장르(드라마, 뉴스, 다큐멘터리 등)로 구성되어 있는 한국 방송데이터 32시간을 이용하여 모델을 학습되었다. 제안 모델은 한국 방송데이터에서 F-score 91.7%로 가장 좋은 성능을 보여주었다. 또한 영국과 스페인 방송 데이터에서도 F-score 87.9%와 92.6%로 가장 높은 성능을 보여주었다. 결과적으로 본 논문의 제안 모델은 특징 벡터의 시간적 변화를 학습하여 음성 구간 검출 성능 향상에 기여할 수 있었다.

문자정보 기반 비디오 분할에서 성능 향상을 위한 음성신호처리 (Speech Signal Processing for Performance Improvement of Text-Based Video Segmentation)

  • 이용주;손종목;강경옥;배건성
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1999년도 학술대회
    • /
    • pp.187-191
    • /
    • 1999
  • 비디오 프로그램에서 영상 내에 포함되어 있는 문자정보는 동영상의 내용 검색 및 색인을 위한 비디오 분할에 사용될 수 있다. 일반적으로 장면 내에 포함되어 있는 문자들은 해상도가 낮고 글자 크기와 형태가 다양하기 때문에 추출과 인식이 어려울 뿐만 아니라 의도하지 않은 배경화면의 문자인 경우도 많기 때문에 내용기반 검색에는 사용되기가 어렵다. 그러나 비디오 내에 포함된 문자정보가 나타나는 시작 프레임과 끝나는 프레임을 검출하여 비디오 프로그램을 분할함으로써 내용기반요약정보를 만들 수 있으며, 동영상의 내용 검색 및 색인에 사용할 수 있다. 일반적으로 문자정보의 추출에 의해서 비디오를 분할할 때 음성정보는 전혀 고려되지 않으므로 분할된 비디오 정보를 재생할 경우음성신호가 단어 또는 어절/음절의 임의의 점에서 시작되고 끝나게 되어 듣기에 부자연스럽게 된다 따라서 본 논문에서는 뉴스방송의 비디오 프로그램에서 문자정보가 포함되어 는 비디오의 시작 프레임과 끝 프레임을 중심으로 그에 대응되는 구간의 음성신호를 검출한 후 이를 적절히 처리하여 분할 된 비디오를 재생할 때 음성신호가 보다 자연스럽게 들릴 수 있도록 하는 방법에 대해 연구하였다.

  • PDF

퍼셉트론 신경회로망을 사용한 유성음, 무성음, 묵음 구간의 검출 알고리즘 (Voiced-Unvoiced-Silence Detection Algorithm using Perceptron Neural Network)

  • 최재승
    • 한국전자통신학회논문지
    • /
    • 제6권2호
    • /
    • pp.237-242
    • /
    • 2011
  • 본 논문에서는 다층 퍼셉트론 신경회로망을 사용하여 각 프레임에서의 유성음, 무성음, 그리고 묵음 구간을 검출하는 구간검출 알고리즘을 제안한다. 다층 퍼셉트론 신경회로망의 입력으로는 고속 푸리에변환에 의한 전력스펙트럼 및 고속 푸리에변환 계수가 사용되어 네트워크가 학습된다. 본 실험에서는 원 음성에 백색잡음이 중첩된 음성을 신경회로망에 입력함으로서 각 프레임에서의 유성음, 무성음, 묵음 구간의 검출성능 결과를 나타낸다. 본 실험에서는 신경회로망의 학습 데이터 및 평가 데이터가 다를 경우에도 이러한 음성 및 백색잡음에 대하여 92% 이상의 검출율을 구할 수 있었다.

다자간 음성통화 품질 향상을 위한 오디오 믹서 알고리즘 (Audio Mixer Algorithm for Enhancing Speech Quality of Multi-party Audio Telephony)

  • 류상현;김형국
    • 한국음향학회지
    • /
    • 제32권6호
    • /
    • pp.541-547
    • /
    • 2013
  • 두세 명 혹은 그 이상의 참가자간사이의 다자간통화 시 음량불균형, 음량포화, 잡음레벨상승으로 인해서 음질 저하가 발생한다. 이 문제를 해결하기 위해서 본 논문은 소프트웨어 기반의 다지점제어장치를 위한 향상된 오디오 믹싱 알고리즘을 제안한다. 제안된 방식은 음성구간검출과 게인콘트롤이 결합된 기술로서 음성신호 분류, 음량 추정, 게인값 적용, 모든 채널의 음성신호를 믹싱하는 알고리즘들로 구성되어 있다. 제안된 오디오 믹싱 알고리즘은 효율적인 연산과 고품질의 음성을 제공하며, 실질적인 다자간 음성 통화에 적합하다.

소음환경에 강인한 피치주기 검출 알고리즘에 관한 연구 (A Study on the Robust Pitch Period Detection Algorithm in Noisy Environments)

  • 서현수;배상범;김남호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2006년도 춘계종합학술대회
    • /
    • pp.481-484
    • /
    • 2006
  • 음성 신호의 피치주기 검출 알고리즘은 음성 인식, 화자 식별 등의 다양한 음성 신호 처리 분야에 적용되고 있으며, 시간영역과 주파수영역에서 많은 연구가 진행되고 있다. 피치주기 검출 알고리즘의 하나인 AMDF(average magnitude difference function)는 연산속도가 빠른 장점이 있지만, 피치주기 검출을 위한 valley점 선정에 있어서 알고리즘이 복잡해지는 문제점이 발생한다. 또한 이러한 피치주기 검출 알고리즘이 실생활에 응용되기 위해서는 다양한 환경에서 발생하는 소음으로부터 강인한 특성을 가져야 한다. 따라서, 본 논문에서는 변형된 AMDF 알고리즘을 이용하여 피치주기 검출을 위한 전체 최소 valley점 선정을 보다 용이하게 하였으며, 테스트 신호로써 지하철 등과 같은 소음환경에서의 음성신호를 사용하였다.

  • PDF

음성인식기 구현을 위한 잡음에 강인한 음성구간 검출기법 (Robust Speech Segmentation Method in Noise Environment for Speech Recognizer)

  • 김창근;박정원;권호민;허강인
    • 융합신호처리학회논문지
    • /
    • 제4권2호
    • /
    • pp.18-24
    • /
    • 2003
  • 실시간 음성 인식기의 구현에 있어서 선행되어야 할 과제는 신뢰성 있는 음성구간 검출과 적절한 음성특징벡터를 구하는 것이다. 그러나, 주변 잡음이 인가되는 환경에서는 신뢰성 있는 음성구간 검출이 어렵게 되어 적절한 음성특징벡터를 구할 수 없게 되어 최종적으로 인식기의 성능 저하를 초래하게 된다. 이러한 문제점을 보완하기 위하여 본 논문에서는 일반적으로 사용되어지는 단구간 파러 스펙트럼 외에 잡음에 강인한 특성을 가질 수 있도록 하는 새로운 특징 파라메터로써 스펙트럼 밀도비교척도와 선형회귀를 이용한 선형결정함수를 사용하였다. 이러한 두 가지 파라메터를 추가하여 주변 잡음의 크기에 따라 각각의 (파라메터를 적절한 가중치로 조합하여 음성구간 결정을 수행한 다음 DTW를 사용하여 인식실험을 한 결과 주변 잡음이 존재하는 환경에서도 강인한 특성을 가짐을 확인할 수 있었다.

  • PDF

Bicoherence와 tricoherence를 이용한 음성신호의 비선형성 검출 (Detection of nonlinearities in speech signal using bicoherence and tricoherence)

  • 김영인;임성빈
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 하계종합학술대회논문집
    • /
    • pp.595-598
    • /
    • 1998
  • 본 논문의 목적은 한국어 모음의 음성 신호에 대하여 2차 및 3차 비선형서의 존재에 대한 정량적인 분석을 수행함에 있다. 음성 신호의 비선형성을 분석하기 위하여 표본화한 음성 신호에 대하여 bicoherence 및 tricoherence를 측정하였다. 실험 결과에 의하면 한국어 모음의 음성 신호의 발생과정에 상당히 강한 2차 및 3차 비선형성이 존재함을 알수 있었다. 특히 음성신호의 3차 비선형성에 대한 연구는 처음 수행되는 것으로 음성 신호 분석에 있어서 매우 중요한 결과로 사료된다.

  • PDF

음성 에너지 분포 처리와 에너지 파라미터를 융합한 음성 인식 성능 향상 (Voice Recognition Performance Improvement using a convergence of Voice Energy Distribution Process and Parameter)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제13권10호
    • /
    • pp.313-318
    • /
    • 2015
  • 전통적인 음성 향상 방법은 잘못된 잡음의 추정에 따라 남아있는 잡음이 발생하여 음성 스펙트럼을 왜곡하거나 음성 프레임을 찾지 못하여 음성 인식 성능을 저하시키는 문제가 발생된다. 본 논문에서는 음성 에너지 분포 처리와 음성 에너지 파라미터를 융합한 음성 검출 방법을 제안하였다. 제안한 방법은 음성 에너지를 최대화시켜 잡음의 영향을 적게 받는 특성을 이용하였다. 또한, 음성 신호의 특징 파라미터 중에서 작은 값을 가지는 로그에너지 특징의 구간에서는 큰 에너지를 가지는 구간에 비해 상대적으로 로그에너지 값을 더 많이 키워서 잡음이 포함한 음성신호의 로그에너지 특징의 크기와 비슷하게 하여 훈련과 인식 환경의 불일치를 융합으로 인해 줄여준다. 인식 실험 결과 기존 방법에 비해 향상된 인식 성능을 확인할 수 있었으며, car 잡음 환경의 음성 구간 적중률은 낮은 SNR구간인 0dB과 5dB에서는 97.1%와 97.3%의 정확도를 보였으며, 높은 SNR구간인 10dB와 15dB에서는 98.3%, 98.6%의 정확도를 보였다.

연속음성신호에서 IMBE 모델을 이용한 SNR 추정 연구 (IMBE Model Based SNR Estimation of Continuous Speech Signals)

  • 박형우;배명진
    • 한국음향학회지
    • /
    • 제29권2호
    • /
    • pp.148-153
    • /
    • 2010
  • 음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 알고리즘은 변화하는 환경에 빠르게 적응할 수 있어야 하며 음성신호의 영향을 줄이기 위해 음성신호가 존재하지 않는 구간에서만 잡음의 파워를 갱신한다. 이러한 방법은 음성구간검출이 선행되어야 한다. 그러나 잡음에 열화된 음성신호에 묵음구간이 존재하지 않을 경우, 위와 같이 음성검출을 통한 묵음구간에서의 잡음 추정 방법 및 SNR 추정 방법이 적용될 수 없다. 본 논문에서는 묵읍구간이 존재하지 않는 연속음성신호에서 SNR을 추정하는 기법을 제안한다. 음성신호는 MBE(Multi-Band Excitation) 발성 모델에 따라 유 무성음으로 구분할 수 있다. 그리고 에너지가 유성음에 대부분 분포하기 때문에, 부가성 잡음환경에서 유성음의 에너지를 음성신호의 에너지로 근사화하여 SNR을 추정할 수 있다. 제안하는 방식은 연속음성신호를 IMBE (Improved Multi-Band Exciation) 보코더를 이용해 유 무성음 대역으로 구분하고, 각각 대역의 에너지 정보를 아용하여 단구간 음성신호의 SNR을 계산한다. 전체 음성구간의 SNR은 단구간 SNR의 평균값을 통해 추정한다.