• 제목/요약/키워드: 음성구간검출

검색결과 158건 처리시간 0.025초

G.723.1 보코더에서 잡음환경에 강인한 음성활동구간 검출기에 관한 연구 (A Study on a Robust Voice Activity Detector Under the Noise Environment in the G,723.1 Vocoder)

  • 이희원;장경아;배명진
    • 한국음향학회지
    • /
    • 제21권2호
    • /
    • pp.173-181
    • /
    • 2002
  • 일반적으로 음성활동 구간 검출기 (Voice Activity Detector)의 가장 큰 문제점은 어떠한 배경 잡음에 대해서도 음성 신호를 검출할 수 있어야 한다는 것이다. 이런 문제를 해결하기 위해서 G.723.1에서는 스펙트럼 특성과 입력 신호의 주기성을 이용하고 있지만 신호대 잡음비가 낮은 신호에 대해 정확한 판정을 한다는 것은 상당히 어렵다. 따라서 본 논문에서는 에너지, LSP (Line Spectrum Pair) 분산을 이용하는 새로운 방법을 제안한다. 제안한 알고리즘에 대한 처리시간 및 음질 평가를 측정한 결과 묵음구간이 정확하게 판정되므로 G.723.1에 비해 감소하였으며 주관적인 음질평가의 경우 기존의 G.723.1에 비해 차이가 거의 없었다. 마지막으로 전송률 측정을 위해 신호대 잡음비 5 dB에서 10 dB 사이의 음성 신호의 경우 최적의 전송률 감소 효과를 얻을 수 있었으며 처리시간의 비교 결과 평균 8% 정도의 처리시간 감소 효과를 얻을 수 있었다.

퍼셉트론 신경회로망을 사용한 유성음, 무성음, 묵음 구간의 검출 알고리즘 (Voiced-Unvoiced-Silence Detection Algorithm using Perceptron Neural Network)

  • 최재승
    • 한국전자통신학회논문지
    • /
    • 제6권2호
    • /
    • pp.237-242
    • /
    • 2011
  • 본 논문에서는 다층 퍼셉트론 신경회로망을 사용하여 각 프레임에서의 유성음, 무성음, 그리고 묵음 구간을 검출하는 구간검출 알고리즘을 제안한다. 다층 퍼셉트론 신경회로망의 입력으로는 고속 푸리에변환에 의한 전력스펙트럼 및 고속 푸리에변환 계수가 사용되어 네트워크가 학습된다. 본 실험에서는 원 음성에 백색잡음이 중첩된 음성을 신경회로망에 입력함으로서 각 프레임에서의 유성음, 무성음, 묵음 구간의 검출성능 결과를 나타낸다. 본 실험에서는 신경회로망의 학습 데이터 및 평가 데이터가 다를 경우에도 이러한 음성 및 백색잡음에 대하여 92% 이상의 검출율을 구할 수 있었다.

음성인식 로봇을 위한 동시통화검출 기반의 강인한 음성 끝점 검출 (Robust End Point Detection for Robot Speech Recognition Using Double Talk Detection)

  • 문성규;박진수;고한석
    • 한국음향학회지
    • /
    • 제31권3호
    • /
    • pp.161-169
    • /
    • 2012
  • 본 논문에서는 반향이 큰 로봇 환경에 강인한 음성 끝점 검출 방법을 제안한다. 양방향 대화 로봇과 같이 반향대 신호 비가 -5 dB 이하인 반향환경에서는, 반향제거기의 성능이 저하되어 사용자 음성 에너지와 비슷한 크기의 에너지를 갖는 잔여반향이 생긴다. 잡음에 강인한 기존의 음성 끝점검출 방법이라도, 사용자 음성과 비슷한 수준의 에너지를 갖는 잔여반향은 음성으로 오검출하기 때문에 정확한 음성 끝점검출이 어렵다. 반향 환경에 강인한 끝점검출을 위해, 본 논문에서는 음성/반향 구간 판별에 좋은 성능을 보이는 동시통화검출의 결과를 기존의 음성끝점검출 방법과 AND 연산하여 음성끝점검출기를 구성하였다. 제안하는 방법의 평가를 위해 반향이 큰 환경에서 고립단어 인식을 실험하였고, 다양한 실험환경에서 기존 음성 끝점검출 방법보다 평균 30 % 이상의 인식 성능 향상을 확인할 수 있었다.

음성 에너지 분포 처리와 에너지 파라미터를 융합한 음성 인식 성능 향상 (Voice Recognition Performance Improvement using a convergence of Voice Energy Distribution Process and Parameter)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제13권10호
    • /
    • pp.313-318
    • /
    • 2015
  • 전통적인 음성 향상 방법은 잘못된 잡음의 추정에 따라 남아있는 잡음이 발생하여 음성 스펙트럼을 왜곡하거나 음성 프레임을 찾지 못하여 음성 인식 성능을 저하시키는 문제가 발생된다. 본 논문에서는 음성 에너지 분포 처리와 음성 에너지 파라미터를 융합한 음성 검출 방법을 제안하였다. 제안한 방법은 음성 에너지를 최대화시켜 잡음의 영향을 적게 받는 특성을 이용하였다. 또한, 음성 신호의 특징 파라미터 중에서 작은 값을 가지는 로그에너지 특징의 구간에서는 큰 에너지를 가지는 구간에 비해 상대적으로 로그에너지 값을 더 많이 키워서 잡음이 포함한 음성신호의 로그에너지 특징의 크기와 비슷하게 하여 훈련과 인식 환경의 불일치를 융합으로 인해 줄여준다. 인식 실험 결과 기존 방법에 비해 향상된 인식 성능을 확인할 수 있었으며, car 잡음 환경의 음성 구간 적중률은 낮은 SNR구간인 0dB과 5dB에서는 97.1%와 97.3%의 정확도를 보였으며, 높은 SNR구간인 10dB와 15dB에서는 98.3%, 98.6%의 정확도를 보였다.

LSP변화도를 이용한 G-723.1 보코더의 VAD 성능향상에 관한 연구 (Improvement of VAD Performance using the LSP Variation in the G.723.1)

  • 이희원;나덕수;배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.19-22
    • /
    • 2000
  • ITU-T 국제 표준화 기구에서 인터넷 폰과 화상회의를 목적으로 개발된 G.723.1 음성 부호화기는 잡음 구간에서의 전송률을 낮추기 위한 방법으로 VAD(Voice Activity Detector)와 CNG(Comfortable Noise Generator)를 사용하고 있다. 이중 VAD는 최종적으로 현재 프레임의 에너지 레벨을 비교하여 음성의 활동 유무를 판정하고 있다. 하지만 G.723.1 VAD에서는 보다 안정적인 판정을 위해 음성 활동 구간 사이에 삽입되어 있는 묵음 구간에 대해서는 거의 대부분 음성이 활동하는 영역으로 판정을 하고 있다. 따라서 본 논문에서는 묵음 구간에 대해 보다 정확한 판정을 통하여 기존의 방법에 비해 전송률을 더욱 감소시킬 수 있는 방법을 제안한다. 제안한 방법은 음성신호와 잡음신호의 LSP 파라미터 간격 정보를 이용하여 음성구간을 검출한다. 묵음구간을 길게 조절한 문장을 사용하여 실험한 결과 VAD=1로 판정한 프레임수가 약 $48.98\%$ 감소하였으며 주관적인 음질평가의 경우 음질의 열하는 거의 발생하지 않았다.

  • PDF

단시간 스펙트럼에 기초한 주파수특성을 고려한 잡음차감 기법

  • 최재승
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.824-826
    • /
    • 2015
  • 최근 음성인식 시스템의 성능 향상은 많이 개선되었지만 아직도 잡음과 같은 문제로 인하여 문제점이 나타나고 있다. 음성인식 시스템에 있어서의 잡음 문제를 해결함으로써 인식 성능을 향상할 목적으로 본 논문에서는 단시간 스펙트럼에 기초한 주파수특성을 고려한 위너필터를 사용한 잡음 차감 알고리즘을 제안한다. 제안한 알고리즘은 먼저 각 프레임에서 문턱값을 검출한 후에 비묵음 구간과 묵음 구간을 식별한다. 각 프레임에 대해서 비묵음 구간에서는 위너필터법에 의한 잡음 차감법을 실시하며, 묵음 구간에 대해서는 일반적인 잡음 차감법을 적용한다.

  • PDF

음성부호화기에서의 음성 활동 검출 장치 성능에 관한 연구 (A Study on Performance of Voice Activity Detector in Vocoder)

  • 민소연;이광형;김정재
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2009년도 춘계학술발표논문집
    • /
    • pp.491-494
    • /
    • 2009
  • ITU-T에서 인터넷 폰과 화상회의에 사용하기 위하여 개발된 G.723.1 음성 부호화기는 잡음 구간에서의 전송률을 낮추기 위한 방법으로 VAD(Voice Activity Detector)와 CNG(Comfort Noise Generator)를 사용하고 있다. 여기서 VAD는 최종적으로 현재 프레임의 에너지 레벨을 비교하여 음성의 활동 유무를 판정하고 있다. 하지만 G.723.1 VAD에서는 보다 안정적인 판정을 위해 음성 활동 구간 사이에 삽입되어 있는 묵음 구간에 대해서는 거의 대부분 음성이 활동하는 영역으로 판정을 하고 있다. 본 논문에서는 묵음 구간에 대해 보다 정확한 판정을 통하여 기존의 방법에 비해 전송율을 더욱 감소 시킬 수 있는 방법을 제안한다. 실험에서는 묵음구간을 길게 조절한 문장을 사용하여 측정한 결과 약 50% 정도의 전송율을 감소시킬 수 있었으며, MOS 테스트 결과, 음질의 열하는 발생하지 않았다.

  • PDF

Perceiver 모델을 이용한 사용자 음성 구간 축약 (Voice Segment Reduction using Perceiver Model)

  • 최연웅;이재준;한현택;이해연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.491-493
    • /
    • 2022
  • 최근 스마트 기기에서 오디오 데이터를 이용하는 응용 기술들이 증가하면서, 오디오 데이터에서 관심 있는 구간을 찾아내는 기술의 필요성이 증가하고 있다. 본 논문에서는 Perceiver 모델을 활용하여 오디오 데이터에서 사람의 음성 구간을 검출하고 축약하는 방법을 제안한다. Perceiver 모델은 복잡한 입력 데이터에 대하여 Self-attention을 기반으로 특징을 추출하면서 이전의 특징을 다음 입력으로 다시 학습하는 특징을 갖고 있어서 연속적인 데이터인 오디오에 효율적으로 적용할 수 있다. 외부 및 자체에서 수집한 음성과 비음성 데이터셋에 대하여 실험을 진행하였고, 10초 단위 세그먼트에서 대해서 92.4%의 검출 정확도를 달성하였다.

음성인식기 구현을 위한 잡음에 강인한 음성구간 검출기법 (Robust Speech Segmentation Method in Noise Environment for Speech Recognizer)

  • 김창근;박정원;권호민;허강인
    • 융합신호처리학회논문지
    • /
    • 제4권2호
    • /
    • pp.18-24
    • /
    • 2003
  • 실시간 음성 인식기의 구현에 있어서 선행되어야 할 과제는 신뢰성 있는 음성구간 검출과 적절한 음성특징벡터를 구하는 것이다. 그러나, 주변 잡음이 인가되는 환경에서는 신뢰성 있는 음성구간 검출이 어렵게 되어 적절한 음성특징벡터를 구할 수 없게 되어 최종적으로 인식기의 성능 저하를 초래하게 된다. 이러한 문제점을 보완하기 위하여 본 논문에서는 일반적으로 사용되어지는 단구간 파러 스펙트럼 외에 잡음에 강인한 특성을 가질 수 있도록 하는 새로운 특징 파라메터로써 스펙트럼 밀도비교척도와 선형회귀를 이용한 선형결정함수를 사용하였다. 이러한 두 가지 파라메터를 추가하여 주변 잡음의 크기에 따라 각각의 (파라메터를 적절한 가중치로 조합하여 음성구간 결정을 수행한 다음 DTW를 사용하여 인식실험을 한 결과 주변 잡음이 존재하는 환경에서도 강인한 특성을 가짐을 확인할 수 있었다.

  • PDF

켑스트럼 계수에 의한 모음검출을 위한 음성인식 (Speech Recognition for Vowel Detection using by Cepstrum Coefficients)

  • 최재승
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 추계학술대회
    • /
    • pp.613-615
    • /
    • 2011
  • 본 논문에서는 켑스트럼 계수를 이용하여 음성인식을 하는 알고리즘을 제안한다. 본 논문에서 제안하는 방법은 사람이 발성한 음성을 두 영역의 켑스트럼 계수로 분리한 후에, 신경회로망을 사용하여 음성인식을 하는 방법이다. 본 논문에서 제안하는 신경회로망은 오차가 거의 없어지는 일정 기간 동안 네트워크를 학습시킨 후에 신경회로망의 학습 데이터와는 다른 새로운 음성이 신경회로망에 입력된 경우에 대하여 각 음성 구간에서 분류가 가능한 모음검출을 위한 음성인식 시스템을 제안한다.

  • PDF