• 제목/요약/키워드: 음성 품질의 지각평가

검색결과 7건 처리시간 0.019초

VoIP 음질의 주관적 평가에 관한 연구 (A Study of Subjective Speech Quality Measurement in VoIP)

  • 강영도;강진석;최연성;김장형
    • 한국정보통신학회논문지
    • /
    • 제5권2호
    • /
    • pp.279-287
    • /
    • 2001
  • 본 논문은 초고속 인터넷을 이용한 음성전송 방식인 VoIP(Voice over IP) 서비스에서의 음질의 주관적 평가에 관한 연구이다. PSNR이나 지터 갊은 멀티미디어 서비스의 객관적 파라미터는 명료히 정의되어 있고 쉽게 측정되나, 그것이 이용자의 지각적 인지도와는 일치하지 않는다. 본 연구에서는 송화자 내용 발생과정에 있어서 어느 정도 완전히 표현되었는가를 나타내는 송화 품질과 음성이 전송계를 통해 수화자에게 전달되는 과정에서 왜곡이나 잡음 등의 방해요인에 의해 열화 되는 정도를 나타내는 전송 품질, 그리고 수화자가 청각에서 신호처리 과정을 거친 송화자의 내용을 어느 정도 이해할 수 있는지를 나타내는 수화 품질에 대한 주관적 평가법과 그 척도를 제시한다. 또한 제안된 방법으로 실험하여 그 유효성을 검증한다.

  • PDF

머리전달함수가 음상정위에 미치는 영향 (Effect of HRTF on Sound Localization)

  • 김진욱
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.261-264
    • /
    • 1998
  • 본 논문에서는 MIT 머리전달함수(Head-Related Transfer Function; HRTF)와 Neumann의 머리전달함수를 이용하여 머리전달함수가 음성정위에 미치는 영향을 비교분석하였다. 이를 위하여 머리전달함수의 측정조건과 시간 및 주파수특성을 비교 분석하였고 청취실에 헤드폰 재생을 통하여 $10^{\circ}$간격으로 음상정위에 대한 주관평가들 실시하였으며, 주관평가 자료를 이용하여 개인과 전체 평균에 대한 방향 지각 에러(각도)를 계산하였다. 실험결과, MIT 머리전달함수에 비하여 Neumann 머리전달함수를 이용한 음상정위가 양호하게 나타났으며 음질에 대해서도 청취자들은 Neumann 머리전달함수에 의한 재생음이 보다 자연스럽고, 명확한 품질을 갖는다고 답하였다.

  • PDF

압축율 변화에 따른 멀티채널 오디오의 품질 및 Predistortion 의 영향 평가 (Quality Assessment and Predistortion Evaluation of the Multi-channel Audio Codec according to the bitrate changing)

  • 차경환;장대영;김성한;김천덕
    • 한국음향학회지
    • /
    • 제15권2호
    • /
    • pp.55-60
    • /
    • 1996
  • 본 논문에서는 멀티채널 오디오의 전송 및 재생에 있어서 압축율 변화에 따른 음질의 주관 평가와 matrixing과 dematrixing 과정에서 발생하는 가청잡음을 보상해 주는 predistortion 의 영향을 평가하였다. 시뮬레이션은 지각 부호화를 이용하는 MPEG-2 오디오 계층2의 알고리즘을 사용하였으며, 압출율은 384, 320, 256, 128kbps로 변화시키면서 predistortion 의 유/무에 따른 음질의 영향을 평가하였다. double blind 법에 의한 주관 평가 결과 3/2채널에서 5점 열화척도가 320kbps까지는 -1이하로 원음과 차이가 없거나 거슬리지 않는 것으로 평가되었으며, predistortion의 영향은 128kbps에서 척도1정도 품질이 향상되었으며, 특히 음성시료가 음악시료보다 더욱 향상된 결과를 얻었다.

  • PDF

특징 맵 중요도 기반 어텐션을 적용한 복소 스펙트럼 기반 음성 향상에 관한 연구 (A study on speech enhancement using complex-valued spectrum employing Feature map Dependent attention gate)

  • 정재희;김우일
    • 한국음향학회지
    • /
    • 제42권6호
    • /
    • pp.544-551
    • /
    • 2023
  • 잡음 음성의 지각적 품질과 명료도 향상을 위해 활용되는 음성 향상은 크기 스펙트럼을 이용한 방법에서 크기와 위상을 같이 향상시킬 수 있는 복소 스펙트럼을 이용한 방법으로 연구되어왔다. 본 논문에서는 잡음 음성의 명료도와 품질을 더욱 향상시키기 위해 복소 스펙트럼 기반 음성 향상 시스템에 어텐션 기법을 적용하는 방안에 관해 연구를 수행하였다. 어텐션 기법은 additive attention을 기반으로 수행하며 복소 스펙트럼의 특성을 고려하여 어텐션 가중치를 계산할 수 있도록 하였다. 또한 특징 맵의 중요도를 고려하기 위해 전역 평균 풀링 연산을 같이 사용하였다. 복소 스펙트럼 기반 음성 향상은 Deep Complex U-Net(DCUNET) 모델을 기반으로 수행하였으며, additive attention은 Attention U-Net 모델에서 제안된 방법을 기반으로 연구를 수행하였다. 거실 환경의 잡음 데이터에 대해 음성 향상을 수행한 결과, 제안한 방법이 Source to Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short Time Objective Intelligibility(STOI) 평가 지표에서 기준 모델보다 개선된 성능을 보였으며, 낮은 Signal-to-Noise Ratio(SNR) 조건의 다양한 배경 잡음 환경에 대해서도 일관된 성능 향상을 보였다. 이를 통해 제안한 음성 향상 시스템이 효과적으로 잡음 음성의 명료도와 품질을 향상시킬 수 있음을 보여주었다.

FDBM의 음원분리 성능평가 (Evaluation of a signal segregation by FDBM)

  • 이채봉
    • 한국전자통신학회논문지
    • /
    • 제8권12호
    • /
    • pp.1793-1802
    • /
    • 2013
  • 음원분리 방법으로는 여러 가지가 제안되고 있으나 그 중에서도 주파수영역 두 귀 모델(Frequency Domain Binaural Model : FDBM)은 저 연산량과 울림 제거에 효과적이다. FDBM에 의한 두 귀 보청 시스템은 SNR이나 기여도 함수(Coherence function)에 의한 평가로 하기 때문에 인간의 청취특성을 고려하지 않고 있다. 본 논문에서는 음질의 문제 해결을 위하여 FDBM의 음원분리 성능평가를 하였다. SNR, 기여도 함수, PESQ의 세 가지 수법을 이용하여 기본 특성에 대하여 시뮬레이션을 통하여 확인하였다. 모든 결과가 FDBM에 의해 좌우 채널간 평가치의 차가 작게 되었고, 좌우 채널이 거의 같은 레벨까지 개선되었음을 확인하였다. 그리고 음원방향을 바꾸고 음원 수를 증가시킨 경우에도 일정한 개선이 보였다. SNR과 기여도 함수, PESQ의 결과를 비교하면 PESQ의 평가에서는 입력 SNR를 변동시킨 경우에도 거의 모든 조건에서 분리에 의한 평가가 개선되었다.

심층신경망 기반 오디오 부호화기를 위한 Multi-time Scale 손실함수의 최적화 (Optimization of Multi-time Scale Loss Function Suitable for DNN-based Audio Coder)

  • 신승민;변준;박영철;백승권;성종모
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.1315-1317
    • /
    • 2022
  • 최근, 심층신경망 기반 오디오 부호화기가 활발히 연구되고 있다. 심층신경망 기반 오디오 부호화기는 기존의 전통적인 오디오 부호화기보다 구조적으로 간단하지만, 네트워크의 복잡도를 증가시키지 않고 인지적 성능향상을 기대하는 것은 어렵다. 이 문제를 해결하기 위하여 인간의 청각적 특성을 활용한 심리음향모델 기반 손실함수를 사용한 기법들이 소개되었다. 심리음향 모델 기반 손실함수를 사용한 오디오 부호화기는 양자화 잡음을 잘 제어하였지만, 여전히 지각적인 향상이 필요하다. 본 논문에서는 심층신경망 기반 오디오 부호화기를 위한 Multi-time Scale 손실함수의 지역 손실함수 윈도우 크기의 최적화 제안한다. Multi-time Scale 손실함수의 지역 손실함수 계산을 위한 윈도우 크기를 조절하며, 이를 통하여 오디오 부호화에 적합한 윈도우 사이즈를 결정한다. 실험을 통해 얻은 최적의 Multi-time Scale 손실함수를 사용하여 네트워크를 훈련하였고, 주관적 평가를 통해 기존의 심리음향모델 기반 손실함수보다 좋은 음성 품질을 보여주는 것을 확인하였다.

  • PDF

반사음이 존재하는 양귀 모델의 음원분리에 관한 연구 (A study on sound source segregation of frequency domain binaural model with reflection)

  • 이채봉
    • 융합신호처리학회논문지
    • /
    • 제15권3호
    • /
    • pp.91-96
    • /
    • 2014
  • 두 개의 입력소자에 의한 음원방향 및 분리방법으로서는 연산량이 적고, 음원분리 성능이 높은 주파수 양귀 모델(Frequency Domain Binaural Model : FDBM)이 있다. FDBM은 주파수 영역에서 양귀간 위상차(Interaural Phase Difference : IPD) 및 양귀간 레벨차(Interaural Level Difference : ILD)를 구하여 음향신호가 오는 방향과 음원의 분리처리를 한다. 그러나 실제 환경에서는 반사음의 문제가 되고 있다. 이러한 반사음에 의한 영향을 줄이기 위하여 선행음 효과에 의한 직접음의 음상정위를 모의하여 초기 도착음을 검출하고 직접음이 오는 방향과 음원분리 방법을 제시하였다. 제시한 방법을 이용하여 음원방향 추정 및 분리에 대한 성능을 시뮬레이션으로 검토하였다. 그 결과, 방향추정은 음원이 오는 방향에서 ${\pm}10%$의 범위로 집중되어 음원의 방향과 가까운 값으로 추정되었다, 반사음이 존재하는 경우의 음원분리는 기존의 FDBM에 비하여 코히런스(Coherence), 음성품질 지각평가 PESQ(Perceptual Evaluation of Speech Quality : PESQ)가 높고, 정면에서의 지향특성 감쇠량이 작아 분리의 정도가 개선됨을 나타내었다. 그러나 반사음이 존재하지 않는 경우는 분리 정도가 낮았다.