• Title/Summary/Keyword: 객관적 음질 평가 모델

Search Result 14, Processing Time 0.033 seconds

Development of Objective Sound Quality Evaluation Method Based on Subjective Sound Quality Evaluation (주관적 음질 평가 모델을 이용한 객관적 음질 평가 방법의 개발)

  • Kim Jong-Bae;Sung Ho-Young;Lee Joon-Hyun;Jang Seong-Cheol
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.115-118
    • /
    • 2004
  • 일반적으로 오디오 시스템 혹은 AV 장치의 음질 평가는 숙련된 음질 평가자(Trained Listeners)의 주관적 평가 기준에 의해 평가가 이루어지고 있다. 그러나 이러한 방법은 평가자의 개인적 선호도(Preference) 및 청취 환경에 따라 음질 평가 결과가 왜곡되는 현상이 쉽게 발생하게 된다. 이런 이유로 주관적인 음질 평가 방법은 음질 평가자의 체감 음질과 직접적인 관계가 있음에도 불구하고 정확성 및 시불변성에 취약한 문제점을 내포하고 있다. 본 논문에서는 오디오 시스템 혹은 AV 장치에 대한 주관적인 음질 평가 방법을 기본 모델로 이용하여 주관적 음질 평가 항목과 계량화가 가능한 객관적 음질 평가 항목과의 상관 관계를 규명하여 기존의 주관적 음질 평가를 대체할 수 있는 객관적 음질 평가 방법을 새로이 제시한다.

  • PDF

Analysis and Evaluation of PEAQ : Objective Method for Perceived Audio Quality Measurement (객관적 음질 평가를 위한 PEAQ의 성능 평가 및 분석)

  • Park Se-Hyoung;Ryu Seung-Wan;Park Jeong-Yeol;Shin Jae-Ho
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 2003.08a
    • /
    • pp.234-239
    • /
    • 2003
  • 디지털방송, DAB 등과 같은 디지털 오디오 방송 서비스를 위한 디지털 시스템을 설계하기 위해서는 오디오 음질을 평가하기 위한 방법이 필수적이다. 기존의 방식은 인간의 귀를 이용한 주관적 방식을 이용함으로서 많은 시간과 비용을 들이게 되며, 음질평가를 하는 사람의 주관적 의견에 많이 좌우하게 된다. 그러나 최근 ITV-R에서는 오디오 음질의 객관적 평가를 위한 BS.1387(PEAQ)를 제안함으로 많은 시간과 비용을 절감하고 신뢰할 수 있는 결과를 얻게 되었다. PEAQ는 인간의 귀에서의 신호의 처리과정과 인식과정을 심리음향모델과 인식모델로 분리하여 구성함으로써 주관적 평가의 SDG(Subjective Difference Grade)에 대응하는 ODG(Objective Difference Grade)를 구하게 된다. 본 논문에서는 이러한 PEAQ의 심리음향 모델과 인식 모델을 원리와 과정을 평가 분석하였다.

  • PDF

Objective Assessment Model for Refrigerator Noises (냉장고 소음의 객관적 평가 모델)

  • Park, Jong-Geun;Cho, Youn;Lee, Sang-Wook;Hwang, Dae-Sun;Lee, Chul-Hee
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.46 no.5
    • /
    • pp.80-90
    • /
    • 2009
  • This paper presents objective methods which predict perceptual noise levels caused by refrigerators. Eight home refrigerators are chosen and their noises are recorded in an anechoic-chamber and a real-life apartment. In order to obtain perceptual noise levels of the refrigerators, subjective quality assessment tests were performed by 100 evaluators Then, we compute 5 sound quality metrics (SQM) which reflect psychoacoustics characteristics. Finally, objective assessment model for refrigerator noises is developed by linear combination of SQMs.

Improving Speech Quality of VoIP by Packet Prioritization (패킷 중요도 결정에 의한 VoIP 통화 품질 향상 기술)

  • Yoon, Jae-Yul;Park, Ho-Chong
    • The Journal of the Acoustical Society of Korea
    • /
    • v.29 no.5
    • /
    • pp.347-353
    • /
    • 2010
  • In VoIP system, the speech quality is seriously degraded due to packet loss, and the degree of degradation by each packet loss depends on the characteristics of the corresponding packet. Therefore, it is possible to improve the speech quality of VoIP by selectively controlling the packet to be lost during transmission based on the expected degradation by the loss of each packet. In this paper, a new scheme to improve speech quality of DiffServ-based VoIP by assigning priority to each packet is proposed, and a method to determine the priority of each packet is developed. The performance of proposed method was measured in packet loss environment based on Gilbert model, and it was verified both objectively and subjectively that the speech quality is improved by the proposed method.

Study of Sound Quality Improvement for Car Audio System (자동차 오디오 시스템의 음질 개선 연구)

  • 박석태
    • Proceedings of the Korean Society for Noise and Vibration Engineering Conference
    • /
    • 1995.10a
    • /
    • pp.123-129
    • /
    • 1995
  • 본 논문은 차실내 음향 특성 개선 연구로 수행중이며 정상 상태 음향 응답 특성 시험을 통하여 차실내에서 운전자가 듣게되는 음장 특성을 알게 되었고, 라우드 스피커에 대한 음향 특성 시험으로 이러한 차실내 음장의 비평탄성은 라우드 스피커 자체의 문제가 아니라 차실 공간등이 요인에 의한 것이라는 것을 추론할 수 있었다. 배플 상태 및 차량에 장착된 상태하의 라우드 스피커에 대한 임피던스 시험 결과로 임피던스의 장착 부위의 후면 공간이 임피던스 특성 변화를 가져오게 하는 것을 알 수 있었다. 임피던스 시험 결과를 이용하여 라우드 스피커에 대한 모델 매개 변수를 규명할 수 있었고, 이를 이용한 라우드 스피커의 모델 개선이 가능하게 되었다. 또한, 시간 지연 분광법을 이용하여 차실내에서 음향 전파 과정 분석을 할 수 있었고, 이로 인해 운전자가 시간에 따라 다른 음향 응답 특성으로 듣게 되는 것을 알게 되어 향후 음질 개선 연구 수행에 이용될 수 있다. 이러한 방법으로 음이 진행함에 따라 부딪치는 반사면의 흡음 또는 반사 특성을 파악할 수도 있어서 흡음재의 선정 및 라우드 스피커의 장착 위치 및 각도를 선정하는데 이용될 수도 있다. 향후의 연구 방향은 어떠한 음향 패턴이 운전자가 좋은 음향이라고 느끼게 되는지를 규명하는 것, 즉 주관적 평가와 객관적 시험 데이터 사이의 연관성을 확립하는 것과 라우드 스피커 모델링 기법과 차실 공간의 음향 특성을 이용한 차실내 최적 음향 조건을 규명하는 것이 될 것이다.

  • PDF

Quality Improvement of Karaoke Mode in SAOC using Cross Prediction based Vocal Estimation Method (교차 예측 기반의 보컬 추정 방법을 이용한 SAOC Karaoke 모드에서의 음질 향상 기법에 대한 연구)

  • Lee, Tung Chin;Park, Young-Cheol;Youn, Dae Hee
    • The Journal of the Acoustical Society of Korea
    • /
    • v.32 no.3
    • /
    • pp.227-236
    • /
    • 2013
  • In this paper, we present a vocal suppression algorithm that can enhance the quality of music signal coded using Spatial Audio Object Coding (SAOC) in Karaoke mode. The residual vocal component in the coded music signal is estimated by using a cross prediction method in which the music signal coded in Karaoke mode is used as the primary input and the vocal signal coded in Solo mode is used as a reference. However, the signals are extracted from the same downmix signal and highly correlated, so that the music signal can be severely damaged by the cross prediction. To prevent this, a psycho-acoustic disturbance rule is proposed, in which the level of disturbance to the reference input of the cross prediction filter is adapted according to the auditory masking property. Objective and subjective test were performed and the results confirm that the proposed algorithm offers improved quality.

One-shot multi-speaker text-to-speech using RawNet3 speaker representation (RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템)

  • Sohee Han;Jisub Um;Hoirin Kim
    • Phonetics and Speech Sciences
    • /
    • v.16 no.1
    • /
    • pp.67-76
    • /
    • 2024
  • Recent advances in text-to-speech (TTS) technology have significantly improved the quality of synthesized speech, reaching a level where it can closely imitate natural human speech. Especially, TTS models offering various voice characteristics and personalized speech, are widely utilized in fields such as artificial intelligence (AI) tutors, advertising, and video dubbing. Accordingly, in this paper, we propose a one-shot multi-speaker TTS system that can ensure acoustic diversity and synthesize personalized voice by generating speech using unseen target speakers' utterances. The proposed model integrates a speaker encoder into a TTS model consisting of the FastSpeech2 acoustic model and the HiFi-GAN vocoder. The speaker encoder, based on the pre-trained RawNet3, extracts speaker-specific voice features. Furthermore, the proposed approach not only includes an English one-shot multi-speaker TTS but also introduces a Korean one-shot multi-speaker TTS. We evaluate naturalness and speaker similarity of the generated speech using objective and subjective metrics. In the subjective evaluation, the proposed Korean one-shot multi-speaker TTS obtained naturalness mean opinion score (NMOS) of 3.36 and similarity MOS (SMOS) of 3.16. The objective evaluation of the proposed English and Korean one-shot multi-speaker TTS showed a prediction MOS (P-MOS) of 2.54 and 3.74, respectively. These results indicate that the performance of our proposed model is improved over the baseline models in terms of both naturalness and speaker similarity.

Quality Improvement of Low-Bitrate HE-AAC Encoder (HE-AAC 부호화의 저비트율에서 음질향상 기법)

  • Kim, Jeong-Geun;Lee, Jae-Seong;Lee, Tae-Jin;Kang, Kyeong-Ok;Park, Young-Cheol
    • The Journal of the Acoustical Society of Korea
    • /
    • v.27 no.2
    • /
    • pp.66-74
    • /
    • 2008
  • In this paper, we propose new techniques that can improve the quality of AAC and SBR encoders comprised in low bitrate HE-AAC. To reduce the pre-echo artifacts often occurring for transient blocks in AAC, we propose an extended Temporal Noise Shaping (sTNS) in which the frequency range is selectively extended down to the low-frequency region. Also, for he high-frequency region being coded by SBR encoder, tones are identified through a sinusoidal modeling and their frequencies are adjusted within the QMF band in order to reduce the noise floor due to aliasing. Spectrograms of the decoded signals were compared and listening tests were conducted to evaluate the proposed algorithm. Results confirmed the effectiveness of the proposed algorithm.

A Study on the Transaural Filter Implementation for 5.1 Channel Speaker System (5.1채널 스피커 시스템에서 트랜스오럴 필터 구현에 관한 연구)

  • 최갑근;방승범;김순협;정완섭
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.3
    • /
    • pp.245-255
    • /
    • 2002
  • This thesis deals a method to deliver more realistic sound by cancelling the cross-talk which is inherent to the 5.1 channel speaker system. The acoustical model for cross-talk cancellation is the free field model. This model minimizes distortion of sound. I used the bark scale sound quality compensation which based on psycho-acoustic. For the surround channels, band-limited sound quality compensation is performed in the frequency domain. I also performed the sound quality assessment test on the traditional 2 channel stereo and 5.1 channel system. This test is performed in the test chamber which satisfies the ITU-R specifications. I uses the IACC (Inter-Aural Cross-Correlation) to determine the preferences of the amateur and the golden ear experts to asses the trans-aural filter. According to the result from the proposed method, I got more the 38 dB separation rates with the Dolby standard speaker array. The results on the diffusion by the subjective test with the experts shows 0.4 point increased then before.

Enhanced Adjustment Strategy of Masking Threshold for Speech Signals in Low Bit-Rate Audio Coding (저전송률 오디오 부호화에서 음성 신호의 성능 개선을 위한 마스킹 임계값 적응기법 향상)

  • Lee, Chang-Heon;Kang, Hong-Goo
    • The Journal of the Acoustical Society of Korea
    • /
    • v.29 no.1
    • /
    • pp.62-68
    • /
    • 2010
  • This paper proposes a new masking threshold adjustment strategy to improve the performance for speech signals in low bit-rate audio coding. After determining formant regions, the masking threshold is adjusted by using the energy ratio of each sub-band to the average energy of each formant. More quantization noises are added to the bands that have relatively large energy, but less distortion is allowed in spectral valley regions by allocating more bits, which reflects the concept of perceptual weighting widely used in speech coding. From the results of objective speech quality measure, we verified that the proposed method improves quality for the speech input signals compared to the conventional one.