• 제목/요약/키워드: speech quality evaluation

검색결과 178건 처리시간 0.028초

한국어 음성합성기 성능평가에 의한 합성 음질개선 (Speech Quality Improvement by Speech Quality Evaluation)

  • 양희식;한민수;김종진
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.37-40
    • /
    • 2002
  • 본 논문에서는 한국어 합성기의 명료도 및 자연성 평가방안에 대한 개략적인 설명과 이 방안을 실제로 2종류의 서로 다른 한국어 합성기에 적용한 결과를 요약하였다. 한편, 이러한 평가결과를 바탕으로 실제로 이루어진 음질 개선 실 예를 소개하는 한편 향후 한국어 합성기의 성능 개선 방향을 제안하였다.

  • PDF

난청인의 난청 정도에 따른 비대칭 청각 필터 구현의 객관적 평가 (An Objective Estimation for Simulating of Asymmetrical Auditory Filter of the Hearing Impaired According to Hearing Loss Degree)

  • 주상익;전유용;송영록;이상민
    • 재활복지공학회논문지
    • /
    • 제3권1호
    • /
    • pp.27-34
    • /
    • 2009
  • 난청인의 청력 손실은 개인별로 다양하므로 기존의 대칭적으로 주파수 밴드별 청각 필터를 구현하는 방법은 다양한 형태의 난청인의 청력 손실을 적절하게 모사해주지 못한다. 각 중심주파수와 음성의 입력크기에 따라 청각 필터의 형태가 비대칭적으로 바뀌고 청력손실이 있는 난청인은 청력 손실에 따라 청각필터의 형태가 정상인들과는 다른 형태로 바뀌게 되며 음질에도 차이가 있다. 본 연구에서는 난청인의 난청 정도에 따라 변하는 비대칭 청각 특성을 잘 반영한 청각필터를 구현하여 몇 가지 실험을 통해 각 구현된 청각 필터의 성능을 객관적으로 평가하였다. 실험은 구현된 청각 필터를 통한 음성의 perceptual evaluation of speech quality (PESQ) 와 log likelihood ratio (LLR)를 사용하였으며 그 값을 통해 처리된 음성의 객관적인 음질과 왜곡정도를 평가 하였다. 청력 손실을 주었을 때 대칭과 비대칭 청각 필터사이의 PESQ 와 LLR 값을 실험해 본 결과 청각 필터 간의 큰 차이를 보였다. 위 실험 결과들로 대칭과 비대칭 청각 필터의 형태에 따라서 음성의 음질에 영향을 받는다는 것을 알 수 있었다. 특히, 난청이 있을 때 중심 주파수별 청각 필터의 비대칭적 형태 변화가 난청인이 받아들이는 음질에 영향이 있었다.

  • PDF

E-모델 기반 통화 품질 분석을 통한 VoIP Planning 및 평가 (VoIP Planning and Evaluation through the Analysis of Speech Transmission Quality Based on the E-Model)

  • 배성용;김광훈
    • 인터넷정보학회논문지
    • /
    • 제5권6호
    • /
    • pp.31-43
    • /
    • 2004
  • 인터넷의 발달은 통신 기술에 커다란 변화를 요구하고 있다. 특히 공중전화망(PSTN: Public Switched Telephone Network)은 장기적으로 인터넷으로 흡수 통합되고, 현재는 이들간의 연동이 요구되고 있는 실정이다. 이처럼 인터넷에서의 전화 서비스는 인터넷 응용 서비스 중 가장 활용 가치가 높고, 기대를 모으고 있는 서비스이다. 그러나 높은 기대와 적은 서비스 이용료에도 불구하고 인터넷 전화 서비스의 보급이 부진한 이유는 낮은 서비스 품질에 있다. 지금까지 VoIP(Voice over IP) 서비스 품질 평가를 위해 송수신되는 음성에 기반 한 다수의 통화 품질 측정 알고리즘들이 사용되어 왔지만, 이러한 알고리즘들은 음성 샘플에 따라 그 결과가 다르고, 일부 알고리즘은 음성 전송 경로의 네트워크 환경 요소를 반영하지 못하는 단점이 있다. E-모델은 이러한 알고리즘들의 문제점을 해결하기 위해 사용될 수 있다. 본 논문에서는 VoIP 단말의 통화 품질은 물론, 음성 전송 경로의 네트워크 품질 손실 요소들을 체계적으로 분석할 수 있는 E-모델의 다양한 분석을 통해 인터넷 전화 사업자나 망 운용자의 VoIP 계획(planing)에 대한 가이드라인과 통화 품질 평가 방법 및 결과를 제시하고자 한다.

  • PDF

서브밴드 백색화 필터를 이용한 부공간 잡음 제거 (Subspace Speech Enhancement Using Subband Whitening Filter)

  • 김종욱;유창동
    • 한국음향학회지
    • /
    • 제22권3호
    • /
    • pp.169-174
    • /
    • 2003
  • 본 논문에서는 서브밴드 백색화 필터를 이용한 새로운 부공간 잡음제거 방법을 제안하였다. 기존의 부공간 접근방법에서는 백색 잡음을 가정하거나, 유색 잡음에 대한 전처리로서 백색화 필터를 사용하였다. 백색화 필터를 서브밴드로 나누어 처리함으로써, 제안된 방법은 잔여잡음을 줄이면서 신호 왜곡의 상한값을 최소화하도록 설계하였다. 또한 서브밴드 백색화 필터를 도입함으로써 부공간 잡음제거 방법에서 약점으로 지적되는 것 중의 하나인 Karhunen-Loeve(KL) 영역에서의 주파수 해상도를 높일 수 있었다. 실험결과에 의하면 제안된 방법은 Ephraim에 의해 제안된 방법 부공간 잡음 제거 방법이나, Boll에 의해 제안된 주파수 차감법에 비해 구분 신호대 잡음 비 (SNRseg: segmental signal-to-noise ratio), 음성의 인지적 성능 평가 (PESQ: perceptual evaluation of speech quality)를 고려하였을 때 향상된 성능을 보였다.

다계통위축증 환자를 대상으로 한 마비말장애 집중 치료의 효과 (Efficacy of intensive treatment of dysarthria for people with multiple system atrophy)

  • 박영미
    • 말소리와 음성과학
    • /
    • 제10권4호
    • /
    • pp.163-171
    • /
    • 2018
  • A mixed dysarthria with combinations of hypokinetic, ataxic, and spastic components is a common clinical feature of multiple system atrophy (MSA). Due to the rapid progress of dysarthria after diagnosis, people with MSA experience difficulty with verbal communication, which eventually affects their quality of life negatively. In this study, SPEAK $OUT!^{(R)}$, an intensive 1:1 treatment of dysarthria for improving functional communicative ability, was provided to twelve people with MSA. To evaluate the efficacy of SPEAK $OUT!^{(R)}$ in people with MSA, aerodynamic, acoustic, and perceptual analyses were conducted. Pre-and post-therapy data included maximum phonation time, vocal intensity, and fundamental frequency during /a/ sustained phonation and passage reading; frequency range between high /a/ and low /a/ phonation; jitter, shimmer, and HNR for vocal quality; speech rate during passage reading; and perceptual evaluation scores for articulation precision and intonation. The participants achieved statistically significant improvement in vocal intensity, pitch range, vocal quality, speech rate, and speech intelligibility. In conclusion, SPEAK $OUT!^{(R)}$ is a feasible treatment for people with MSA to efficaciously improve their speech ability.

AMSTAR에 기반한 국내 언어치료 분야 메타분석 논문의 방법론적 질평가 (The evaluation of methodological quality of meta-analysis studies in speech language pathology using AMSTAR)

  • 한민주;변해원
    • 한국융합학회논문지
    • /
    • 제11권2호
    • /
    • pp.161-165
    • /
    • 2020
  • 재활과학분야에서 메타분석을 이용한 연구가 증가하는 추세이지만 모든 메타분석 논문의 질적 수준이 동일한 것은 아니다. 특히, 메타분석이 가장 상위의 근거수준을 가진 연구방법임에도 불구하고, 개별 연구들 간의 이질성을 고려하지 않고 단순히 대푯값만을 통합할 경우 결과를 왜곡시킬 뿐만 아니라 잘못된 대안을 도출할 가능성이 높다. 본 연구는 2010년 1월부터 2019년 6월까지 우리나라에서 출판된 언어중재를 주제로 한 메타분석 논문을 대상으로 현황을 파악하고, A Measurement Tool to Assess the Methodological Quality of Systematic Review(AMSTAR)를 이용하여 방법론적 질을 평가하였다. 검색된 논문 98편 중 최종 5편 논문의 방법론적 질을 평가한 결과 총점 11점 중에서 평균 7.4점이 산출되어 보통 이상의 수준으로 확인되었다. 향후 언어병리학 메타연구의 질적 수준을 높이기 위해서는 출판편향에 대한 검증과 이해상충에 대한 명시를 포함해야 할 것으로 사료된다.

성악 전공 학생의 가칭 시 음성의 SPR(Singing Power Ratio)에 관한 연구 (A Study of the SPR (Singing Power Ratio) on the Singing Voice in Singing Students)

  • 조성미;정옥란;이상욱
    • 음성과학
    • /
    • 제11권4호
    • /
    • pp.121-127
    • /
    • 2004
  • This study attempted to provide a spectrum analysis for quantitative evaluation of singing voice quality of singing students rather than the presence or absence of the singer's formant. The regression analysis was used to analyse the relationship between ringing quality, SPR, and SPP of singing voice of college student subjects majoring in music. This study measured singing. power ratio (SPR) in 41 singing students. Digital audio recordings were made in sung vowels for acoustic analyses. Each sample was judged by 1 experienced singing teacher and 4 voice pathologists on one semantic bipolar 7-point scales (ringing-dull). The results showed that the SPR and SPP had significant correlations with ringing quality. The SPR had a significant relationship with ringing quality on singing voice in singing students. The SPR can be an important quantitative measurement for evaluating singing voice quality.

  • PDF

주파수 영역 심층 신경망 기반 음성 향상을 위한 실수 네트워크와 복소 네트워크 성능 비교 평가 (Performance comparison evaluation of real and complex networks for deep neural network-based speech enhancement in the frequency domain)

  • 황서림;박성욱;박영철
    • 한국음향학회지
    • /
    • 제41권1호
    • /
    • pp.30-37
    • /
    • 2022
  • 본 논문은 주파수 영역에서 심층 신경망 기반 음성 향상 모델 학습을 위하여 학습 대상과 네트워크 구조에 따라 두 가지 관점에서 성능을 비교 평가한다. 이때, 학습 대상으로는 스펙트럼 매핑과 Time-Frequency(T-F) 마스킹 기법을 사용하였고 네트워크 구조는 실수 네트워크와 복소 네트워크를 사용하였다. 음성 향상 모델의 성능은 데이터 셋 규모에 따라 Perceptual Evaluation of Speech Quality(PESQ)와 Short-Time Objective Intelligibility(STOI) 두 가지 객관적 평가지표를 통해 평가하였다. 실험 결과, 네트워크의 종류와 데이터 셋 종류에 따라 적정한 훈련 데이터의 크기가 다르다는 것을 확인하였다. 또한, 데이터의 크기와 학습 대상에 따라 복소 네트워크보다 실수 네트워크가 비교적 높은 성능을 보이기 때문에 총 파라미터의 수를 고려한다면 경우에 따라 실수 네트워크를 사용하는 것이 보다 현실적인 해결책일 수 있다는 것을 확인하였다.

다양한 손실 함수를 이용한 음성 향상 성능 비교 평가 (Performance comparison evaluation of speech enhancement using various loss functions)

  • 황서림;변준;박영철
    • 한국음향학회지
    • /
    • 제40권2호
    • /
    • pp.176-182
    • /
    • 2021
  • 본 논문은 다양한 손실 함수에 따른 Deep Nerual Network(DNN) 기반 음성 향상 모델의 성능을 비교 평가한다. 베이스라인 모델로는 음성의 위상 정보를 고려할 수 있는 복소 네트워크를 사용하였다. 손실 함수는 두 가지 유형의 기본 손실 함수, Mean Squared Error(MSE)와 Scale-Invariant Source-to-Noise Ratio(SI-SNR)를 사용하였으며 두 가지 유형의 지각 기반 손실 함수 Perceptual Metric for Speech Quality Evaluation(PMSQE)과 Log Mel Spectra(LMS)를 사용한다. 성능은 각 손실 함수의 다양한 조합을 사용하여 얻은 출력을 객관적인 평가와 청취 테스트를 통해 측정하였다. 실험 결과, 지각기반 손실 함수를 MSE 또는 SI-SNR과 결합하였을 때 전반적으로 성능이 향상되며, 지각기반 손실함수를 사용하면 객관적 지표에서 약세를 보이는 경우라도 청취 테스트에서 우수한 성능을 보임을 확인하였다.

운율 및 분절음의 독립적 발음 평가 연구: 영어 원어민과 한국인 영어 학습자의 영어 발음 평가 차이를 중심으로 (A Study of an Independent Evaluation of Prosody and Segmentals: With Reference to the Difference in the Evaluation of English Pronunciation between Native Speakers of English and Korean Learners of English)

  • 박한상
    • 말소리와 음성과학
    • /
    • 제2권4호
    • /
    • pp.101-107
    • /
    • 2010
  • This study investigates the difference in the evaluation of English pronunciation quality between native speakers of English and Korean learners of English. This study employs a novel method of independently evaluating the prosody and segmentals of English sentences. A set of stimuli were made by swapping the prosody and the segmentals of English sentences read by a native speaker of American English and a Korean learner of English. Evaluations of the difference level of stimuli pairs and the goodness of the pronunciation quality showed that both native speakers of English and Korean learners of English give priority to the segmentals but native speakers of English were more sensitive to the difference in prosody in the evaluation of English pronunciation.

  • PDF