• 제목/요약/키워드: Voice Quality

검색결과 769건 처리시간 0.03초

시각장애인을 위한 CNN 기반의 점자 변환 및 음성 출력 장치 설계 (Design of CNN-based Braille Conversion and Voice Output Device for the Blind)

  • 박승빈;김봉현
    • 사물인터넷융복합논문지
    • /
    • 제9권3호
    • /
    • pp.87-92
    • /
    • 2023
  • 시대가 발전함에 따라 정보가 다양해지고 이를 얻는 방법도 다양해진다. 살아가면서 얻는 정보의 양 중 약 80%는 시각적 감각으로 습득한다. 하지만 시각장애인들은 시각 자료를 해석하는 능력이 제한된다. 그래서 점자라는 시각장애인용 문자가 등장했다. 그러나 시각장애인들의 점자 해독률은 5%에 불과하며 시간에 지남에 따라 다양한 형태의 플랫폼이나 자료를 원하는 시각장애인들의 요구가 늘어나면서 시각장애인들을 위한 개발 및 물품 제작이 이루어지고 있다. 물품 제작의 예로는 점자 도서를 들 수 있는데 이 점자 도서는 장점보단 단점이 많아 보이고 비장애인과 다르게 아직도 정보 접근에 대해서는 많이 어려운 것이 사실이다. 본 논문에서는 시각장애인이 정보를 기존의 방법보다 쉽게 얻을 수 있도록 CNN 기반 점자 변환 및 음성 출력 장치를 설계하였다. 이 장치는 점자로 되어 있지 않고 점자로 제작이 되지 않은 책, 텍스트 이미지나 손글씨 이미지 등을 카메라 인식을 통해 점자로 변환할 수 있도록 하고, 점자로 변환 후 시각장애인들의 요구에 따라서 음성으로 변환해 출력할 수 있는 기능을 설계해 시각장애인들이 정보를 얻을 수 있게 도와주어 삶의 질을 높이고자 한다.

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템 (One-shot multi-speaker text-to-speech using RawNet3 speaker representation)

  • 한소희;엄지섭;김회린
    • 말소리와 음성과학
    • /
    • 제16권1호
    • /
    • pp.67-76
    • /
    • 2024
  • 최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.

사후 서비스에서 선제적 서비스로 서비스 패러다임의 전환 (Transition of Service Paradigm from Service Recovery to Proactive Service)

  • 이현정;김향미;이창섭
    • 한국콘텐츠학회논문지
    • /
    • 제20권4호
    • /
    • pp.396-405
    • /
    • 2020
  • 본 연구에서는 초고속인터넷 상품에 관련된 고객 불만사항(VOC, Voice of Customer)의 빅데이터를 활용하여 고객이 지각하는 품질이상의 원인과 선제적 서비스의 가능성을 살펴보았다. 선제적 서비스의 가능성을 검증하기 위해 실제 이동통신 서비스기업의 시설·장비의 총 13개 장애경보에 관련된 품질이상 VOC를 수집한 후, 𝒙2검증을 통해 품질이상 VOC 실제관측값과 기대값이 통계적으로 유의한 차이가 있는 지 검증하였다. 연구결과, 시설·장비의 총 13개 장애경보 관련 품질이상 VOC 중 6개의 장애경보로서, 'FTTH-R 장비 ON/OFF', 'FTTH-E,V 회선오류 감지', '포트불량, FTTH-R 회선오류 감지', '네트워크 LOOP 감지', 그리고 '비정상 트래픽 제한'은 실시간 모니터링을 통한 선제적 서비스가 가능하다는 통계적 근거를 찾았다. 기업들은 이러한 선제적 서비스를 이용하여 시잠점유율을 향상키시고 고객서비스 비용을 절감하는 데 적용할 수 있을 것이다. 본 연구의 결과는 통신서비스 분야의 선제적 서비스의 가능성을 진단하고, 나아가 효과적인 선제적 서비스 제공 방안에 대한 시사점을 제시하였다는 점에서 실제 산업 적용에 대한 공헌점이 기대된다.

뇌졸중 환자의 말, 언어장애 선별에 대한 검사자간 신뢰도 및 훈련효과 (Inter-rater Reliability and Training Effect of the Differential Diagnosis of Speech and Language Disorder for Stroke Patients)

  • 김정완
    • 한국콘텐츠학회논문지
    • /
    • 제11권9호
    • /
    • pp.407-413
    • /
    • 2011
  • 뇌졸중 환자의 실어증 유무를 정확히 판별하고 환자의 미세한 언어적 변화를 적절히 관찰하기 위해서는 일차적으로 신뢰로운 검사도구를 사용하여야 하고, 또한 검사자가 해당 도구의 사용에 있어 충분히 숙지하고 있어야 한다. 본 연구에서는 뇌졸중 환자의 실어증 및 말장애 유무의 진단에서 검사자의 전공영역에 따른 관찰자간 신뢰도를 살펴보고 훈련 전과 후의 차이를 비교해보고자 하였다. 이를 위해, 침상에 있는 뇌졸중 환자 46명을 대상으로 언어치료사, 신경과 전공의, 그리고 간호사 각각 4명씩 총 12명이 동시에 실어증 및 말장애 유무를 평가하였다. 연구 결과, 서로 다른 전공 영역의 전문가들 간에 말명료도 과제와/아/모음연장발성 과제의 '음질' 영역에서만 'acceptable'로 나타났고, 나머지 하부검사 영역에서는 'good-excellent'로 나타났다. 관찰자간 신뢰도가 'acceptable'로 나타난 과제들에 대해 3주간의 비디오 훈련 전후의 점수 차이를 비교하였다. 그 결과, 훈련 후 말명료도 과제에서 검사자들 간의 평정 점수의 차이는 유의하게 줄어들었으며, '음질' 평정의 정확성도 유의하게 증가하였다. 임상 경험 정도와 각 하부검사에 대한 평정 정확성 간의 상관관계를 알아본 결과, 언어치료사들은 임상 경험 정도가 증가할수록 그림설명하기 과제와 말명료도 과제에서, 그리고 의사 및 간호사들은 그림설명하기 과제에서 판정 정확도가 높아지는 것으로 나타났다. 결론적으로, 이 연구 결과는 뇌졸중 환자의 의사소통장애 진단에 있어 신경언어장애 환자 중, 특히 말장애환자에 대한 꾸준한 경험과 훈련이 반드시 필요하며, 훈련을 통해 평정 신뢰도를 확보할 수 있음을 시사한다.

잡음 환경에 효과적인 마스크 기반 음성 향상을 위한 손실함수 조합에 관한 연구 (A study on combination of loss functions for effective mask-based speech enhancement in noisy environments)

  • 정재희;김우일
    • 한국음향학회지
    • /
    • 제40권3호
    • /
    • pp.234-240
    • /
    • 2021
  • 본 논문에서는 잡음 환경에서 효과적인 음성 인식을 위해 마스크 기반의 음성 향상 기법을 개선한다. 마스크 기반의 음성 향상 기법에서는 심층 신경망을 기반으로 추정한 마스크를 잡음 오염 음성에 곱하여 향상된 음성을 얻는다. 마스크 추정 모델로 VoiceFilter(VF) 모델을 사용하고 추정된 마스크로 얻은 음성으로부터 잔여 잡음을 보다 확실히 제거하기 위해 Spectrogram Inpainting(SI)기법을 적용한다. 본 논문에서는 음성 향상 결과를 보다 개선하기 위해 마스크 추정을 위한 모델 학습 과정에 사용되는 조합된 손실함수를 제안한다. 음성 구간에 남아 있는 잡음을 보다 효과적으로 제거하기 위해 잡음 오염 음성에 마스크를 적용한 Triplet 손실함수의 Positive 부분을 컴포넌트 손실함수와 조합하여 사용한다. 실험 평가를 위한 잡음 음성 데이터는 TIMIT 데이터베이스와 NOISEX92, 배경음악 잡음을 다양한 Signal to Noise Ratio(SNR) 조건으로 합성하여 만들어 사용한다. 음성 향상의 성능 평가는 Source to Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short-Time Objective Intelligibility(STOI)를 이용한다. 실험을 통해 평균 제곱 오차로만 훈련된 기존 시스템과 비교하여, VF 모델은 평균 제곱 오차로 훈련하고 SI 모델은 조합된 손실함수를 사용하였을 때 SDR은 평균 0.5dB, PESQ는 평균 0.06, STOI는 평균 0.002만큼 성능이 향상된 것을 확인했다.

치료적 노래부르기를 통한 두경부암 환자의 말산출 기능 향상 사례 (Therapeutic Singing on Speech Production Parameters in Head and Neck Cancer Patients: Case Studies)

  • 김주희;김수지
    • 재활복지
    • /
    • 제22권3호
    • /
    • pp.189-208
    • /
    • 2018
  • 본 연구는 세 명의 두경부암 환자들을 대상으로 말산출 관련 기능 개선을 목표로 치료적 노래부르기 중심의 음악중재를 시행하고, 각 사례 별로 변화를 관찰 기술한 사전-사후 개별 사례연구이다. 중재는 개별 세션의 형태로 매 회기 30분, 주 2회씩 총 12회기 동안 진행되었으며, 시행된 프로그램은 호흡근 이완을 위한 신체움직임, 조음기관의 운동범위 확장 및 성대이완을 위한 발성훈련과 치료적 노래부르기의 총 3단계로 구성되었다. 중재에 따른 대상자들의 말산출 관련 기능의 변화를 알아보기 위해 음성의 질, 길항반복운동속도(diadochokinesis, DDK), 모음공간면적(vowel space area, VSA) 변화 등의 음향학적 분석과 <산책>문단 읽기 과제 시의 청지각적 평가를 시행하였고, 프로그램 참여 시의 관찰 및 사전 사후 면담을 통해 대상자의 심리정서적 변화를 추가적으로 살펴보았다. 중재 과정에서 모든 대상자의 재활동기 및 음성 사용에 대한 긍정적 변화 양상이 관찰되었고, 중재 후에는 음성의 질, DDK에 변화가 있었으며, VSA의 확대가 나타났다. 본 연구를 통해 치료적 노래부르기 중심의 음악중재프로그램이 두경부암 환자들의 음성 기능 및 잔존하는 조음기관 운동성을 향상시키는데 긍정적인 영향을 미칠 수 있음을 알 수 있었다.

드론 소음 환경에서 심층 신경망 기반 음성 향상 기법 적용에 관한 연구 (A study on deep neural speech enhancement in drone noise environment)

  • 김지민;정재희;여찬은;김우일
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.342-350
    • /
    • 2022
  • 본 논문에서는 재난 환경과 같은 환경에서의 음성 처리를 위해 실제 드론 소음 데이터를 수집하여 오염 음성 데이터베이스를 구축하고 음성 향상 기법인 스펙트럼 차감법과 심층 신경망을 이용한 마스크 기반 음성 향상 기법을 적용하여 성능을 평가한다. 기존의 심층 신경망 기반의 음성 향상 모델인 VoiceFilter(VF)의 성능 향상을 위해 Self-Attention 연산을 적용하고 추정한 잡음 정보를 Attention 모델의 입력으로 이용한다. 기존 VF 모델 기법과 비교하여 Source to Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short-Time Objective Intelligibility(STOI)에 대해 각각 3.77 %, 1.66 %, 0.32 % 향상된 결과를 나타낸다. 인터넷에서 수집한 오염 음성 데이터를 75 % 혼합하여 훈련한 경우, 실제 드론 소음만을 사용한 경우에 비해 상대적인 성능 하락률 평균이 SDR, PESQ, STOI에 대해 각각 3.18 %, 2.79 %, 0.96 %를 나타낸다. 이는 실제 데이터를 취득하기 어려운 환경에서 실제 데이터와 유사한 데이터를 수집하여 음성 향상을 위한 모델 훈련에 효과적으로 활용할 수 있음을 확인해준다.

음성재생 속도 제어를 위한 활성화 영역 검출방법 (An Active Region Detection Method for The Speech Playback-speed Control)

  • 유덕현;김동현;전준현
    • 대한전자공학회논문지SP
    • /
    • 제49권3호
    • /
    • pp.98-105
    • /
    • 2012
  • 본 논문은 고품질을 갖는 음성재생 속도제어를 위한 새로운 방법을 다루었다. 제안 방법은 재생 속도에 따른 음성 신호의 활성화 영역을 검출하는 가변적 임계필터링 솔루션을 제공하였다. 임계필터링을 위한 임계값은 주어진 배속에 따라 재생되는 음성 신호 내의 각 프레임의 통계(평균과 표준편차)에 의해 가변적으로 결정되며 프레임 내의 활성화 블록구간 만을 축출하는데 사용된다. 또한 높은 재생 속도에 따른 피치 손상과 같은 품질 저하를 최소화하기 위하여, 임계필터링은 유, 무성음 구분 없이 상대적은 낮은 활성도를 갖는 블록들을 우선적으로 제거한다. 실험 결과, 제안 방식은 기존의 피치 축출을 사용하는 SOLA(Synchonized OverLap Add) 방식보다 높은 품질 갖는 재생속도 제어 솔루션을 제공함을 알 수가 있었다.

파라메터 매칭에 의한 IPTV 영상 QoE 측정 알고리즘 (Video QoE Measurement Algorithm by Parameter Matching for IPTV Services)

  • 하상용;김진철;신동진;조용현;노병희
    • 한국통신학회논문지
    • /
    • 제36권5B호
    • /
    • pp.451-463
    • /
    • 2011
  • QoE (Quality of Experience)란 서비스에 대해 사용자가 느끼는 체감품질로서 정의된다. 그러나, 음성의 경우에는 이용자 MOS로 맵핑될 수 있는 R-Value라는 표준 측정기법이 존재하나, 영상의 경우에는 이용자 MOS를 대변할 수 있는 QoE 표준 측정기법이 제시되어 있지 않다. 본 논문에서는 IPTV에서 영상 QoE 측정을 위한 효과적인 방법론을 제안한다. 제안방법은 이용자들의 MOS 에 영향을 미치는 시나리오 유형들을 선정하고, 이들 유형에 가중치를 적용하여 QoE를 자동으로 측정해 낸다. 검증을 위하여 선정한 시나리오 유형들이 반영되어 제작한 열화영상에 제안 알고리즘을 적용하여 구한 QoE와 이용자들로부터 측정한 MOS 간의 상관도를 산출하였고, 결과는 제안 알고리즘이 실제 이용자가 체감하는 품질과 높은 상관도를 가짐을 보였다.

광역 ATM 망 적용을 위한 QoS 보장형 라우팅 알고리즘 설계 (Design of QoS-based Routing Algorithm for Internet Services on Large Scale ATM Networks)

  • 손승원;장종수;정연서;오창석
    • 한국통신학회논문지
    • /
    • 제24권10A호
    • /
    • pp.1517-1531
    • /
    • 1999
  • 인터넷 서비스의 다양화와 백본망의 고속화에 따라 인터넷 서비스 구조에서 새로운 형태의 파라다임 설정이 요구된다. 본 논문에서는 초고속통신망의 하부구조로 기대되는 광역 ATM 망을 기반으로 다양한 인터넷 서비스가 충분한 QoS를 보장 받으면서 제공될 수 있도록 경로 설정을 지원하는 새로운 라우팅 알고리즘인 WQPOA(Side area Quality-proven Path over ATM) 알고리즘을 제안한다. 이는 사용자의 QoS 요구 수준에 따른 경로 제공이 가능하고, 주소 해석시간을 줄일 수 있으며, 광역망 적용을 위한 네트워크 확장 능력을 보강한 품질순응형 특성을 가진다. 또한, 경로 생성과정에서 미리 QoS 보장 능력에 대한 협상이 가능하도록 QPNP(Quality-proven Path Negotiation Protocol) 프로토콜을 제안하고, 모의실험을 통해 제안된 알고리즘을 분석한다.

  • PDF