• 제목/요약/키워드: Speaker characteristics

검색결과 257건 처리시간 0.054초

HMM 기반의 한국어 음성합성에서 음색변환에 관한 연구 (A Study on the Voice Conversion with HMM-based Korean Speech Synthesis)

  • 김일환;배건성
    • 대한음성학회지:말소리
    • /
    • 제68권
    • /
    • pp.65-74
    • /
    • 2008
  • A statistical parametric speech synthesis system based on the hidden Markov models (HMMs) has grown in popularity over the last few years, because it needs less memory and low computation complexity and is suitable for the embedded system in comparison with a corpus-based unit concatenation text-to-speech (TTS) system. It also has the advantage that voice characteristics of the synthetic speech can be modified easily by transforming HMM parameters appropriately. In this paper, we present experimental results of voice characteristics conversion using the HMM-based Korean speech synthesis system. The results have shown that conversion of voice characteristics could be achieved using a few sentences uttered by a target speaker. Synthetic speech generated from adapted models with only ten sentences was very close to that from the speaker dependent models trained using 646 sentences.

  • PDF

여러 화자 적응 방법들의 특성 비교 (The Comparison of Characteristics in various Speaker Adaptation Methods)

  • 황영수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.339-342
    • /
    • 1998
  • In this paper, we proposed various speaker adaptation methods and studied the performance of these methods. Methods which were studied in this paper are MAPE(Maximum A Posteriori Probability Estimation), ARTMAP. In order to evaluate the performance of these methods, we used Korean isolated digits as the experimental data, the hybrid speaker adaptation method, which unfied MAPE, linear spectral estimating and outpur probability of SCHMM, showed the better recognition result than those which performed other methods. And the method using ARTMAP showed the similar result to above hybrid method.

  • PDF

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템 (One-shot multi-speaker text-to-speech using RawNet3 speaker representation)

  • 한소희;엄지섭;김회린
    • 말소리와 음성과학
    • /
    • 제16권1호
    • /
    • pp.67-76
    • /
    • 2024
  • 최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.

싸인 보드용 초음파 스피커 상태표시를 위한 LED 구동 회로의 설계 (LED Driving Circuit Design of Ultrasonic Speaker System for Sign Board)

  • 이경량;여성대;장영진;차재상;김진태;신재권;김성권
    • 한국위성정보통신학회논문지
    • /
    • 제8권4호
    • /
    • pp.17-20
    • /
    • 2013
  • 본 연구에서는 싸인 보드의 집중도를 올리기 위한 초음파 스피커 시스템의 음성신호이득, 방사패턴과 같은 상태정보 표시를 위한 LED 구동 회로를 소개한다. 초음파 스피커 시스템은 에너지 손실이 적고 음이 멀리 전달된다. 이러한 특징을 지닌 초음파 스피커는 일상생활에서 다양하게 쓰일 수 있다는 점에서 매우 유용하다. 상기 장점을 살려서 제안된 LED 회로는 초음파 스피커 시스템으로부터 인터페이스를 제공받아 선형적인 LED 밝기로써 상태정보를 표현한다. 설계된 회로는 동부 0.35um CMOS 공정을 사용하였다.

주변 잡음 환경에 강한 화자인식 알고리즘 연구 (A study on the robust speaker recognition algorithm in noise surroundings)

  • 정종순
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권6호
    • /
    • pp.47-54
    • /
    • 2005
  • 대부분의 화자인식 시스템은 음성 분석을 통해 화자의 특징을 음향 파라미터 형태로 추출하여 화자의 표준패턴을 만든 후, 입력된 미지의 음성패턴과의 차이를 계산하여 허용 여부를 최종적으로 판단한다. 화자인식에 사용하는 파라미터는 화자의 특징을 충분히 표현함과 더불어 발성 시마다 변동이 작은 것이 바람직하다. 따라서 본 논문에서도 이를 위해서 다음과 같이 제안하였다. 벡터 양자화모델에 비잡음 환경에 강한 스펙트럼 특징과 잡음 환경에 강한 운율정보를 화자인식 시스템에 이용할 것을 제안하였다. 훈련과정에서 코드북 형성시 실제 데이터를 스펙트럼 특징과 운을 특징을 조합하여 원하는 모델 수만큼 만들었다. 인식과정에서는 입력된 테스트패턴을 각 모델간에 거리 측도로 비교하여 가부를 결정하였다. 실험결과 스펙트럼 특징과 운을 특징을 각각 이용할 경우 보다 좋은 인식율을 얻었으며, 특히 잡음 환경에서 안정된 인식율을 확보하므로 상용화의 가능성을 한층 높였다.

  • PDF

마이크로 스피커 진동판의 형상설계에 따른 진동특성 고찰 (Investigation on Vibration Characteristics of Micro Speaker Diaphragms for Various Shape Designs)

  • 김경민;김성걸;박근
    • 한국정밀공학회지
    • /
    • 제30권8호
    • /
    • pp.790-796
    • /
    • 2013
  • Micro-speaker diaphragms play an important role in generating a desired audio response. The diaphragm is generally a circular membrane, and the cross section is a double dome, with an inner dome and an outer dome. To improve the sound quality of the speaker, a number of corrugations may be included in the outer dome region. In this study, the role of these corrugations is investigated using two kinds of finite element method (FEM) calculations. Structural FEM modeling was carried out to investigate the change in stiffness of the diaphragm when the corrugations were included. Modal FEM modeling was then carried out to compare the natural frequencies and the resulting vibrational modes of the plain and corrugated diaphragms. The effects of the corrugations on the vibration characteristics of the diaphragm are discussed.

인공지능(AI)스피커 사용의도에 관한 연구: 확장된 기술수용모델을 중심으로 (A Study on the Intention to Use AI Speakers: focusing on extended technology acceptance model)

  • 김배성;우형진
    • 한국콘텐츠학회논문지
    • /
    • 제19권9호
    • /
    • pp.1-10
    • /
    • 2019
  • 본 연구의 목적은 AI 스피커 사용의도에 영향을 미치는 외생변인들의 영향력을 살펴보는 것이다. 개인적 특성(자기효능감, 혁신성, 적합성, 즐거움)과 사회적 영향(사회적 동조, 사회적 이미지)이 인지된 유용성과 인지된 용이성에 미치는 영향, 그리고 인지된 유용성과 용이성이 사용의도에 미치는 영향을 305명에 대한 온라인 설문조사를 통해 살펴보았다. 연구결과, 첫째, 자기효능감과 사회적 동조가 인지된 용이성에 대해 정적으로 유의미한 영향을 미친 것으로 나타났다. 둘째, 혁신성은 인지된 유용성에 대해 부적 영향을 나타냈고, 적합성과 사회적 이미지는 정적 영향력을 나타냈다. 셋째, 인지된 유용성과 인지된 용이성은 사용의도에 유의미한 정적 영향을 미치는 것으로 나타났다.

변압기 소음제어를 위한 음향 시스템의 동특성 해석 및 전달함수 추정 (Dynamic Characteristic Analysis and Transfer Function Estimate of Acoustic System for Transformer Noise Control)

  • 김영달;정창경;심재명
    • 조명전기설비학회논문지
    • /
    • 제13권3호
    • /
    • pp.17-24
    • /
    • 1999
  • 본 연구는 스피터와 마이크폰쌍을 이용하여 변압기 소음 감소를 위한 적응 능동소음제어에 있어서 스피커-증폭기-마이크로폰 경로와 스피거-마이크로폰 쌍의 동특성에 대한 이론적인 내용과 시뮬레이션을 통하여 이를 확인하였다. 또한 음향경로 내에 존재하는 마이크로폰-스피커 쌍의 전달함수를 SLS(sequential least square)알고리즘으로 추정하였으며, 추정된 전달함수에 대한 identify는 z 평면에서 안정된 극점과 영점을 갖고 있음을 확인하였다.

  • PDF

Selective Adaptation of Speaker Characteristics within a Subcluster Neural Network

  • Haskey, S.J.;Datta, S.
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 10월 학술대회지
    • /
    • pp.464-467
    • /
    • 1996
  • This paper aims to exploit inter/intra-speaker phoneme sub-class variations as criteria for adaptation in a phoneme recognition system based on a novel neural network architecture. Using a subcluster neural network design based on the One-Class-in-One-Network (OCON) feed forward subnets, similar to those proposed by Kung (2) and Jou (1), joined by a common front-end layer. the idea is to adapt only the neurons within the common front-end layer of the network. Consequently resulting in an adaptation which can be concentrated primarily on the speakers vocal characteristics. Since the adaptation occurs in an area common to all classes, convergence on a single class will improve the recognition of the remaining classes in the network. Results show that adaptation towards a phoneme, in the vowel sub-class, for speakers MDABO and MWBTO Improve the recognition of remaining vowel sub-class phonemes from the same speaker

  • PDF

히스토그램 등화와 데이터 증강 기법을 이용한 개선된 음성 감정 인식 (Improved speech emotion recognition using histogram equalization and data augmentation techniques)

  • 허운행;권오욱
    • 말소리와 음성과학
    • /
    • 제9권2호
    • /
    • pp.77-83
    • /
    • 2017
  • We propose a new method to reduce emotion recognition errors caused by variation in speaker characteristics and speech rate. Firstly, for reducing variation in speaker characteristics, we adjust features from a test speaker to fit the distribution of all training data by using the histogram equalization (HE) algorithm. Secondly, for dealing with variation in speech rate, we augment the training data with speech generated in various speech rates. In computer experiments using EMO-DB, KRN-DB and eNTERFACE-DB, the proposed method is shown to improve weighted accuracy relatively by 34.7%, 23.7% and 28.1%, respectively.