• Title/Summary/Keyword: 음성의 다양화

Search Result 300, Processing Time 0.039 seconds

Facial image visualization using voice Big Data (Big Data를 활용한 얼굴 이미지 시각화 연구)

  • Kwak, Dong-Ryul;Kim, Min-Cheol;Kim, Chang-Soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.634-636
    • /
    • 2018
  • 최근 들어 Big Data를 활용한 기술들이 많이 개발되고 있다. 본 연구에서는 Machine Learning과 Deep Learning을 이용하여 음성 Big Data를 활용한 이미지 시각화를 통해 보이스 피싱 등 여러 범죄에 도움이 되게 하고 그 외의 음성과 얼굴 매칭을 통한 새로운 보안시스템 및 다양한 시너지 효과들을 기대하는 서비스를 기술한다.

Nose Estimation and Suppression methods based on Normalized Variance in Time-Frequency for Speech Enhancement (음성강화를 위한 시간 및 주파수 도메인의 분산정규화 기반 잡음예측 및 저감방법)

  • Lee, Soo-Jeong;Kim, Soon-Hyob
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.46 no.1
    • /
    • pp.87-94
    • /
    • 2009
  • Noise estimation and suppression are a crucial factor of many speech communication and recognition systems. In this paper, proposed algorithm is based on the ratio of variance normalized of noisy power spectrum in time-frequency domain. Our proposed algorithm tracks the threshold and controls the trade-off between residual noise and distortion. This algorithm is evaluated by the ITU-T P.835 signal distortion (SIG) and segment signal to noise ratio (SNR), and is superior to the conventional methods.

One-shot multi-speaker text-to-speech using RawNet3 speaker representation (RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템)

  • Sohee Han;Jisub Um;Hoirin Kim
    • Phonetics and Speech Sciences
    • /
    • v.16 no.1
    • /
    • pp.67-76
    • /
    • 2024
  • Recent advances in text-to-speech (TTS) technology have significantly improved the quality of synthesized speech, reaching a level where it can closely imitate natural human speech. Especially, TTS models offering various voice characteristics and personalized speech, are widely utilized in fields such as artificial intelligence (AI) tutors, advertising, and video dubbing. Accordingly, in this paper, we propose a one-shot multi-speaker TTS system that can ensure acoustic diversity and synthesize personalized voice by generating speech using unseen target speakers' utterances. The proposed model integrates a speaker encoder into a TTS model consisting of the FastSpeech2 acoustic model and the HiFi-GAN vocoder. The speaker encoder, based on the pre-trained RawNet3, extracts speaker-specific voice features. Furthermore, the proposed approach not only includes an English one-shot multi-speaker TTS but also introduces a Korean one-shot multi-speaker TTS. We evaluate naturalness and speaker similarity of the generated speech using objective and subjective metrics. In the subjective evaluation, the proposed Korean one-shot multi-speaker TTS obtained naturalness mean opinion score (NMOS) of 3.36 and similarity MOS (SMOS) of 3.16. The objective evaluation of the proposed English and Korean one-shot multi-speaker TTS showed a prediction MOS (P-MOS) of 2.54 and 3.74, respectively. These results indicate that the performance of our proposed model is improved over the baseline models in terms of both naturalness and speaker similarity.

Dimension Reduction Method of Speech Feature Vector for Real-Time Adaptation of Voice Activity Detection (음성구간 검출기의 실시간 적응화를 위한 음성 특징벡터의 차원 축소 방법)

  • Park Jin-Young;Lee Kwang-Seok;Hur Kang-In
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.7 no.3
    • /
    • pp.116-121
    • /
    • 2006
  • In this paper, we propose the dimension reduction method of multi-dimension speech feature vector for real-time adaptation procedure in various noisy environments. This method which reduces dimensions non-linearly to map the likelihood of speech feature vector and noise feature vector. The LRT(Likelihood Ratio Test) is used for classifying speech and non-speech. The results of implementation are similar to multi-dimensional speech feature vector. The results of speech recognition implementation of detected speech data are also similar to multi-dimensional(10-order dimensional MFCC(Mel-Frequency Cepstral Coefficient)) speech feature vector.

  • PDF

A Proposal of Collaborating Bluetooth Basestation in Hot Spot Area with Its Performance Analysis (핫스팟지역에서 협동방식 블루투스기지국의 제안과 성능분석)

  • Kim, Dong-Won;Cho, Dong-Uk;Lyu, Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05b
    • /
    • pp.1369-1372
    • /
    • 2003
  • 가까운 장래에 싼 가격의 블루투스가 여러 가지 이동, 휴대 장치에 내장되어 다양한 응용서비스를 제공할 것이다. 본 논문에서는 공항이나 쇼핑몰 등 사람들이 많이 몰리는 공공장소와 같은 핫스팟(hot spot) 지역에서 블루투스 기지국을 통한 음성서비스 제공을 위하여 다수의 기지국을 유서 LAN으로 협동시켜 각각 기지국별로 따로 제공되던 음성 채널들을 집합화(aggregation) 함으로써 보다 많은 음성 서비스 채널들을 동시에 수용할 수 있는 방법을 제시하고 성능을 분석하였다. 단독으로 동작하는 기지국은 ACL채널을 사용하는 경우 7개까지의 채널 수용이 가능하므로 이상적인 경우에서도 오버랩 영역의 기지국의 개수가 n이면 7n 만큼 채널의 증가가 가능한 반면 협동으로 동작하면 블록킹 율도 개선되면서 집합화된 채널들을 보간(interpolation) 기법을 통한 통계적 사용으로 음성 패킷의 허용 손실 범위 내에서 음성채널의 수를 약 14n 정도까지 확장할 수 있다. 또한 음성전송과 데이터 전송이 혼합 서비스 될 때 수용하는 음성 채널의 수에 따른 데이터 전송지연시간 특성을 분석하였다.

  • PDF

An implementation of Speech Synthesis system based on the next generation PC (차세대 PC 환경에서의 음성합성 시스템 구현)

  • Park Hye-Mee;Shin Jeong-Hoon;Hong Kwang-Seok
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.97-100
    • /
    • 2004
  • 유비쿼터스 컴퓨팅 환경에서의 차세대 PC는 다양한 입출력 장치를 이용하여 사용자에게 효과적으로 실제와 같은 정보를 제공하며, 사용자들의 편의를 고려해 웨어러블 형태의 플랫폼으로 발전하고 있다. 이러한 사용자 편의를 고려한 기술개발 동향(소형화, 경량화, 착용화)에 발맞추어 웨어러블 컴퓨팅 환경에서의 HCI 방안으로 음성 인식과 합성은 주요한 자리매김을 하고 있다. 본 논문에서는, 현재 정부에서 국가적인 차원으로 연구 개발 중인 차세대 PC 플랫폼 기반에서 음성합성 엔진을 구현하며, 구현상의 문제점 파악 및 개선사항에 대해 제안한다. 또한, 실질적인 구현 결과를 토대로 사용자 편의성 및 S/W 개발 환경을 고러한 차세대 PC플랫폼의 개선사항에 대해 제안을 한다.

  • PDF

ATSC Set-Top Box System (ATSC 수신기 시스템)

  • 도영수;김상욱
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1999.06b
    • /
    • pp.3-8
    • /
    • 1999
  • DTV(Digital Television)라 일컬어지는 방송 방식은 미국의 경우 지상파를 이용하여 압축된 영상신호와 음성신호를 방송 및 수신을 하기 위한 것으로 ATSC(Advanced Television System Committees)가 규격을 제안하고 FCC(Federal Communications Commission)가 수용하여 현실화 되어졌다. ATSC 산하의 다양한 Working Group에서는 방송국, 방송장비업체, 가전업체 등이 제안함으로써 규격화하여 전송부는 VSB(Vestigial Side-band), 영상압축은 MPEG2, 음성압축은 AC3로 결정하였다. 본 고에서는 ATSC의 규격에 따라 송신되어지는 방송을 수신할 수 있도록 채널복조와 영상 및 음성신호를 복호화 할 수 있는 수신 시스템의 구성과 테스트 결과를 살펴보고자 한다.

  • PDF

Speech Database for 3-5 years old Korean Children (만 3-5세 유아의 한국어 음성 데이터베이스 구축)

  • Yoo, Jae-Kwon;Lee, Kyung-Ok;Lee, Kyoung-Mi
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.4
    • /
    • pp.52-59
    • /
    • 2012
  • Children develop their language skill rapidly between age 3 and 5. To meet the child's language development through a variety of experiences, it is necessary to develop age-appropriate contents. So it needs to develop various contents using speech interface for children, but there is no speech database of korean children. In this paper, we develop speech database of 3 to 5 years old children in korean. For collecting accurate children's speech, child education experts examine in the speech database development process. The words for database are selected from MCDI-K in two stage and children speak a word three times. Such collected speech are tokenized by child and word and stored in database. This speech database will be transferred through web and, hopefully, be the foundation of development of children-oriented contents.

A new ultrasonic pointing device for an interactive TV (인터렉티브 TV를 위한 새로운 초음파센서 지시 장치)

  • 손미숙;이기혁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.564-566
    • /
    • 2003
  • 재래의 TV의 경우 채널변경, 볼륨조절 등의 비교적 간단한 조작만이 필요했던 반면 앞으로 보편화될 인터랙티브 TV는 부가기능의 다양화로 좀더 복잡한 인터렉션을 요구한다. 인터렉티브 TV조작에 사용되는 기술은 트랙볼이나 조이스틱 같은 포인팅 디바이스를 리모콘에 부착하는 방법, 키보드를 이용한 입력, 팜탑 컴퓨터, 음성입력 등 다양한 방법이 있다. 본 논문에서는 초음파센서를 이용한 새로운 입력장치인 소나팬(SonarPen)에 대해 소개하고자 한다.

  • PDF

Visual Features and Shape Extraction of Voice Analysis Elements for Heart Diseases Diagnosis (심장 질환 진단을 위한 음성분석학적 요소의 시각 특징 및 형태 추출)

  • Kim, Bong-Hyun;Lee, Se-Hwan;Park, Sun-Ae;Ka, Min-Kyoung;Oh, Won-Geun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.405-408
    • /
    • 2007
  • 건강관리 및 유지에 대한 현대인들의 관심이 증대되면서 삶의 질 향상을 추구하는 고령화 사회에서 성인병 및 만성질환은 매우 위험한 요인이 되고 있는 실정이다. 특히 심장 질환은 3대 사망률 중 한 부분을 차지하고 있을 정도로 위협적이며 비전염성 만성질환 중 하나이다. 그러나 모든 질환에 대한 대처 방법이 동일하듯이 조기 진단에 의한 질환 예방이 무엇보다 중요하다. 따라서 본 논문에서는 심장 질환자의 음성 신호를 획득하여 다양한 음성분석학적 요소 추출 및 분석을 통해 심장 질환과의 연관성을 파악하고자 한다. 이를 위해 본 논문에서는 기존의 음성 분석 요소에 대한 1차 실험을 검증하고 추가 음성 분석 요소들에 대한 2차 실험을 행하여 각각의 분석 요소들과 음성에 대한 형태학적 특징을 시각화하여 편리하게 심장 질환을 진단하는 기법들을 제시하고자 한다.

  • PDF