• 제목/요약/키워드: Text-to-Speech System

검색결과 246건 처리시간 0.024초

d-vector를 이용한 한국어 다화자 TTS 시스템 (A Korean Multi-speaker Text-to-Speech System Using d-vector)

  • 김광현;권철홍
    • 문화기술의 융합
    • /
    • 제8권3호
    • /
    • pp.469-475
    • /
    • 2022
  • 딥러닝 기반 1인 화자 TTS 시스템의 모델을 학습하기 위해서 수십 시간 분량의 음성 DB와 많은 학습 시간이 요구된다. 이것은 다화자 또는 개인화 TTS 모델을 학습시키기 위해서는 시간과 비용 측면에서 비효율적 방법이다. 음색 복제 방법은 새로운 화자의 TTS 모델을 생성하기 위하여 화자 인코더 모델을 이용하는 방식이다. 학습된 화자 인코더 모델을 통해 학습에 사용되지 않은 새로운 화자의 적은 음성 파일로부터 이 화자의 음색을 대표하는 화자 임베딩 벡터를 만든다. 본 논문에서는 음색 복제 방식을 적용한 다화자 TTS 시스템을 제안한다. 제안한 TTS 시스템은 화자 인코더, synthesizer와 보코더로 구성되어 있는데, 화자 인코더는 화자인식 분야에서 사용하는 d-vector 기법을 적용한다. 학습된 화자 인코더에서 도출한 d-vector를 synthesizer에 입력으로 추가하여 새로운 화자의 음색을 표현한다. MOS와 음색 유사도 청취 방법으로 도출한 실험 결과로부터 제안한 TTS 시스템의 성능이 우수함을 알 수 있다.

영어 모음음소의 표기체계에 관한 연구 (A System of English Vowel Transcription Based on Acoustic Properties)

  • 김대원
    • 음성과학
    • /
    • 제10권4호
    • /
    • pp.73-79
    • /
    • 2003
  • There are more than five systems for transcribing English vowels. Because of this diversity, teachers of English and students are confronted with not a little problems with the English vowel symbols used in the English-Korean dictionaries, English text books, books for Phonetics and Phonology. This study was designed to suggest criterions for the phonemic transcription of English vowels on the basis of phonetic properties of the vowels and a system of English vowel transcription based on the criterions in order to minimize the problems with inter-system differences. A speaker (phonetician) of RP English uttered a series of isolated minimal pairs containing the vowels in question. The suggested vowel symbols are as follows: (1) Simple vowels: /i:/ in beat, /I/ bit, /$\varepsilon$/ bet, /${\ae}$ bat, /a:/ father, /Dlla/ bod, /c:/ bawd, /$\upsilon$ put, /u:/ boot /$\Lambda$/ but, and /e/ about /$\varepsilon:ll3:r$/ bird. (2) Diphthongs: /aI/ in bite, /a$\upsilon$/ bout, /cI/ boy, /3$\upsilon$llo$\upsilon$/ boat, /eI/ bait, /eelleer/ air, /uelluer/ poor, /iellier/ beer. Where two symbols are shown corresponding to the vowel in a single word, the first is appropriate for most speakers of British English and the second for most speakers of American English.

  • PDF

화자식별을 위한 파라미터의 잡음환경에서의 성능비교 (Parameters Comparison in the speaker Identification under the Noisy Environments)

  • 최홍섭
    • 음성과학
    • /
    • 제7권3호
    • /
    • pp.185-195
    • /
    • 2000
  • This paper seeks to compare the feature parameters used in speaker identification systems under noisy environments. The feature parameters compared are LP cepstrum (LPCC), Cepstral mean subtraction(CMS), Pole-filtered CMS(PFCMS), Adaptive component weighted cepstrum(ACW) and Postfilter cepstrum(PF). The GMM-based text independent speaker identification system is designed for this target. Some series of experiments show that the LPCC parameter is adequate for modelling the speaker in the matched environments between train and test stages. But in the mismatched training and testing conditions, modified parameters are preferable the LPCC. Especially CMS and PFCMS parameters are more effective for the microphone mismatching conditions while the ACW and PF parameters are good for more noisy mismatches.

  • PDF

청각 장애인을 위한 모바일 통화 시스템 설계 및 구현 (Design and Implementation of Mobile Communication System for Hearing- impaired Person)

  • 윤동희;김영웅
    • 한국인터넷방송통신학회논문지
    • /
    • 제16권5호
    • /
    • pp.111-116
    • /
    • 2016
  • 미래창조과학부의 정보격차 실태조사에 따르면 장애인의 스마트폰 보유율은 일반인의 1/3 수준에 머물러 있어 장애인의 정보접근성은 비장애인에 비해 현저히 떨어지는 실정이다. 본 논문은 청각장애인의 모바일 음성 통화를 보다 편리하게 사용할 수 있도록 도와주는 어플리케이션인 CallHelper를 개발하였다. CallHelper는 전화가 오면 자동으로 구동되어 상대방의 전화음성을 텍스트로 실시간 번역하여 모바일 화면에 출력하고, 상대방의 음성에서 감정을 추론하여 이모티콘으로 시각화해서 표시하며, 음성과 번역된 텍스트, 감정을 동시에 저장하여 추후 번역결과를 확인해 볼 수 있도록 하는 어플리케이션이다.

Hate Speech Detection Using Modified Principal Component Analysis and Enhanced Convolution Neural Network on Twitter Dataset

  • Majed, Alowaidi
    • International Journal of Computer Science & Network Security
    • /
    • 제23권1호
    • /
    • pp.112-119
    • /
    • 2023
  • Traditionally used for networking computers and communications, the Internet has been evolving from the beginning. Internet is the backbone for many things on the web including social media. The concept of social networking which started in the early 1990s has also been growing with the internet. Social Networking Sites (SNSs) sprung and stayed back to an important element of internet usage mainly due to the services or provisions they allow on the web. Twitter and Facebook have become the primary means by which most individuals keep in touch with others and carry on substantive conversations. These sites allow the posting of photos, videos and support audio and video storage on the sites which can be shared amongst users. Although an attractive option, these provisions have also culminated in issues for these sites like posting offensive material. Though not always, users of SNSs have their share in promoting hate by their words or speeches which is difficult to be curtailed after being uploaded in the media. Hence, this article outlines a process for extracting user reviews from the Twitter corpus in order to identify instances of hate speech. Through the use of MPCA (Modified Principal Component Analysis) and ECNN, we are able to identify instances of hate speech in the text (Enhanced Convolutional Neural Network). With the use of NLP, a fully autonomous system for assessing syntax and meaning can be established (NLP). There is a strong emphasis on pre-processing, feature extraction, and classification. Cleansing the text by removing extra spaces, punctuation, and stop words is what normalization is all about. In the process of extracting features, these features that have already been processed are used. During the feature extraction process, the MPCA algorithm is used. It takes a set of related features and pulls out the ones that tell us the most about the dataset we give itThe proposed categorization method is then put forth as a means of detecting instances of hate speech or abusive language. It is argued that ECNN is superior to other methods for identifying hateful content online. It can take in massive amounts of data and quickly return accurate results, especially for larger datasets. As a result, the proposed MPCA+ECNN algorithm improves not only the F-measure values, but also the accuracy, precision, and recall.

고차 통계를 이용한 잡음 환경에서의 화자식별 (Speaker Identification Using Higher-Order Statistics In Noisy Environment)

  • 신태영;김기성;권영욱;김형순
    • 한국음향학회지
    • /
    • 제16권6호
    • /
    • pp.25-35
    • /
    • 1997
  • 음성 신호 처리에 널리사용되어 온 2차 통계에 의한 음성 분석 방법은 잡음 환경에서 성능이 크게 저하되는 단점을 지닌다. 이에 반하여 고차 통계 방법은 Gaussian 잡음 등을 억제하는 특성을 가지고 있어서 잡음 환경에 상대적으로 강인한 음성 특징 추출을 가능하게 한다. 본 논문에서는 고차 통계에 의한 음성 분석 방법을 이용하여 백색 및 유색 잡음 환경에서의 문맥 독립형(text-independent) 화자식별 시스템을 제안하고, 기존의 2차 통계에 의한 방식과 성능을 비교하였다. 본 논문에서의 화자식별 시스템은 벡터 양자화 방법에 기반을 두고 있으며, 고차 통계 방법에 의한 유성음/무성음 판별을 통해 non-Gaussian 특징을 가지면서도 화자 정보가 집중되어 있는 유성음 부분에 대해서만 음성 특징을 추출하여 인식에 사용하였다. 50명의 화자를 대상으로 한 화자식별 실험 결과, 고차 통계 방법이 2차 통계에 의한 방법보다 잡음 환경에서 상대적으로 우수한 인식 성능을 나타냄을 확인하였다.

  • PDF

음성 기반 도로명 주소 인식 및 주소 검증 기법 (A Method of Recognizing and Validating Road Name Address from Speech-oriented Text)

  • 이건수;김중연;강병권
    • 인터넷정보학회논문지
    • /
    • 제22권1호
    • /
    • pp.31-39
    • /
    • 2021
  • TV홈쇼핑을 통한 상품 구매 과정에서, 전화망을 통한 배송지 정보의 확보는 필수적인 과정이며 동시에, 서비스 운영 효율을 높이기 위한 주요한 자동화 적용 대상 과정이다. 본 연구는 음성으로 기록된 배송지 정보를 자동으로 인식 및 검증하려는 방법을 제안한다. 본 제안 방법은 음성 기반의 주소 정보를 처리하는 데 필요한 다음의 세 가지 기능을 포함한다. 첫 번째 기능은 한글 발화문으로 부터 원래 주소의 표기 형태로 올바르게 변환하는 것이고, 두 번째 기능은 음성 녹취 과정에서 주소의 구성 요소별 순서 변화 혹은 동일 구성 요소의 중복 발화 같은 주소 잡음을 처리하는 것이며, 마지막 기능은 띄어쓰기 처리를 통한 최종 주소의 가독성을 보장할 수 있는 기능이다. 제안된 방법을 구현하기 위해 우정사업본부 주소 DB와 행정안전부의 주소 DB를 사용하였으며, 통화에서 획득한 주소 발화로부터 도로명 주소를 도출하고, 도출된 주소의 유효성을 검증하였다. 또한 제안 방법의 구현 결과물은 STT를 통한 발화 인식 결과뿐만 아니라, 키보드를 이용한 표준 입출력으로도 입력 채널을 확장하여, 주소 검증이 필요한 비음성 기반의 서비스에서도 활용될 수 있도록 하였다. 제안 방법은 주소 구성 요소의 위치 변화 잡음에 강건하게 동작했지만, 요소 생략의 경우 오작동 경향이 존재했다. 이는 생략된 요소에 의해 하위 요소의 지역을 명시하지 못하는 경우 처리하지 못한 모호함 때문이었다.

Development of a 3-D Visualization Application for Management of Substation Equipment

  • Park, Chang-Hyun
    • 조명전기설비학회논문지
    • /
    • 제23권3호
    • /
    • pp.38-44
    • /
    • 2009
  • This paper presents a new windows application based on 3-D graphics and Text-To-Speech (TTS) for effective management of substation equipment. When problems in a power system occur, inexperienced power system operators may have difficulty in understanding the situation as well as finding suitable countermeasures quickly. This paper addresses an effective scheme to visualizing power system equipment under normal and abnormal conditions using 3-D graphics and animations. In addition, the state variations and the order of maintenance priority of substation equipment are represented by TTS and intuitive methods. The proposed system can help power system operators to more quickly understand the state of power system equipment, and it can provide operators with the suitable countermeasures for minimizing damage caused by equipment problems.

양자 간 대화 상황에서의 화자인식을 위한 문장 시퀀싱 방법을 통한 자동 말투 인식 (Automatic Speech Style Recognition Through Sentence Sequencing for Speaker Recognition in Bilateral Dialogue Situations)

  • 강가람;권오병
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.17-32
    • /
    • 2021
  • 화자인식은 자동 음성시스템에서 중요한 기능을 담당하며, 최근 휴대용 기기의 발전 및 음성 기술, 오디오 콘텐츠 분야 등이 계속해서 확장됨에 따라 화자인식 기술의 중요성은 더구나 부각 되고 있다. 이전의 화자인식 연구는 음성 파일을 기반으로 화자가 누구인지 자동으로 판정 및 정확도 향상을 위한 목표를 가지고 진행되었다. 한편 말투는 중요한 사회언어학적 소재로 사용자의 사회적 환경과 밀접하게 관련되어 있다. 추가로 화자의 말투에 사용되는 종결어미는 문장의 유형을 결정하거나 화자의 의도, 심리적 태도 또는 청자에 대한 관계 등의 기능과 정보를 가지고 있다. 이처럼 종결어미의 활용형태는 화자의 특성에 따라 다양한 개연성이 있어 특정 미확인 화자의 종결어미의 종류와 분포는 해당 화자를 인식하는 것에 도움이 될 것으로 보인다. 기존 텍스트 기반의 화자인식에서 말투를 고려한 연구가 적었으며 음성 신호를 기반으로 한 화자인식 기법에 말투 정보를 추가한다면 화자인식의 정확도를 더욱 높일 수 있을 것이다. 따라서 본 연구의 목적은 한국어 화자인식의 정확도를 개선하기 위해 종결어미로 표현되는 말투(speech style) 정보를 활용한 방법을 제안하는 것이다. 이를 위해 특정인의 발화 내용에서 등장하는 종결어미의 종류와 빈도를 활용하여 벡터값을 생성하는 문장 시퀀싱이라는 방법을 제안한다. 본 연구에서 제안한 방법의 우수성을 평가하기 위해 드라마 대본으로 학습 및 성능평가를 수행하였다. 본 연구에서 제안한 방법은 향후 실존하는 한국어 음성인식 서비스의 성능 향상을 위한 수단으로 사용될 수 있으며 지능형 대화 시스템 및 각종 음성 기반 서비스에 활용될 것을 기대한다.

텍스트마이닝 기반 아동 감정 분석 시스템 및 아동용 감정 사전 구축 방안 (A Child Emotion Analysis System using Text Mining and Method for Constructing a Children's Emotion Dictionary)

  • 박영준;김선용;김요한
    • 한국전자통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.545-550
    • /
    • 2024
  • 급격하게 변화되는 사회 속에서 현대인들은 다양한 스트레스를 경험하고 있으며, 아동 또한 정신 건강 진료량이 눈에 띄게 증가하고 있다. 소아정신건강장애 등 아동의 정신 건강 문제를 예방하기 위해서는 감정 상태를 빠르게 파악해야 하지만, 유아기 아동들은 몇 가지 단어만을 사용하여 자신의 감정을 표현하는 경우가 많기에 어려움이 있다. 본 논문에서는 아동 심리 상태를 우울, 불안, 외로움, 두려움 등 4가지의 감정으로 세분화하고 아동 심리 전문가의 점수를 기반으로 한 아동용 감정 사전 구축 방안을 제안한다. 또한, STT 및 텍스트 마이닝 기반의 아동 감정 분석 시스템을 제안하고 실제 음성 데이터로 성능을 평가하였다. 평가 결과는 제안한 아동용 감정 분석 시스템이 아동 감정 상태를 정확하게 파악할 수 있음을 보여준다.