• Title/Summary/Keyword: 음성 합성

Search Result 697, Processing Time 0.023 seconds

A Development of Automatic Safety Navigation Support Service Providing System for Medium and Small Ships based on Speech Synthesis (중소형 선박을 위한 음성합성 기반 자동 안전항해 지원 서비스 제공 시스템 개발)

  • Hwang, Hun-Gyu;Kim, Bae-Sung;Woo, Yum-Tae
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.25 no.4
    • /
    • pp.595-602
    • /
    • 2021
  • Marine accidents are mostly caused by medium and small ships, and are continuously increasing. In this paper, we propose an architecture of the speech synthesis based automatic safety navigation support service providing system for small ships that equiped onboard systems compared with vessels. The main purpose of the system is to prevent marine accidents by providing synthesized voice safety messages to nearby ships. The safety navigation support service is operated by connecting GPS and AIS to synthesize voice safety messages, automatically broadcast through VHF. Therefore, we developed a data processing module, a staged risk analysis module, a voice synthesis safety message generation module, and a VHF broadcasting equipment control module, which are components of the system. In addition, we conducted laboratory-level and sea-trial demonstration tests using the developed the system, which verified usefulness of the proposed service.

A Study on the Prosody Generation of Korean Sentences using Neural Networks (신경망을 이용한 한국어 운율 발생에 관한 연구)

  • Lee Il-Goo;Min Kyoung-Joong;Kang Chan-Koo;Lim Un-Cheon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.65-69
    • /
    • 1999
  • 합성단위, 합성기, 합성방식 등에 따라 여러 가지 다양한 음성합성시스템이 있으나 순수한 법칙합성 시스템이 아니고 기본 합성단위를 연결하여 합성음을 발생시키는 연결합성 시스템은 연결단위사이의 매끄러운 합성계수의 변화를 구현하지 못해 자연감이 떨어지는 실정이다. 자연음에 존재하는 운율법칙을 정확히 구현하면 합성음의 자연감을 높일 수 있으나 존재하는 모든 운율법칙을 추출하기 위해서는 방대한 분량의 언어자료 구축이 필요하다. 일반 의미 문장으로부터 운율법칙을 추출하는 것이 바람직하겠으나, 모든 운율 현상이 포함된 언어자료는 그 문장 수가 극히 방대하여 처리하기 힘들기 때문에 가능하면 문장 수를 줄이면서 다양한 운율 현상을 포함하는 문장 군을 구축하는 것이 중요하다. 본 논문에서는 음성학적으로 균형 잡힌 고립단어 412 단어를 기반으로 의미문장들을 만들었다. 이들 단어를 각 그룹으로 구분하여 각 그룹에서 추출한 단어들을 조합시켜 의미 문장을 만들도록 하였다. 의미 문장을 만들기 위해 단어 목록에 없는 단어를 첨가하였다. 단어의 문장 내에서의 상대위치에 따른 운율 변화를 살펴보기위해 각 문장의 변형을 만들어 언어자료에 포함시켰다. 자연감을 높이기 위해 구축된 언어자료를 바탕으로 음성데이타베이스를 작성하여 운율분석을 통해 신경망을 훈련시키기 위한 목표패턴을 작성하였다 문장의 음소열을 입력으로 하고 특정음소의 운율정보를 발생시키는 신경망을 구성하여 언어자료를 기반으로 작성한 목표패턴을 이용해 신경망을 훈련시켰다. 신경망의 입력패턴은 문장의 음소열 중 11개 음소열로 구성된다. 이 중 가운데 음소의 운율정보가 출력으로 나타난다. 분절요인에 의한 영향을 고려해주기 위해 전후 5음소를 동시에 입력시키고 문장내에서의 구문론적인 영향을 고려해주기 위해 해당 음소의 문장내에서의 위치, 운율구에 관한 정보등을 신경망의 입력 패턴으로 구성하였다. 특정화자로 하여금 언어자료를 발성하게 한 음성시료의 운율정보를 추출하여 신경망을 훈련시킨 결과 자연음의 운율과 유사한 합성음의 운율을 발생시켰다.

  • PDF

Automatic Segmentation Using LPC Smoothed Log Amplitude Spectra (LPC Smoothed Log Amplitude Spectra를 이용한 자동 음성 분할)

  • 김도한;이상운;이기정;홍재근
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.795-798
    • /
    • 2000
  • 연속음 인식과 음성 합성을 위해서는 정밀한 음성학적 모델과 연속 음성에 적용 가능한 언어 모델의 개발이 중요하다. 이를 위해서는 음성 데이터 베이스에 대한 인식 단위, 혹은 합성 단위의 분할이 필요한데, 수동음성 분할은 일관성의 유지가 어렵고 긴 시간이 소요되므로 최근에는 자동 분할 기술이 많이 연구되고 있다. 자동 음성 분할 기법으로는 시간 영역이나 주파수 영역특징 벡터의 천이를 분석하는 방법과 특징 벡터간의 상관도를 구하여 경계를 추출하는 방법이 있다. LPC smoothed log amplitude spectra는 음성의 주파수 영역의 특징을 잘 나타내며, 동일 음소 내의 상관도가 서로 다른 음소의 상관도보다 더 크고, 음소의 경계구간에서 급격한 상관도의 변화를 보인다. 이 특성을 이용하여 이웃 프레임에 대한 상관도의 방향성이 특정조건을 만족하는가를 검사하여 음소의 경계를 구하는 방법을 찾았다. 또한 LPC. 이득 인자만으로 묵음 구간을 검출하는 방법을 제시한다. 이렇게 하면 묵음 구간검출과 음소 경계 검출의 일관성을 향상시키고 수행 시간을 단축시킬 수 있다. 제안한 기법으로 허용 오차 20ms 이내에서 연속음성에 대한 음소 경계 검출 실험을 수행한 결과, 수작업으로 행한 경계 검출 지점의 약 88%를 정확히 검출하였다.

  • PDF

Software Development of an Intelligent Toy with Various Functions Including Speech Recognition (음성인식 등의 복합기능을 가진 지능형 장난감의 소프트웨어 개발)

  • 박상훈;한상훈;조형제
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.589-591
    • /
    • 2001
  • 음성인식은 여러 분야에 적용될 수 있지만 지능형 장난감에 적용된 사례를 보면 다른 시스템에서 적용된 경우와 같이 높은 인식률이 요구된다. 하지만 음성인식의 기능만으로 지능형 장난감의 기능이 다양성을 가지지 못한다. 음성인식기능 뿐만 아니라 다른 여러 가지의 기능을 가진 지능형 장난감의 소프트웨어를 개발하는 것이 다른 시스템과의 차별성을 두는 것이 된다. 본 논문에서는 이 Intelligent Toy에 내장될 음성인식 등의 여러 가지의 기능을 가진 Software를 구현하는 방법 및 결과를 제시한다. 대표적 기능인 음성인식은 화자종속이고 그 인식률은 99%의 높은 인식률을 얻었다. 그외에도 음성합성, 음악합성, 음성녹음 및 재생 등의 기능구현을 하였다. 음성인식을 가진 Intelligent Toy 계열의 시스템과 같은 잡음 환경 하에서 인식률을 비교해 볼 때 그 결과가 우수함을 확인하였다.

  • PDF

The design of VoiceXML Interpreter based on the Web (웹 기반의 VoiceXML 문서 인터프리터의 설계)

  • 이선남;김경아;이기호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.355-357
    • /
    • 2001
  • VoiceXML은 음성인식 및 음성합성과 음성처리기술을 이용하여, 시각에 의존하는 기존의 웹을 벗어나 음성 및 시각을 모두 활용할 수 있는 새로운 정보 서비스 패러다임으로 제시되어지고 있다. VoiceXML을 이용한 음성정보서비스를 제공할 경우, 마크업 언어형태로 작성된 시나리오를 인터프리터를 통해 서비스하기 때문에 시나리오 변경 요구시 재프로그램해야 하는 기존 음성정보서비스 시스템의 문제점을 쉽게 개선할 뿐만 아니라, 음성정보서비스의 개발자가 음성인식.음성합성과 같은 기술적인 문제와는 독립적으로 시나리오를 작성할 수 있다는 이점이 있다. 본 논문에서는 W3C Voice Browser Working Group에서 제안하는 문법표현.시스템구조.다이얼로그 모델 등을 지원하는 XML 기반 대화형 마크업 언어인 VoiceXML 문서의 인터프리터를 설계하고자 한다.

  • PDF

Selection of Synthesis Unit for High Quality Korean Speech Synthesis System (고품질 한국어 음성합성 시스템을 위한 합성단위의 선택)

  • 김재홍
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.269-272
    • /
    • 1998
  • 본 논문에서는 고품질 한국어 합성을 위한 합성단위에 대해서 연구한다. 합성단위는 합성음의 음질을 좌우할 뿐만 아니라 전체 시스템의 크기에도 영향을 미친다. 음소와 같이 단위의 수가 적은 경우 적은 메모리로 시스템의 구성이 가능하지만 음운천이구간의 처리가 어려우며, 복합음소단위의 경우 많은 메모리를 요구하지만 음운천이특성을 잘 표현할 수 있는 장점이 있다. 본 논문에서는 합성단위가 한국어 합성음질에 미치는 영향을 분석하기 위하여 반음절, CVC형, VCV형 복합음소를 대상으로 음성을 합성하였다. 실험에 사용된 합성시스템은 최근 제안된 코퍼스에 기반한 합성시스템이다. 실험 전에 파악된 각 단위들의 통계적인 특성과 합성음의 음질을 비교한 결과 CVC형 복합음소가 제안된 시스템에 가장 적합한 합성단위로 판정되었다.

  • PDF

Segmental duration modelling for Korean text-to-speech synthesis (한국어 음성합성에서 음운지속시간 모델화)

  • Lee YangHee
    • Proceedings of the KSPS conference
    • /
    • 1996.02a
    • /
    • pp.125-135
    • /
    • 1996
  • 본 논문에서는 자연스러운 음성을 합성하기 위하여, 한국어 음운지속시간의 변화에 있어서 문절과 구내의 음절수와 음절의 위치에 의한 영향과 인접하는 음운의 영향에 대하여 통계적으로 분석하였고, 분석된 시간 특징을 제어 요소로 하는 회귀트리를 생성하여 음운 지속시간을 모델 화하였다. 또한, 제안된 음운 지속시간 모델에 의해 예측실험을 행하여, 측정치와 예측치간의 다중 상관계수가 0.74정도이고, 각 음운의 예측오차의 75%이상이 25ms이내로 제안된 모델의 타당성이 입증되었다.

  • PDF

Wideband Speech Coding Algorithm with Application of Wavelet Transform (웨이브렛 변환을 적용한 광대역 음성부호화 알고리즘)

  • 이승원;배건성
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.5
    • /
    • pp.462-470
    • /
    • 2002
  • Wideband speech, characterized by a bandwidth of 50∼7000 ㎐, sounds more natural and intelligible, and is less tiring to listen to when compared to narrowband speech characterized by a bandwidth of 300∼3400 ㎐. Wideband speech coders, however, have not been as successful as the narrowband speech coders because of their higher bit rate. In this paper, we propose a new wideband speech coder which combines the European standard of a narrowband speech coder, i.e., GSM-EFR, and a transform coder using the discrete wavelet transform. The proposed wideband speech coder operates as follows input speech is first split into two subbands with equal bandwidth and the two subband signals are coded and decoded by each subband coder. A GSM-EFR is adopted as a lower subband coder and a subband coder with wavelet transformed speech is designed for a upper subband coder. The total bit rate of the proposed coder is 18.9kbps (12.2 kbps for lower band coder and 6.7 kbps for upper band coder), and informal listening test results have shown that the proposed coder has comparable speech quality to that of G.722 with 56 kbps.

Intelligibility Improvement of Low Bit-Rate Speech Coder Using Stochastic Spectral Equalizer (통계적 스펙트럼 이퀄라이저를 이용한 저 비트율 음성부호화기의 명료도 향상)

  • Lee, Jeong Hun;Yun, Deokgyu;Choi, Seung Ho
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.41 no.10
    • /
    • pp.1183-1185
    • /
    • 2016
  • Low bit-rate speech coder in digital speech communications synthesizes speech using vocal tract model parameters. In this case, the spectra of the synthesized speech can be much distorted since the allocated bits for the parameters are considerably limited, which results in the degradation of speech intelligibility. In this paper, we propose a speech intelligibility improvement method using stochastic spectral equalizer. This method stochastically obtains the weight vector of each speech coder using spectral ratios between original and synthesized speech, then applies this weight vector to synthesized speech. From the experiments of objective speech intelligibility tests, we found that the performance of the proposed method is better than that of the conventional method.