인터넷 웹페이지의 음성합성을 위한 엔진 및 플러그-인 설계 및 구현

Design and Implementation of a Speech Synthesis Engine and a Plug-in for Internet Web Page

  • 이희만 (서원대학교 전자계산학과) ;
  • 김지영 (서원대학교 전자계산학과)
  • 발행 : 2000.02.01

초록

본 논문은 인터넷 웹페이지의 텍스트 정보를 추출하여 이를 음성으로 합성하기 위한 음성합성 엔진 및 넷스케이프 플러그인의 설계 및 구현에 관한 것이다. 인터넷 웹페이지를 음성으로 합성하는 방법은 audio/x-esp MIME 타입을 임베딩한 웹페이지가 발견되면서 이에 상응하는 플러그-인이 작되며 해당 플러그인은 URL로 지정된 HTML 문서를 네트워크에서 가져와 컴맨더 모브젝트에 보내교, 컴맨더 오브젝트는 HTML 문서를 파싱하여 합성엔진 제어용 TAG를 추출한다. 제어용 TAG에는 음성합성 데이터베이스 변경 및 합성음의 길이 또는 피치조절 파라미터 등의 정보를 갖고 있어 동적으로 합성음을 제어할 수 있다. 또한 컴맨더 오브젝트는 HTML 문서 내부의 특정 태그로 지정된 문장을 추출하여 전처리 과정을 수행한 후 합성엔진을 위한 컴맨드 스트림을 발생한다. 음성합성엔진은 컴맨드 스트림을 훼치(Fetch)하여 명령어를 해석하고 해당 명령어를 상응하는 멤버함수를 실행하여 음성을 합성한다. 컴맨더 오브젝트와 음성합성엔진은 각각 독립적인 객체로 설계하여 이식성과 유연성을 높인다.

In the paper, the design and the implementation of the netscape plug-in and the speech synthesis enginegenerating the speech sounds from the text information of the web pages are described. The steps of the generating speech sound from an web pages are the speech synthesis plug-in is activated when the netscape finds the audio/xesp MIME data type embedded in the browsed web page; the HTML file referenced in the EMBED MTML tag is down loaded from the referenced URL to send to the commander object located in the said plug-in; The speech synthesis engine control tags and the text characters are extracted from the down loaded HTML document by the commander object the synthesized speech sounds are generated by the speech synthesis engine. The speech synthesis engine interprets the command streams from the commander objects to call the member functions for the processing of the speech segment data in the data banks. The commander object and the speech synthesis engine are designed as an independent object to enhancethe flexitility and the portability.

키워드

참고문헌

  1. Gordon E. Pelton, Voice Processing, McGRAW-HILL, pp.13-32, 1993
  2. E. Moulines, F.J. Charpentier, 'Pitch-Synchronous Waveform Processing Techniques for Text-to-Speech Synthesis Using Diphones,' Speech Communication, Vol.9, No.5-6, pp.453-467, 1990 https://doi.org/10.1016/0167-6393(90)90021-Z
  3. F.J.Carpentier, M.G. Stella, 'Diphone Synthesis Using An Overlap-Add Technique for Speech WaveForms Concattenation,' Proc. ICASSP, pp.2015-2018, 1986
  4. F.J. Carpentier, E. Mouliens, 'TTS Algorithms Based on FFT Synthesis,' ICASSP, pp.667-670, 1988 https://doi.org/10.1109/ICASSP.1988.196674
  5. Thierry Dutoit, Henri Leich, 'MBR-PSOLA : Text-to-Synthesis Based On FFT An MBE Re-Synthesis of the Segments Database,' Speech Communication, Vol.12, 1993
  6. 양진석, 김재범, 이정현, '운율 및 길이 정보를 이용한 무제한 음성합성기의 설계 및 구현', 한국정보처리학회 논문지, Vol.3, No.5, pp.1121-1129, 1996
  7. 정국, 구희산, 이찬도, 김종미, '음성인식/합성을 위한 국어의 음성-음운론적 특성연구', 한국음향학회지, Vol.13, No.6, pp.31-43, 1994
  8. 조철우, 김경태, 이용주, '합성음성평가를 위한 다음절 무의미 단어 생성과 이용에 관한 연구', 한국음향학회지, Vol.13. No.5, pp.51-58, 1994
  9. 박애희, 양진우, 김순협, '음소단위를 이용한 소규모 문 자음성변환 시스템의 설계 및 구현', 한국음향학회지, Vol.14, No.3, pp.49-60, 1995
  10. A. Rosenberg. 'Effects of Glottal pulse Shape on the Quality of Natual Vowels'. J. Acost. Soc. Am, No.49, pp.583-590, 1971
  11. I. Titze, D. Talkin. 'A Theoretical Study of the effects of the various Laryngeal Configurations on the Acoustics of Phonation'. J. Acoust. Soc. Am. No.66, pp.60-74, 1979 https://doi.org/10.1121/1.382973
  12. Zan Oliphant, Programming Netsacpe Plug-Ins, Sams.net , 1996
  13. Mike Morgan, Developing for Netscape One, Que, 1997
  14. 이희만, 김지영, 'TTS 적용을 위한 음성합성엔진', 한국통신학회지, Vol.23, No.6, pp.1443-1453, 1998