• Title/Summary/Keyword: Voice Processing

Search Result 559, Processing Time 0.031 seconds

A Method For Utilizing Voice Interface in Web Environment Using VoiceXML (웹 환경에서 VoiceXML을 이용한 음성인터페이스 활용방안)

  • Jang, Min-Seok;Bang, Cho-Kyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04b
    • /
    • pp.1447-1450
    • /
    • 2002
  • 현재의 웹 환경은 HTML로 구성이 되어있고 이로인해 하이퍼링크를 따라가기 위해 마우스 클릭을 통해 작업하는 GUI환경이 주를 이룬다. 하지만 이러한 방법은 인간이 가장 손쉽게 사용하는 음성과 비교해 볼 때 상당히 불편한 축에 속한다. 이를 해결하기 위해 현재 무르익은 음성인식 기술과 전화기를 통해 정보를 제공하고자 하는 XML의 파생인 VoiceXML을 이용하여 현재 HTML이 주류를 이루는 웹 환경을 VoiceXML을 이용한 음성인터페이스 환경을 마련하고자 한다.

  • PDF

A Design and Implementation of the Real-Time VoIP Terminal System Based on Linux (리눅스 기반 실시간 처리 VoIP 단말기 시스템의 설계 및 구현)

  • Lee, Myeong-Geun;Lee, Sang-Jeong;Seo, Jeong-Min;Im, Jae-Yong
    • The KIPS Transactions:PartA
    • /
    • v.8A no.4
    • /
    • pp.345-352
    • /
    • 2001
  • In this paper, a VoIP (Voice on Internet Protocol) terminal system, which can process voice in real time based on Linux, is designed and implemented. The hardware of it is designed using a i486 processor and a DSP codec chip which encodes and decodes voice data in real time. As an operating system, RTLinux, which is a real-time operating system based on Linux, is ported to manage real-time voice processing. The voice processing module of the system uses G.723.1 voice codec of ITU-T standard. It transfers voice data within 30ms to assure good voice quality. In order to satisfy the real time requirements and QoS (Quality-of-Service) for the voice data, the real-time voice processing device driver is designed and implemented. To verify the system, the chatting application program is developed and tested for QoS of the system.

  • PDF

Implementation of Packet Voice Protocol (패킷음성 프로토콜의 구현)

  • 이상길;신병철;김윤관
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.18 no.12
    • /
    • pp.1841-1854
    • /
    • 1993
  • In this paper, the packet voice protocol for the transmission of voice signal onto ethernet is implemented in a personal computer (PC). The packet voice protocol used is a modified one from CCITT G.764 packetized voice protocol. The hardware system to facilitate the voice communication onto ethernet is divided into telephone interface, speech processing, PC interface and controllers. The software structure of the protocol is designed according to the OSI seven layer architecture and is divided into three routines : ethernet device driver, telephone interface, and processing routine of the packet voice protocol. Experiments through ethernet with telephone interface show that this packet voice communication achieves satisfactory quality when the network traffic is light.

  • PDF

A Study on Development of VUI(Voice User Interface) using VoiceXML (VoiceXML을 이용한 VUI 개발에 관한 연구)

  • Jang, Min-Seok;Yang, Woon-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04b
    • /
    • pp.1495-1498
    • /
    • 2002
  • 한국현재의 컴퓨팅환경은 Text위주의 Command Line상에서의 입출력에서 GUI(Graphic User Interface)환경으로 전환되었다. 이는 사용자에게 좀더 친근한 방법으로의 컴퓨팅환경을 제공하고 있는 것이다. 하지만 아직까지 그러한 환경에 익숙해지기 위해서는 많은 습득시간이 필요하며 또한 응용프로그램간의 인터페이싱 기능 등을 익히기 위해서는 추가적인 학습을 통해야 원활한 작업을 수행할 수 있다.이를 해결하고자 본 연구는 음성인식/ 합성과, 현재 음성마크업 언어인 VoiceXML 등을 통해서 모색해보고자 한다.

  • PDF

Voice conversion using low dimensional vector mapping (낮은 차원의 벡터 변환을 통한 음성 변환)

  • Lee, Kee-Seung;Doh, Won;Youn, Dae-Hee
    • Journal of the Korean Institute of Telematics and Electronics S
    • /
    • v.35S no.4
    • /
    • pp.118-127
    • /
    • 1998
  • In this paper, we propose a voice personality transformation method which makes one person's voice sound like another person's voice. In order to transform the voice personality, vocal tract transfer function is used as a transformation parameter. Comparing with previous methods, the proposed method can obtain high-quality transformed speech with low computational complexity. Conversion between the vocal tract transfer functions is implemented by a linear mapping based on soft clustering. In this process, mean LPC cepstrum coefficients and mean removed LPC cepstrum modeled by the low dimensional vector are used as transformation parameters. To evaluate the performance of the proposed method, mapping rules are generated from 61 Korean words uttered by two male and one female speakers. These rules are then applied to 9 sentences uttered by the same persons, and objective evaluation and subjective listening tests for the transformed speech are performed.

  • PDF

The Extraction of Effective Index Database from Voice Database and Information Retrieval (음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색)

  • Park Mi-Sung
    • Journal of Korean Library and Information Science Society
    • /
    • v.35 no.3
    • /
    • pp.271-291
    • /
    • 2004
  • Such information services source like digital library has been asked information services of atypical multimedia database like image, voice, VOD/AOD. Examined in this study are suggestions such as word-phrase generator, syllable recoverer, morphological analyzer, corrector for voice processing. Suggested voice processing technique transform voice database into tort database, then extract index database from text database. On top of this, the study suggest a information retrieval model to use in extracted index database, voice full-text information retrieval.

  • PDF

Study on Development of VUI Based on VoiceXML in Mobile Environment (모바일 환경에서 VoiceXML기반의 VUI 개발에 관한 연구)

  • Lim, Chae-Uk;Jang, Min-Seok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.539-542
    • /
    • 2003
  • 기존의 모바일 디바이스(휴대전화, PDA 등)의 인터페이스는 GUI 방식이 주류를 이루고 있으며 약간의 음성인식 기술이 접목되고 있는 실정이다. 그 음성인식 기술의 활용은 음성인식 다이얼링에 제한되어 있는 실정이다. 이러한 한계점을 극복하기 위해 본 논문에서는 VoiceXML 포럼에서 제안한 VoiceXML 버전 2.0 스펙을 따르는 VoiceXML을 모바일 환경에 적용시켜 음성인식 다이얼링 기능뿐만 아니라, 음성인식 및 합성 기술을 이용한 메뉴선택, 정보 청취 등의 기능을 가능하게 하는 목적으로 VoiceXML 기반의 VUI(Voice User Interface) 개발을 위한 요구사항을 제시하고자 한다. 기존의 GUI 방식뿐만 아니라 VUI 방식을 수용하게 함으로써 사용자들에게 인간친화적인 정보획득 환경을 제공할 것이다.

  • PDF

Development of Portable Conversation-Type English Leaner (대화식 휴대용 영어학습기 개발)

  • Yoo, Jae-Tack;Yoon, Tae-Seob
    • Proceedings of the KIEE Conference
    • /
    • 2004.05a
    • /
    • pp.147-149
    • /
    • 2004
  • Although most of the people have studied English for a long time, their English conversation capability is low. When we provide them portable conversational-type English learners by the application of computer and information process technology, such portable learners can be used to enhance their English conversation capability by their conventional conversation exercises. The core technology to develop such learner is the development of a voice recognition and synthesis module under an embedded environment. This paper deals with voice recognition and synthesis, prototype of the learner module using a DSP(Digital Signal Processing) chip for voice processing, voice playback function, flash memory file system, PC download function using USB ports, English conversation text function by the use of SMC(Smart Media Card) flash memory, LCD display function, MP3 music listening function, etc. Application areas of the prototype equipped with such various functions are vast, i.e. portable language learners, amusement devices, kids toy, control by voice, security by the use of voice, etc.

  • PDF

A Study of Speech Recognition Web Services Environment for Voice Browser (Voice Browser를 위한 음성 인식 웹서비스 환경에 관한 연구)

  • Hong, In-Suk;Kim, Yoon-Joong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.142-145
    • /
    • 2009
  • 음성인터페이스 관련 표준화는 음성 대화, 음성인식/합성, 전화망 등의 접속망을 상호 분리하여 음성정보시스템 구성요소들 각각의 상호 독립적인 개발을 보장해 주며, 각 요소의 이해가 없이도 음성정보시스템을 개발할 수 있도록 함으로써 음성정보기술의 보급 및 확산에 크게 기여하고 있다. 이에 W3C에서는 Voice Browser에 대한 표준화를 현재 진행 중에 있으며 Vocie Browser WG에서 Voice Browser를 위한 SIF(Speech Interface Framework)를 제안하였다. 제안된 SIF에서 Voice Browser가 음성인식을 실행하기 위해서는 많은 자원의 소요와 부하가 생길 수 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 음성인식 웹 서비스를 기존의 SIF에 추가한 새로운 형태의 SIF를 제안하고자 한다. 음성인식은 원격 시스템에서 수행하고 그 결과를 Voice Browser가 사용할 수 있도록 음성인식 웹서비스 환경을 구축하였다. 그리고, XML-SRGS 포멧의 grammar를 음성인식기가 사용하는 EBNF 포멧의 grammar로 변환시키는 변환기를 구현하였다.

Voice Boosting Filter Design in Frequency Domain for Relief of Husky Voice (쉰목소리 완화를 위한 주파수 영역 음성 강조 필터 설계)

  • Kim, Hyuntae;Lee, Sanghyeop
    • Journal of Korea Multimedia Society
    • /
    • v.19 no.12
    • /
    • pp.1919-1926
    • /
    • 2016
  • The people who complain of pain due to voice causes such as vocal cord nodules is increasing year by year. If the voice is changed, it is possible to give to colleagues discomfort or inconvenience during conversation. In this paper, we propose a way to reduce discomfort by improving the husky voice during the conversation. A VBF (voice boosting filter) is firstly designed to improve the husky voices. This filter may further emphasize the formant frequency components than the frequency components around the formant frequency, because the value is relatively greater than the other frequency. And a fixed-point type DSP chipset, TMS320F2812 is applied to the system, the operating frequency is 150MHz. The system was implemented as a compact for use as a portable, its size is $2.5cm{\times}10cm$. Through the test using three husky voices with some type of statement, it was satisfactory in processing speed and sound quality improvement.