• Title/Summary/Keyword: Voice Processing

Search Result 561, Processing Time 0.028 seconds

Applying the Bi-level HMM for Robust Voice-activity Detection

  • Hwang, Yongwon;Jeong, Mun-Ho;Oh, Sang-Rok;Kim, Il-Hwan
    • Journal of Electrical Engineering and Technology
    • /
    • v.12 no.1
    • /
    • pp.373-377
    • /
    • 2017
  • This paper presents a voice-activity detection (VAD) method for sound sequences with various SNRs. For real-time VAD applications, it is inadequate to employ a post-processing for the removal of burst clippings from the VAD output decision. To tackle this problem, building on the bi-level hidden Markov model, for which a state layer is inserted into a typical hidden Markov model (HMM), we formulated a robust method for VAD not requiring any additional post-processing. In the method, a forward-inference-ratio test was devised to detect the speech endpoints and Mel-frequency cepstral coefficients (MFCC) were used as the features. Our experiment results show that, regarding different SNRs, the performance of the proposed approach is more outstanding than those of the conventional methods.

A Voice-Activated Dialing System with Distributed Speech Recognition in WiFi Environments (무선랜 환경에서의 분산 음성 인식을 이용한 음성 다이얼링 시스템)

  • Park Sung-Joon;Koo Myoung_wan
    • MALSORI
    • /
    • no.56
    • /
    • pp.135-145
    • /
    • 2005
  • In this paper, a WiFi phone system with distributed speech recognition is implemented. The WiFi phone with voice-activated dialing and its functions are explained. Features of the input speech are extracted and are sent to the interactive voice response (IVR) server according to the real-time transport protocol (RTP). Feature extraction is based on the European Telecommunication Standards Institute (ETSI) standard front-end, but is modified to reduce the processing time. The time for front-end processing on a WiFi phone is compared with that in a PC.

  • PDF

Design of Voice Conferenfe System using Reliable Multicast (신뢰성 있는 멀티캐스트를 이용한 음성 회의 시스템의 설계)

  • Song, Gi-Pyeong;Gu, Gyeong-Cheol;Park, Chi-Hang;Kim, Gwang-Hyeon;Lee, Tae-Hun
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.5
    • /
    • pp.1525-1535
    • /
    • 2000
  • Multicast is the multiparty communication that allows one-to-many communications. There are some multicast applications which are the ways of multiparty communications such as video conference system and white board. This paper proposes a dynamic allocation mechanism of designated receiver by using designated receiver list and a retransmission mechanism with designated receiver for the effective multicasting dta transmission. We designed voice conference system with multicast based on RTP/RTCP. This voice conference system increases the effect of standardization work and enables to exchange reliable standard dta with real time.

  • PDF

An Implementation of Realtime News Service Using RSS and VoiceXML (RSS와 VoiceXML을 이용한 실시간 뉴스 서비스의 구현)

  • Kwon, Hyeng-Joon;Kim, Dong-Gyu;Hong, Kwang-Seok
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2006.06a
    • /
    • pp.9-12
    • /
    • 2006
  • 높은 컴퓨터 보급률에 따른 인터넷의 대중화로 인하여 새로운 소식을 원하는 사람들은 기존의 정해진 시각에 전달되는 지면 신문보다 인터넷을 통해 새로운 소식을 접하는 경향이 높아지면서, 국내의 각 언론사들은 RSS(RDF Site Summary)문서를 제공하기 시작하였다. 차세대 웹인 시맨틱 웹의 여러 가지 규격 및 기술 중에서도 그 유용함과 편리성을 인정받아 우리 생활에 가장 먼저 적용되고 있는 RSS는 컨텐츠 배급을 위해 나온 XML형태의 규격 중 하나로서 웹사이트에서 사용자가 원하는 정보의 갱신된 내용을 신속하게 사용자에게 전달하는 자동 정보 수집 기술이다. 본 논문에서는 특정 언론사에서 제공하는 RSS문서에 음성인식 및 합성기술을 기반으로 동작하는 다른 XML형태의 규격인 음성 확장성 생성 언어(VoiceXML)를 접목하여 휴대전화 및 유선전화로 새로운 뉴스를 접할 수 있는 서비스를 제안하고 구현하였다. 실험 결과, 시간과 장소에 구애받지 않고 신뢰성 있는 언론사의 새로운 뉴스를 실시간으로 전달받을 수 있음을 확인하였다.

  • PDF

Home Appliance Control through Speech Recognition User Interface (음성 인식 사용자 인터페이스를 통한 가전기기 제어 기법)

  • Song, Wook;Jang, Hyun-Su;Eom, Young-Ik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.265-268
    • /
    • 2006
  • 유비쿼터스 컴퓨팅 환경이 확대됨에 따라, 기존의 키보드와 마우스만을 사용자 인터페이스로 주로 사용했던 방법에서 벗어나 좀 더 사용자 중심의 멀티모달 유저 인터페이스 적응이 요구되고 있다. 이에 XHTML+Voice는 음성 및 시각을 모두 제공할 수 있는 새로운 서비스 패러다임으로서 기존의 음성정보만을 제공하거나 시각적인 정보만을 제공하는 시스템과는 달리 XHTML내에 VoiceXML을 삽입함으로써 두 언어의 장점을 모두 활용할 수 있다. 본 논문에서는 VoiceXML의 이러한 장점을 살려 스마트 홈을 구성하는 여러 가전기기들의 인터페이스를 미리 템플릿으로 만들어 두어 모바일 디바이스를 통해 이것들을 제어하는 시나리오를 제안하고 구현하는 방법에 대해 실험하였다.

  • PDF

A Study on Audio/Voice Color Processing Technique (오디오/음성 컬러 처리 기술 연구)

  • Kim Kwangki;Kim Sang-Jin;Son BeakKwon;Hahn Minsoo
    • Proceedings of the KSPS conference
    • /
    • 2003.05a
    • /
    • pp.153-156
    • /
    • 2003
  • In this paper, we studied advanced audio/ voice information processing techniques, and trying to introduce more human friendly audio/voice. It is just in the beginning stage. Firstly, we approached in well-known time-domain methods such as moving average, differentiation, interpolation, and decimation. Moreover, some variation of them and envelope contour modification are utilized. We also suggested the MOS test to evaluate subjective listening factors. In the long term viewpoint, user's preference, mood, and environmental conditions will be considered and according to them, we hope our future technique can adapt speech and audio signals automatically.

  • PDF

A XHTML2VoiceXML Converter based on EXI using XSLT (XSLT를 이용한 EXI 기반 XHTML2VoiceXML 변환기)

  • Kwak, Donggyu;Shin, Kyoung-Hee;Yoo, Chae-Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.211-212
    • /
    • 2009
  • XML은 텍스트를 기반으로 하는 데이터 표현의 표준이다. 하지만, 이진 데이터 저장 방식에 비해 파일에 크기가 커서 자원을 적게 사용하는 편재형 컴퓨팅 환경에 적용하기 어려운 단점을 가진다. EXI는 XML의 형태는 그대로 유지하면서 파일의 크기를 줄이는 이진 XML 의 W3C 표준이다. 한 응용에서 사용하고 있는 XML 을 다른 응용에서 재사용하기 위해서는 변환이 필요하고, 일반적인 XML 문서의 변환에는 XSLT가 이용된다. 하지만, XSLT는 텍스트를 기반으로 하고 있어 EXI 포맷에 바로 적용할 수 없다. 본 논문은 자원을 적게 사용하는 편재형 컴퓨팅 환경에서 EXI 포맷 XML 문서의 재사용성을 높이기 위해 서로 다른 응용의 EXI 포맷 XML 문서의 변환 방법을 제안한다. 그리고, 다양한 응용환경 중 EXI 포맷의 XHTML 문서를 EXI 포맷의 VoiceXML로 변환하는 시스템을 보인다. 이는 자원이 적은 편재형 컴퓨팅 환경에서 EXI 포맷 XML 문서의 재사용성을 높이고 EXI 포맷 XML 활용에 기여할 수 있다.

A Study On the Automatic Generation System of Mobile Voice Web Page (모바일 음성 웹 페이지의 자동 생성 시스템에 관한 연구)

  • You-Jung Ko;Yoon-Joong Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.153-156
    • /
    • 2008
  • 모바일 기기는 화면의 크기가 작아 스타일러스나 펜으로 웹 컨텐츠를 이용하기에는 불편함이 있다. 이에 따라 음성으로 웹의 컨텐츠를 개발하기 위한 포준 언어인 VoiceXML(Voice Extenxible Markup Language), SALT(Speech application Language Tags)가 빠르게 보급되고 있다. 이를 이용하기 위해서는 기존의 모바일 웹페이지를 음성 웹 표준 기술에 맞게 변환해줘야 한다. 따라서 본 논문에서는 WML(Wireless Markup Language)로 구성된 모바일 웹 페이지를 SALT 음성기술을 이용하여 음성명령이 가능한 모바일 음성 웹페이지(WML + SALT)로 자동 생성하는 시스템을 구현 하고자 한다. 이에 따라 사용자는 음성명령을 통해 컨텐츠를 제어함으로써 편리함을 제공하고, 개발자는 자동 생성 시스템을 이용함으로써 기존의 모바일 웹 페이지를 음성 웹 페이지를 변환하기 위한 개발시간과 비용을 감소 할 수 있다.

Development of a Cryptographic Dongle for Secure Voice Encryption over GSM Voice Channel

  • Kim, Tae-Yong;Jang, Won-Tae;Lee, Hoon-Jae
    • Journal of information and communication convergence engineering
    • /
    • v.7 no.4
    • /
    • pp.561-564
    • /
    • 2009
  • A cryptographic dongle, which is capable of transmitting encrypted voice signals over the CDMA/GSM voice channel, was designed and implemented. The dongle used PIC microcontroller for signals processing including analog to digital conversion and digital to analog conversion, encryption and communicating with the smart phone. A smart phone was used to provide power to the dongle as well as passing the encrypted speech to the smart phone which then transmits the signal to the network. A number of tests were conducted to check the efficiency of the dongle, the firmware programming, the encryption algorithms, and the secret key management system, the interface between the smart phone and the dongle and the noise level.

A Study on the Intergrated Voice/Data transmission Algorithm characteristics on Local Area Network (유선 LAN상의 음성/데이타 혼합전송 알고리즘 특성에 관한 연구)

  • 김동일
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.1 no.2
    • /
    • pp.137-143
    • /
    • 1997
  • From now on, the network is being developed into PSTN(public switched telephone network) and PDN(public data network), that is depend on the form of data. The former one pursues sending voice, and the latter one pursues sending data. But it causes big loss of the economy and efficiency. So, ISDN, processing voice and data at same time, gives a big profit to user. To enlarge the ISDN at the narrow area, it is necessary that study to send the mixture form of voice and data in LAN environment. So, this paper proposes the algorithm about the mixture form of voice and data in ethernet and token-ring. that is widely used in these days.

  • PDF