• Title/Summary/Keyword: 음성추출

Search Result 982, Processing Time 0.026 seconds

A study on The Guarantee of QoS in the Home Network using Multiple Speech (이동단말에서 다중발화를 이용한 Home network 환경에서의 QoS 보장 연구)

  • 황지수;이창섭;박준석;김유섭;박찬영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.811-813
    • /
    • 2004
  • 휴대전화에서 전달되는 음성데이터들이 전달되는 과정에서 잡음 등의 외부 요인으로 인하여 데이터에 손실이 생기는 문제가 발생한다. 이렇게 전달된 음성데이터가 음성 인식기를 통과하면 바로 음성 인식기를 통과했을 때 보다 인식률이 낮아진다. 본 연구에서는 음성인식 알고리즘을 이용하여 홈 네트워크를 제어하는데 있어서 음성 인식율을 향상시키기 위해서 반복적으로 음성 데이터를 입력받아. 이를 유사율 알고리즘을 적용시켜 추출 된 여러 개의 데이터(text)를 이미 구축된 홈 네트워크 용어 관련 사전에 등록된 단어와의 유사성을 검토하여 추출된 결과로 홈 네트워크를 제어하는 방안을 제안한다. 이 결과, 기존의 방법에 비해서 10% 정도의 인식률의 향상을 확인할 수 있었다.

  • PDF

Design and Implementation of a Recording System Based on H.323 (H.323 기반의 녹음장비 설계 및 구현)

  • 정정용;방혜자
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10c
    • /
    • pp.34-36
    • /
    • 2004
  • 인터넷의 확산과 더불어 인터넷을 이용한 음성전달 기술은 급속히 발전하고 있으며 음성전달 기술을 이용해 개발된 소프트웨어를 통칭해 인터넷 전화라 부른다. 인터넷 전화는 비싼 전화요금 대신 인터넷 사용료나 매우 저렴한 요금으로 음성 대화를 가능하게 한다. 저렴한 요금이라는 큰 장점으로 인해 콜센터나 일반고객들이 인터넷전화를 이용할 가능성이 커지게 되었고 시장의 변화에 따라 녹음장비도 인터넷 상의 음성을 녹음 할 필요성을 가지게 되었다. 본 논문에서는 인터넷 상의 음성전달 기술인 VoIP Protocol H.323 을 지원하는 단말간의 통화를 녹음할 수 있도록 녹음 장비의 핵심인 IP Packet을 Capture 하여 음성데이터를 추출하는 모듈을 구현 하였다.인터넷의 확산과 더불어 인터넷을 이용한 음성전달 기술은 급속히 발전하고 있으며 음성전달 기술을 이용해 개발된 소프트웨어를 통칭해 인터넷 전화라 부른다. 인터넷 전화는 비싼 전화요금 대신 인터넷 사용료나 매우 저렴한 요금으로 음성 대화를 가능하게 한다. 저렴한 요금이라는 큰 장점으로 인해 콜센터나 일반고객들이 인터넷전화를 이용할 가능성이 커지게 되었고 시장의 변화에 따라 녹음장비도 인터넷 상의 음성을 녹음 할 필요성을 가지게 되었다. 본 논문에서는 인터넷 상의 음성전달 기술인 VoIP Protocol H.323 을 지원하는 단말간의 통화를 녹음할 수 있도록 녹음 장비의 핵심인 IP Packet을 Capture 하여 음성데이터를 추출하는 모듈을 구현 하였다.

  • PDF

Design & Implementation of Lipreading System using Robust Lip Area Extraction (견고한 입술 영역 추출을 이용한 립리딩 시스템 설계 및 구현)

  • 이은숙;이호근;이지근;김봉완;이상설;이용주;정성태
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.05b
    • /
    • pp.524-527
    • /
    • 2003
  • 최근 들어 립리딩은 멀티모달 인터페이스 기술의 응용분야에서 많은 관심을 모으고 있다. 동적 영상을 이용한 립리딩 시스템에서 해결해야 할 주된 문제점은 상황 변화에 독립적인 얼굴 영역과 입술 영역을 추출하는 것이다. 본 논문에서는 움직임이 있는 영상에서 화자의 얼굴영역과 입술영역을 컬러, 조명등의 변화에 독립적으로 추출하기 위해 HSI 모델과 블록 매칭을 이용하였고 특징 점 추출에는 이미지 기반 방법인 PCA 기법을 이용하였다. 추출된 입술 파라미터와 음성 데이터에 각각 HMM 기반 패턴 인식 방법을 개별적으로 적용하여 단어를 인식하였고 각각의 인식 결과를 가중치를 주어 합병하였다. 실험 결과에 의하면 잡음으로 음성 인식률이 낮아지는 경우에 음성인식과 립리딩을 함께 사용함으로써 전체적인 인식 결과를 향상시킬 수 있었다.

  • PDF

Auto Frame Extraction Method for Video Cartooning System (동영상 카투닝 시스템을 위한 자동 프레임 추출 기법)

  • Kim, Dae-Jin;Koo, Ddeo-Ol-Ra
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.12
    • /
    • pp.28-39
    • /
    • 2011
  • While the broadband multimedia technologies have been developing, the commercial market of digital contents has also been widely spreading. Most of all, digital cartoon market like internet cartoon has been rapidly large so video cartooning continuously has been researched because of lack and variety of cartoon. Until now, video cartooning system has been focused in non-photorealistic rendering and word balloon. But the meaningful frame extraction must take priority for cartooning system when applying in service. In this paper, we propose new automatic frame extraction method for video cartooning system. At frist, we separate video and audio from movie and extract features parameter like MFCC and ZCR from audio data. Audio signal is classified to speech, music and speech+music comparing with already trained audio data using GMM distributor. So we can set speech area. In the video case, we extract frame using general scene change detection method like histogram method and extract meaningful frames in the cartoon using face detection among the already extracted frames. After that, first of all existent face within speech area image transition frame extract automatically. Suitable frame about movie cartooning automatically extract that extraction image transition frame at continuable period of time domain.

Speech Recognition Optimization Learning Model using HMM Feature Extraction In the Bhattacharyya Algorithm (바타차랴 알고리즘에서 HMM 특징 추출을 이용한 음성 인식 최적 학습 모델)

  • Oh, Sang-Yeob
    • Journal of Digital Convergence
    • /
    • v.11 no.6
    • /
    • pp.199-204
    • /
    • 2013
  • Speech recognition system is shall be composed model of learning from the inaccurate input speech. Similar phoneme models to recognize, because it leads to the recognition rate decreases. Therefore, in this paper, we propose a method of speech recognition optimal learning model configuration using the Bhattacharyya algorithm. Based on feature of the phonemes, HMM feature extraction method was used for the phonemes in the training data. Similar learning model was recognized as a model of exact learning using the Bhattacharyya algorithm. Optimal learning model configuration using the Bhattacharyya algorithm. Recognition performance was evaluated. In this paper, the result of applying the proposed system showed a recognition rate of 98.7% in the speech recognition.

Spoken Dialogue Management System based on Word Spotting (단어추출을 기반으로 한 음성 대화처리 시스템)

  • Song, Chang-Hwan;Yu, Ha-Jin;Oh, Yung-Hwan
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.313-317
    • /
    • 1994
  • 본 연구에서는 인간과 컴퓨터 사이의 음성을 이용한 대화 시스템을 구현하였다. 특별히 음성을 인식하는데 있어서 단어추출(word apotting) 방법을 사용하는 경우에 알맞은 의미 분석 방법과 도표 형태의 규칙을 기반으로 하여 시스템의 응답을 생성하는 방법에 대하여 연구하였다. 단어추출 방법을 사용하여 음성을 인식하는 경우에는 형태소분석 및 구문분석의 과정을 이용하여 사용자의 발화 의도를 분석하기 어려우므로 새로운 의미분석 방법을 필요로 한다. 본 연구에서는 퍼지 관계를 사용하여 사용자의 발화 의도를 파악하는 새로운 의미분석 방법을 제안하였다. 그리고, 사용자의 발화 의도에 적절한 시스템의 응답을 만들고 응답의 내용을 효율적으로 관리하기 위한 방범으로 현재의 상태와 사용자의 의도에 따른 응답 규칙을 만들었다. 이 규칙은 도표의 형태로 구현되어 규칙의 갱신 및 확장을 편리하게 만들었다. 대화의 영역은 열차 예매에 관련된 예매, 취소, 문의 및 관광지 안내로 제안하였다. 음성의 오인식에 의한 오류에 적절히 대처하기 위해 시스템의 응답은 확인 및 수정 과정을 포함하고 있다. 본 시스템은 문자 입력과 음성 입력으로 각각 실험한 결과, 사용자는 시스템의 도움을 받아 자신이 의도하는 목적을 달성할 수 있었다.

  • PDF

An Automatic Diphone Segmentation for Korean Speech Synthesis-by-Rule (한국어 규칙 합성을 위한 다이폰의 자동 추출)

  • 정인종;경연정;김한우;이양희
    • The Journal of the Acoustical Society of Korea
    • /
    • v.12 no.2E
    • /
    • pp.63-72
    • /
    • 1993
  • 본 논문에서는 무제한 음성 생성을 위한 단위음성으로서의 다이폰을 2음절 자연음성으로부터 자동 추출하는 알고리즘을 제안한다. 입력음성을 개량 켑스트럼 파라미터로 분석하여 이로부터 다이폰 추출 파라미터들을 도출한다. 제안된 파라미터로는 에너지 레벨을 나타내는 0차 켑스트럼의 동적변화량, 스펙트럼의 시간 변화량 영교차율, 캡스트럼의 유클리디안 거리이다. 스펙트럼 포락의 변화가 완만한 모음 연쇄등의 음소 경계를 보다 효율적으로 검출하기 위해 스펙트럼의 시간 변화를 미세부분과 개형부분으로 나누어 각각을 파라미터로 사용한다. VV(모음연쇄), VCV(C: 반모음, 자음), VCCV형들로 이루어진 2음절 단어들에 대해 실험한 결과, 모음연쇄 등이 포함되어 있음에도 약 85% 정확도의 음소경계검출을 얻었다. 본 논문에 의한 다이폰을 이용한 합성음의 청취실험 결과 명료도가 높음을 확인하였다.

  • PDF

Service Scenario Creator of Voice Processing System (음성 처리 시스템의 서비스 시나리오 생성기)

  • Hwang, Byung-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11b
    • /
    • pp.1313-1316
    • /
    • 2002
  • 본 논문은 음성 처리 시스템의 서비스 시나리오 생성기에 관한 것으로, 좀더 상세하게는, 음성 처리 시스템의 서비스 시나리오를 생성하기 위한 단위 서비스 상태를 각각 정의하고 수행하는 다수의 상태 정의 모듈과, 시나리오 작성자가 상기 다수의 상태 정의 모듈 중 서비스 시나리오의 작성에 필요한 상태 정의 모듈들을 추출하고 추출된 각 상태 정의 모듈의 입력 값, 비교 값 및 분기할 다음 상태 정의 모듈 명을 지정할 수 있도록 유저 인터페이스 기능을 제공하는 유저 인터페이스 모듈과, 시나리오 작성자에 의하여 추출된 상태 정의 모듈들에 상기 지정된 입력 값, 비교 값 및 분기할 다음 상태 정의 모듈 명을 입력하여 서비스 시나리오를 생성하는 서비스 시나리오 생성 모듈과, 생성된 서비스 시나리오를 제어부가 실행할 수 있는 실행 코드로 변환하여 제어부에 제공하는 실행 코드 변환 모듈로 이루어지는 음성 처리 시스템의 서비스 시나리오 생성기에 관한 것이다.

  • PDF

Comparison and Analysis of Speech Signals for Emotion Recognition (감정 인식을 위한 음성신호 비교 분석)

  • Cho Dong-Uk;Kim Bong-Hyun;Lee Se-Hwan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.533-536
    • /
    • 2006
  • 본 논문에서는 음성 신호로부터 감정의 특징을 나타내는 요소를 찾아내는 것을 목표로 하고 있다. 일반적으로 감정을 인식할 수 있는 요소는 단어, 톤, 음성신호의 피치, 포만트, 그리고 발음 속도 및 음질 등이 있다. 음성을 기반으로 감정을 익히는 방법 중에서 현재 가장 많이 접근하고 있는 방법은 피치에 의한 방법이 있다. 사람의 경우는 주파수 같은 분석 요소보다는 톤과 단어, 빠르기, 음질로 감정을 받아들이게 되는 것이 자연스러운 방법이므로 이러한 요소들이 감정을 분류하는데 중요한 요소로 쓰일 수 있다. 따라서, 본 논문에서는 감정에 따른 음성의 특징을 추출하기 위해 사람의 감정 중에서 비교적 자주 쓰이는 평상, 기쁨, 화남, 슬픔에 관련된 4가지 감정을 비교 분석하였으며, 인간의 감정에 대한 음성의 특성을 분석한 결과, 강도와 스펙트럼에서 각각의 일관된 결과를 추출할 수 있었고, 이러한 결과에 대한 실험 과정과 최종 결과 및 근거를 제시하였다. 끝으로 실험에 의해 제안한 방법의 유용성을 입증하고자 한다.

  • PDF

A Study on Multi-Pulse Speech Coding Method by using Individual Pitch Pulses (개별 피치펄스를 이용한 멀티펄스 음성부호화 방식에 관한 연구)

  • 이시우
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.8 no.5
    • /
    • pp.977-982
    • /
    • 2004
  • In this paper, I propose a new method of Multi-Pulse Coding(IP-MPC) use individual pitch pulses in order to accommodate the changes in each pitch interval and reduce pitch errors. The extraction rate of individual pitch pulses was 85% for female voice and 96% for male voice respectively. 1 evaluate the MPC by using pitch information of autocorrelation method and the IP-MPC by using individual pitch pulses. As a result, I knew that synthesis speech of the IP-MPC was better in speech quality than synthesis speech of the MPC.