• 제목/요약/키워드: voice extract

검색결과 68건 처리시간 0.027초

신경망을 이용한 단어에서 모음추출에 관한 연구 (A study on the vowel extraction from the word using the neural network)

  • 이택준;김윤중
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2003년도 추계공동학술대회
    • /
    • pp.721-727
    • /
    • 2003
  • This study designed and implemented a system to extract of vowel from a word. The system is comprised of a voice feature extraction module and a neutral network module. The voice feature extraction module use a LPC(Linear Prediction Coefficient) model to extract a voice feature from a word. The neutral network module is comprised of a learning module and voice recognition module. The learning module sets up a learning pattern and builds up a neutral network to learn. Using the information of a learned neutral network, a voice recognition module extracts a vowel from a word. A neutral network was made to learn selected vowels(a, eo, o, e, i) to test the performance of a implemented vowel extraction recognition machine. Through this experiment, could confirm that speech recognition module extract of vowel from 4 words.

  • PDF

음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색 (The Extraction of Effective Index Database from Voice Database and Information Retrieval)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제35권3호
    • /
    • pp.271-291
    • /
    • 2004
  • 전자도서관과 같은 정보제공원은 이미지, 음성, 동영상 등과 같은 비정형 멀티미디어 데이터 서비스에 대한 요구를 받고 있다. 그리하여 본 연구에서는 음성 처리를 위해 어절생성기, 음절복원기, 형태소분석기, 교정기를 제안하였다. 제안한 음성처리 기술로 음성데이터베이스를 텍스트데이터베이스로 변환 한후 텍스트데이터베이스로부터 색인데이터베이스를 추출하였다. 그리고 추출한 색인데이터베이스로 텍스트와 음성의 내용기반정보검색에 활용할 수 있음을 보이기 위해 정보검색모델을 제안하였다.

  • PDF

적응 MFCC와 Neural Network 기반의 음성인식법 (Voice Recognition Based on Adaptive MFCC and Neural Network)

  • 배현수;이석규
    • 대한임베디드공학회논문지
    • /
    • 제5권2호
    • /
    • pp.57-66
    • /
    • 2010
  • In this paper, we propose an enhanced voice recognition algorithm using adaptive MFCC(Mel Frequency Cepstral Coefficients) and neural network. Though it is very important to extract voice data from the raw data to enhance the voice recognition ratio, conventional algorithms are subject to deteriorating voice data when they eliminate noise within special frequency band. Differently from the conventional MFCC, the proposed algorithm imposed bigger weights to some specified frequency regions and unoverlapped filterbank to enhance the recognition ratio without deteriorating voice data. In simulation results, the proposed algorithm shows better performance comparing with MFCC since it is robust to variation of the environment.

베이시안 기법과 선택적 음성특징 추출을 융합한 음성 인식 성능 향상 (Voice Recognition Performance Improvement using the Convergence of Bayesian method and Selective Speech Feature)

  • 황재천
    • 한국융합학회논문지
    • /
    • 제7권6호
    • /
    • pp.7-11
    • /
    • 2016
  • 일반적인 어휘 인식 시스템은 백색 잡음과 음성을 인식하는 환경에서 여러 음성의 혼재되어 정확한 음성을 인식하지 못하고 있다. 따라서 본 논문은 효율적인 음성 인식을 위해 잡음 음성으로 부터 원하는 음성만 선택적으로 추출하기 위한 방법과 베이시안 기법을 융합 방법을 제안한다. 음성의 선택적 추출을 위해 필터 뱅크 주파수 응답 계수를 사용한다. 하며, 이를 위해 모든 가능한 두 관측치의 조합에 대해 변수 관측치를 사용하며, 음성 신호 정보를 가지고 선택적 음성 특징 추출을 위해 잡음은 출력에 대한 에너지 비율을 구한다. 이것은 음성 특징을 추출하는 방법을 제안하며, 이를 베이시안 기법의 어휘 인식을 융합하여 잡음을 제거하고 인식률을 향상시켰다. 본 논문에서 기존의 HMM과 CHMM 방법과 비교한 결과 잡음 환경에서의 인식률이 2.3% 향상됨을 확인하였다.

A Study on Stable Motion Control of Humanoid Robot with 24 Joints Based on Voice Command

  • Lee, Woo-Song;Kim, Min-Seong;Bae, Ho-Young;Jung, Yang-Keun;Jung, Young-Hwa;Shin, Gi-Soo;Park, In-Man;Han, Sung-Hyun
    • 한국산업융합학회 논문집
    • /
    • 제21권1호
    • /
    • pp.17-27
    • /
    • 2018
  • We propose a new approach to control a biped robot motion based on iterative learning of voice command for the implementation of smart factory. The real-time processing of speech signal is very important for high-speed and precise automatic voice recognition technology. Recently, voice recognition is being used for intelligent robot control, artificial life, wireless communication and IoT application. In order to extract valuable information from the speech signal, make decisions on the process, and obtain results, the data needs to be manipulated and analyzed. Basic method used for extracting the features of the voice signal is to find the Mel frequency cepstral coefficients. Mel-frequency cepstral coefficients are the coefficients that collectively represent the short-term power spectrum of a sound, based on a linear cosine transform of a log power spectrum on a nonlinear mel scale of frequency. The reliability of voice command to control of the biped robot's motion is illustrated by computer simulation and experiment for biped walking robot with 24 joint.

Correlation between the Content and Pharmacokinetics of Ginsenosides from Four Different Preparation of Panax Ginseng C.A. Meyer in Rats

  • Jeon, Ji-Hyeon;Lee, Jaehyeok;Lee, Chul Haeng;Choi, Min-Koo;Song, Im-Sook
    • Mass Spectrometry Letters
    • /
    • 제12권1호
    • /
    • pp.16-20
    • /
    • 2021
  • We aimed to compare the content of ginsenosides and the pharmacokinetics after the oral administration of four different ginseng products at a dose of 1 g/kg in rats. The four different ginseng products were fresh ginseng extract, red ginseng extract, white ginseng extract, and saponin enriched white ginseng extract prepared from the radix of Panax ginseng C.A. Meyer. The ginsenoside concentrations in the ginseng product and the rat plasma samples were determined using a liquid chromatography-tandem mass spectrometry (LC-MS/MS). Eight or nine ginsenosides of the 15 tested ginsenosides were detected; however, the content and total ginsenosides varied depending on the preparation method. Moreover, the content of triglycosylated ginsenosides was higher than that of diglycosylated ginsenosides, and deglycosylated ginsenosides were not present in any preparation. After the single oral administrations of four different ginseng products in rats, only four ginsenosides, such as 20(S)-ginsenosides Rb1 (GRb1), GRb2, GRc, and GRd, were detected in the rat plasma samples among the 15 ginsenosides tested. The plasma concentrations of GRb1, GRb2, GRc, and GRd were different depends on the preparation method but pharmacokinetic features of the four ginseng products were similar. In conclusion, a good correlation between the area under the concentration curve and the content of GRb1, GRb2, and GRc, but not GRd, in the ginseng products was identified and it might be the result of their higher content and intestinal biotransformation of the ginseng product.

Implementation of Extracting Specific Information by Sniffing Voice Packet in VoIP

  • Lee, Dong-Geon;Choi, WoongChul
    • International journal of advanced smart convergence
    • /
    • 제9권4호
    • /
    • pp.209-214
    • /
    • 2020
  • VoIP technology has been widely used for exchanging voice or image data through IP networks. VoIP technology, often called Internet Telephony, sends and receives voice data over the RTP protocol during the session. However, there is an exposition risk in the voice data in VoIP using the RTP protocol, where the RTP protocol does not have a specification for encryption of the original data. We implement programs that can extract meaningful information from the user's dialogue. The meaningful information means the information that the program user wants to obtain. In order to do that, our implementation has two parts. One is the client part, which inputs the keyword of the information that the user wants to obtain, and the other is the server part, which sniffs and performs the speech recognition process. We use the Google Speech API from Google Cloud, which uses machine learning in the speech recognition process. Finally, we discuss the usability and the limitations of the implementation with the example.

음성을 이용한 감정 정보 추출 방법 (An acoustic study of feeling information extracting method)

  • 이연수;박용범
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권1호
    • /
    • pp.51-55
    • /
    • 2010
  • 최근 콜센터 등에서는 고객을 음성 미디어를 통하여 서비스하고 있다. 이런 콜 센터에서 제공하는 다양한 서비스의 품질 측정 방법 중 음성 대화 속 화자의 감정에 따른 측정 방법이 있다. 본 연구에서는 화자의 음성을 이용하여 그 사람의 감정을 알아내고자 하였다. 이를 위하여 음성 신호로부터 여러 가지 파라미터를 추출하고 분석함으로써 인간의 감정을 분류하였다. 사람의 감정은 크게 기쁨, 슬픔, 흥분, 보통 등 4가지 상태로 나눌 수 있다. 대부분의 음성 서비스 품질은 흥분 또는 분노의 상태가 중요하다. 본 논문에서는 이와 같은 감정을 Pitch와 Amplitude를 기초로 한 5가지 요소를 통하여 효율적으로 대화자간의 문제가 되는 대화를 선별해 내는 방법을 연구 하였다.

Anatomy of Delay for Voice Service in NGN

  • Lee, Hoon;Baek, Yong-Chang
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 통신소사이어티 추계학술대회논문집
    • /
    • pp.172-175
    • /
    • 2003
  • In this paper we propose a method fur the evaluation of the quality of service for VoIP services in NGN. Specifically, let us anatomize the elements of delay of a voice connection in the network in an end-to-end manner and investigate expected value at each point. We extract the delay time in each element in the network such as gateway, network node, and terminal equipment, and estimate an upper bound fur the tolerable delay in each element.

  • PDF

언어 모델 기반 음성 특징 추출을 활용한 생성 음성 탐지 (Voice Synthesis Detection Using Language Model-Based Speech Feature Extraction)

  • 김승민;박소희;최대선
    • 정보보호학회논문지
    • /
    • 제34권3호
    • /
    • pp.439-449
    • /
    • 2024
  • 최근 음성 생성 기술의 급격한 발전으로, 텍스트만으로도 자연스러운 음성 합성이 가능해졌다. 이러한 발전은 타인의 음성을 생성하여 범죄에 이용하는 보이스피싱과 같은 악용 사례를 증가시키는 결과를 낳고 있다. 음성 생성 여부를 탐지하는 모델은 많이 개발되고 있으며, 일반적으로 음성의 특징을 추출하고 이러한 특징을 기반으로 음성 생성 여부를 탐지한다. 본 논문은 생성 음성으로 인한 악용 사례에 대응하기 위해 새로운 음성 특징 추출 모델을 제안한다. 오디오를 입력으로 받는 딥러닝 기반 오디오 코덱 모델과 사전 학습된 자연어 처리 모델인 BERT를 사용하여 새로운 음성 특징 추출 모델을 제안하였다. 본 논문이 제안한 음성 특징 추출 모델이 음성 탐지에 적합한지 확인하기 위해 추출된 특징을 활용하여 4가지 생성 음성 탐지 모델을 만들어 성능평가를 진행하였다. 성능 비교를 위해 기존 논문에서 제안한 Deepfeature 기반의 음성 탐지 모델 3개와 그 외 모델과 정확도 및 EER을 비교하였다. 제안한 모델은 88.08%로 기존 모델보다 높은 정확도와 11.79%의 낮은 EER을 보였다. 이를 통해 본 논문에서 제안한 음성 특징 추출 방법이 생성 음성과 실제 음성을 판별하는 효과적인 도구로 사용될 수 있음을 확인하였다.