• Title/Summary/Keyword: 음성추출

Search Result 990, Processing Time 0.034 seconds

Reduction Algorithm of Environmental Noise by Multi-band Filter (멀티밴드필터에 의한 환경잡음억압 알고리즘)

  • Choi, Jae-Seung
    • Journal of the Korea Society of Computer and Information
    • /
    • v.17 no.8
    • /
    • pp.91-97
    • /
    • 2012
  • This paper first proposes the speech recognition algorithm by detection of the speech and noise sections at each frame, then proposes the reduction algorithm of environmental noise by multi-band filter which removes the background noises at each frame according to detection of the speech and noise sections. The proposed algorithm reduces the background noises using filter bank sub-band domain after extracting the features from the speech data. In this experiment, experimental results of the proposed noise reduction algorithm by the multi-band filter demonstrate using the speech and noise data, at each frame. Based on measuring the spectral distortion, experiments confirm that the proposed algorithm is effective for the speech by corrupted the noise.

A study on the Prosody Generation of Korean Sentences using Artificial Neural networks (인공 신경망을 이용한 한국어 문장단위 운율 발생에 관한 연구)

  • 이일구;민경중;강찬구;임운천
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.105-108
    • /
    • 1999
  • TTS(Text-To-Speech) 시스템 합성음성의 자연감을 개선하기 위해 하나의 언어에 대해 존재하는 운율 법칙을 정확히 구현해야 한다. 존재하는 운율 법칙을 추출하기 위해서는 방대한 분량의 언어 자료 구축이 필요하다. 그러나 이 방법은 존재하는 운율 현상이 포함된 언어자료에 대해 완벽한 운율을 파악할 수 없으므로 합성음성의 질을 좋게 할 수 없다. 본 논문은 한국어 음성의 운율을 학습하기 위해 2개의 인공 신경망을 제안한다. 하나의 신경망으로 문장의 각 음소에 대한 피치 변화를 학습시키는 것이며, 다른 하나는 에너지 변화를 학습하도록 하였다. 신경망은 BP 신경망을 이용하며 11개의 음소를 나타내기 위해 11개의 입력과, 중간 음소의 피치와 에너지 변화곡선을 근사하는 다항식 계수를 출력하도록 하였다. 신경망시스템의 학습과 평가에 앞서, 음성학적 균형잡힌 고립단어를 기반으로 의미있는 문장을 구성하였다. 문장을 남자 화자로 하여금 읽게 하고 녹음하여 음성 DB를 구축하였다. 음성 DB에 대해 각 음소의 운율 정보를 수집하여 신경망에 맞는 목표 패턴과 훈련 패턴을 작성하였다. 이 목표 패턴은 회귀분석을 통한 추세선을 이용해 피치와 에너지에 대한 2차 다항식계수로 구성하였다. 본 논문은 목표패턴에 맞는 신경망을 학습시켜 좋은 결과를 얻었다.

  • PDF

A Study on TSIUVC Approximate-Synthesis Method using Least Mean Square and Frequency Division (주파수 분할 및 최소 자승법을 이용한 TSIUVC 근사합성법에 관한 연구)

  • 이시우
    • Journal of Korea Multimedia Society
    • /
    • v.6 no.3
    • /
    • pp.462-468
    • /
    • 2003
  • In a speech coding system using excitation source of voiced and unvoiced, it would be involved a distortion of speech quality in case coexist with a voiced and an unvoiced consonants in a frame. So, I propose TSIUVC(Transition Segment Including Unvoiced Consonant) searching and extraction method in order to uncoexistent with a voiced and unvoiced consonants in a frame. This paper present a new method of TSIUVC approximate-synthesis by using Least Mean Square and frequency band division. As a result, this method obtain a high quality approximation-synthesis waveforms within TSIUVC by using frequency information of 0.547KHz below and 2.813KHz above. The important thing is that the maximum error signal can be made with low distortion approximation-synthesis waveform within TSIUVC. This method has the capability of being applied to a new speech coding of Voiced/Silence/TSIUVC, speech analysis and speech synthesis.

  • PDF

The Design of Speech Recognition Chip for a Small Vocabulary as a Word-level (소어휘 단어단위의 음성인식 칩 설계)

  • 안점영;최영식
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.6 no.2
    • /
    • pp.330-338
    • /
    • 2002
  • A speech recognition chip that can recognize a small vocabulary as a word-level has been designed. It is composed of EPD(Start and End-point detection) block, LPC block, DTW block and external memory interface block. It is made of 126,938 gates on 4x4mm2 area with a CMOS 0.35um TLM process. The speed of the chip varies from 5MHz to 60MHz because of its specific hardware designed for the purpose. It can compare 100,000 voices as a small vocabulary which has approximately 50∼60 frames at the clock of 5MHz and also up to 1,200,000 voices at the clock of 60MHz.

Implementation of Speech Recognition Filtering at Emergency (응급상황에서의 음성인식을 위한 필터기 구현)

  • Cho, Young-Im;Jang, Sung-Soon
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.20 no.2
    • /
    • pp.208-213
    • /
    • 2010
  • Generally, the mal factor for speech recognition is the background noise in speech recognition. The noise is the reason to reduce the speech recognition performance. Owing to the fact, the place to recognize is very important. To improve the recognition performance from the sound having noise, we implemented the noise filtered Wiener filter at the signal process step which adopted the FIR filter. In FIR filter, it deal with the filtered speech signal which is appropriate frequency range of human speech frequency range. Therefore, we make the recognition system distinguish between noise and speech sound from the incoming speech signal.

Vocal Tract Length Normalization for Speech Recognition (음성인식을 위한 성도 길이 정규화)

  • 지상문
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.7 no.7
    • /
    • pp.1380-1386
    • /
    • 2003
  • Speech recognition performance is degraded by the variation in vocal tract length among speakers. In this paper, we have used a vocal tract length normalization method wherein the frequency axis of the short-time spectrum associated with a speaker's speech is scaled to minimize the effects of speaker's vocal tract length on the speech recognition performance In order to normalize vocal tract length, we tried several frequency warping functions such as linear and piece-wise linear function. Variable interval piece-wise linear warping function is proposed to effectively model the variation of frequency axis scale due to the large variation of vocal tract length. Experimental results on TIDIGITS connected digits showed the dramatic reduction of word error rates from 2.15% to 0.53% by the proposed vocal tract normalization.

Deep Learning-Based Speech Emotion Recognition Technology Using Voice Feature Filters (음성 특징 필터를 이용한 딥러닝 기반 음성 감정 인식 기술)

  • Shin Hyun Sam;Jun-Ki Hong
    • The Journal of Bigdata
    • /
    • v.8 no.2
    • /
    • pp.223-231
    • /
    • 2023
  • In this study, we propose a model that extracts and analyzes features from deep learning-based speech signals, generates filters, and utilizes these filters to recognize emotions in speech signals. We evaluate the performance of emotion recognition accuracy using the proposed model. According to the simulation results using the proposed model, the average emotion recognition accuracy of DNN and RNN was very similar, at 84.59% and 84.52%, respectively. However, we observed that the simulation time for DNN was approximately 44.5% shorter than that of RNN, enabling quicker emotion prediction.

Real-time Video Watermarking using LSB coding (LSB 부호화를 이용한 실시간 비디오 워터마킹)

  • 이상준;김강욱;최동환;황찬식
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.719-722
    • /
    • 2001
  • 최근 정지영상, 동영상, 음성 등의 멀티미디어 컨텐트가 디지털화 되고 네트워크가 발달함에 따라 영상을 포함한 멀티미디어 데이터의 접근이 용이해 졌다. 이러한 데이터의 불법적 사용과 인위적인 조작으로부터 소유권과 저작권을 효율적으로 보호하기 위한 워터마킹 기술이 많이 연구되고 있다. 일반적으로 정지 영상 및 음성에 대한 워터마킹 기술은 많이 연구가 되었지만 이러한 방법을 동영상에 그대로 적용하기에는 실시간 처리에 적용하기가 힘들다는 큰 문제점이 있다. 따라서 본 논문에서는 비디오 신호에서의 빠른 처리과정과 실시간으로 워터마크를 삽입하고, 원 영상 없이 워터마크를 추출 할 수 있는 새로운 방법(Blind Watermarking)을 제안하고자 한다. 제안한 방법은 대역확산을 근거로 하여 워터마크 은닉 과정에서 치환(Permutation) 과정과 LSB 부호화 방법을 이용하여 비디오 시퀀스의 모든 I-프레임에 은닉한다. 복원과정은 모든 I-프레임에서 LSB 복호화와 역 치환 과정을 거쳐 본래의 저작권 정보를 추출한다. 제안한 방법을 여러 가지 동영상 비디오에 적용해 본 결과 기존의 워터마킹 방법보다 효율적이고 시각적 손상이 없었으며 빠른 실시간 처리가 가능함을 볼 수 있었다.

  • PDF

Comparison of Feature Extraction Methods for the Telephone Speech Recognition (전화 음성 인식을 위한 특징 추출 방법 비교)

  • 전원석;신원호;김원구;이충용;윤대희
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.7
    • /
    • pp.42-49
    • /
    • 1998
  • 본 논문에서는 전화망 환경에서 음성 인식 성능을 개선하기 위한 특징 벡터 추출 단계에서의 처리 방법들을 연구하였다. 먼저, 고립 단어 인식 시스템에서 채널 왜곡 보상 방 법들을 단어 모델과 문맥 독립 음소 모델에 대하여 인식 실험을 하였다. 켑스트럼 평균 차 감법, RASTA 처리, 켑스트럼-시간 행렬을 실험하였으며, 인식 모델에 따른 각 알고리즘의 성능을 비교하였다. 둘째로, 문맥 독립 음소 모델을 이용한 인식 시스템의 성능 향상을 위하 여 정적 특징 벡터에 대하여 주성분 분석 방법(principal component analysis)과 선형 판별 분석(linear discriminant analysis)과 같은 선형 변환 방법을 적용하여 분별력이 높은 벡터 공간으로 변환함으로써 인식 성능을 향상시켰다. 또한 선형 변환 방법을 켑스트럼 평균 차 감법과 결합하여 더욱 뛰어난 성능을 보여주었다.

  • PDF

AbS/OLA Sinusoidal Modeling of Speech Signal Using Wavelet Transform (웨이블릿 변환을 이용한 음성신호의 AbS/OLA 정현파 모델링)

  • Kim Ki-Hong;Hong Jin-Keun;Jung Yong-Ik;Lee Sang-Yi
    • Proceedings of the KAIS Fall Conference
    • /
    • 2004.11a
    • /
    • pp.114-117
    • /
    • 2004
  • 본 논문에서는 합성에 의한 분석(Analysis-by-Synthesis) 및 가산중첩(Overlap-Add) 방식을 채택하고 있는 음성신호의 AbS/OLA 정현파 모델에 웨이블릿 변환을 적용한 새로운 모델을 제안하였다. 즉, 기존의 모델에 웨이블릿 변환을 적용하여 입력신호를 몇 개의 부대역 신호로 나눈 다음 각각 다른 길이의 분석 윈도우를 적용한다. 이는 기존 모델의 정현파 파라미터 추출 시 고정된 길이의 분석 윈도우를 이용하는 단점을 극복하여 좀 더 정확한 파라미터 추출을 가능하게 한다. 시험결과 제안된 정현파 모델이 기존 모델에 비해 합성음의 스펙트럼 및 위상 특성, 음질 등에서 성능이 개선됨을 확인할 수 있었다.

  • PDF