• 제목/요약/키워드: Speech signals

검색결과 499건 처리시간 0.044초

EM 알고리즘을 이용할 재귀적인 음소분리 (Recursive Segmentation of Speech Signals using Expectation-Minimization)

  • 강병옥;정홍
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.103-106
    • /
    • 2002
  • 본 논문에서는 입력음성신호로부터 음소간의 경계를 찾는 문제를 풀기위해 재귀적인 방식으로 EM 알고리즘을 적용한다. 즉, 예상되는 두 끝점 사이의 부분을 현재의 프레임 n 이라고 하면, 그 전 프레임 n-1 에서 구해진 끝점이 주는 정보와 그 끝점으로부터 이어지는 음성샘플로부터 현재 프레임의 끝점을 구한다. 또한 현재의 프레임 n 에서 끝점을 추정해 내면, 그 추정한 끝점과 그 점 이후에 이어지는 음성샘플값으로부터 다음 프레임 n+1 의 끝점을 구한다. 이러한 방식을 재귀적인 음소분리 방식이라고 한다. 그리고, 각 프레임에서 끝점을 구하기 위해서는 끝점의 좌표를 추정해야 할 파라메터로 하고, 그 주변의 음성샘플 값을 관찰 값으로 하여 EM(Expectation and Maximization) 알고리즘을 이용한다. 이 EM 알고리즘을 이용한 재귀적인 음소분리 방식을 실제 음성 DB 로부터 음소쌍을 추출하여 테스트 했을 때 약 5 회의 EM 반복 후에 경계간으로 수렴함을 볼 수 있었다.

  • PDF

GMM based Nonlinear Transformation Methods for Voice Conversion

  • Vu, Hoang-Gia;Bae, Jae-Hyun;Oh, Yung-Hwan
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.67-70
    • /
    • 2005
  • Voice conversion (VC) is a technique for modifying the speech signal of a source speaker so that it sounds as if it is spoken by a target speaker. Most previous VC approaches used a linear transformation function based on GMM to convert the source spectral envelope to the target spectral envelope. In this paper, we propose several nonlinear GMM-based transformation functions in an attempt to deal with the over-smoothing effect of linear transformation. In order to obtain high-quality modifications of speech signals our VC system is implemented using the Harmonic plus Noise Model (HNM)analysis/synthesis framework. Experimental results are reported on the English corpus, MOCHA-TlMlT.

  • PDF

Acoustic Model-Based Filter Structure for Synthesizing Speech Signals

  • Lim, Il-Taek;Lee, Byeong-Gi
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 FIFTH WESTERN PACIFIC REGIONAL ACOUSTICS CONFERENCE SEOUL KOREA
    • /
    • pp.1021-1026
    • /
    • 1994
  • This paper proposes a filter structure suitable for speech synthesis applications. We first derive the lossy pole-zero model by employing the wave digital filter(WDF) adaptor formula, and by converting the fixed termination value - 1 into a loss factor $\mu$c$\in$(-1, 1). Then we discuss how to determine the reflection We employ the Durbin's method in estimating the numerator polynomial of the lossy pole-zero transfer function from the given speech sound, and then apply the step-down algorithm on the numerator to extract the reflection coefficients of the closed-termination tract. For determining the reflection coefficients of the other parts we employ a pre-calculated pole-estimator polynomial.

  • PDF

개선된 선형예측 잔여를 이용한 음성의 잔향음 제거 (Speech Dereverberation using Improved Linear Prediction Residual)

  • 박찬섭;김기만;강석엽
    • 한국정보통신학회논문지
    • /
    • 제11권10호
    • /
    • pp.1845-1851
    • /
    • 2007
  • 배경 잡음과 실내 잔향음은 음성 인식 시스템 성능 저하의 주요 이유이다. 많은 알고리즘이 음성의 잔향음 제거를 위해 개발되었다. 이 논문에서는 실내 환경에서 수정된 선형 예측 잔여(Linear Prediction Residual)를 이용하여 음질 개선을 위한 잔향음 제거 방법을 제안한다. 제안된 잔향음 제거 방법은 음성에서 성문 경계의 순간에 발생한 성도(聲道)시스템의 중요한 여기에 기반한다. 본 논문에서 제안한 방법은 3개의 센서로부터 수집한 반향신호로 각 센서에서의 시간지연 정보를 사용한다. 새로운 선형 예측 잔여신호는 선형 예측 잔여의 가중치와 힐버트 변환으로 얻은, 개선된 선형 예측 잔여 조합을 사용한다. 코히런트하게 더해진 힐버트 포락선의 특징은 잡음과 반사로 인한 큰 진폭 피크를 가지는 것이다. 깨끗한 음성의 잔여는 개선된 음성을 얻는 시변전극 필터를 일으키는데 사용된다. 본 논문에서는 반향 환경에서 성능 분석을 위해 제안된 알고리즘의 시뮬레이션을 수행하였다. 제안된 알고리즘은 실내 잔향환경에서 기존의 알고리즘에 비해 반사된 음성의 품질 향상의 결과를 보였다.

은닉 마르코프 모델을 이용한 음성에서의 감정인식 (Emotion recognition in speech using hidden Markov model)

  • 김성일;정현열
    • 융합신호처리학회논문지
    • /
    • 제3권3호
    • /
    • pp.21-26
    • /
    • 2002
  • 본 논문은 분노, 행복, 평정, 슬픔, 놀람 등과 같은 인간의 감정상태를 인식하는 새로운 접근에 대해 설명한다. 이러한 시도는 이산길이를 포함하는 연속 은닉 마르코프 모델(HMM)을 사용함으로써 이루어진다. 이를 위해, 우선 입력음성신호로부터 감정의 특징 파라메타를 정의한다. 본 연구에서는 피치 신호, 에너지, 그리고 각각의 미분계수 등의 운율 파라메타를 사용하고, HMM으로 훈련과정을 거친다. 또한, 화자적응을 위해서 최대 사후확률(MAP) 추정에 기초한 감정 모델이 이용된다. 실험 결과로서, 음성에서의 감정 인식률은 적응 샘플수의 증가에 따라 점차적으로 증가함을 보여준다.

  • PDF

미들웨어 기반의 텔레매틱스용 멀티모달 인터페이스 (A Multimodal Interface for Telematics based on Multimodal middleware)

  • 박성찬;안세열;박성수;구명완
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.41-44
    • /
    • 2007
  • In this paper, we introduce a system in which car navigation scenario is plugged multimodal interface based on multimodal middleware. In map-based system, the combination of speech and pen input/output modalities can offer users better expressive power. To be able to achieve multimodal task in car environments, we have chosen SCXML(State Chart XML), a multimodal authoring language of W3C standard, to control modality components as XHTML, VoiceXML and GPS. In Network Manager, GPS signals from navigation software are converted to EMMA meta language, sent to MultiModal Interaction Runtime Framework(MMI). Not only does MMI handles GPS signals and a user's multimodal I/Os but also it combines them with information of device, user preference and reasoned RDF to give the user intelligent or personalized services. The self-simulation test has shown that middleware accomplish a navigational multimodal task over multiple users in car environments.

  • PDF

변복조 방식을 이용한 3-채널 EGG 시스템의 개발(I) (Development of 3-Ch EGG System Using Modulation and Demodulation Techniques(I))

  • 김종명;송철규;이명호
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1993년도 춘계학술대회
    • /
    • pp.134-135
    • /
    • 1993
  • The purpose of this research is development of EGG system for quantitative assessment of laryngeal function using speech and electroglotto-graphic data. The designed EGG system is 4-electrodes system which excitation current source is supplied from 1st to 4th electrode. The output signal.: from 2nd and 3rd electrodes, which are motivated by frequency of excitation current source, are air-pressure waveforms from vocal folds. After demodulation process, we obtain pitch signals of the modulated waveforms by excitation current source through differentiator which cuts off frequency below 0.1Hz. Software processing methods were used as conventional pitch extraction methods, but the proposed system is designed to analog hardware in order to eliminate interferences from low formant frequency of speech. We will construct the discriminating database between pathological subjects and control groups on each case. Using the proposed 3 channel EGG system and LMS algorithm, it will be detected that the distinctive characteristics of laryngeal function of voiced region and other regions by EGG signals and LPC spectra.

  • PDF

MUSIC 및 반향 성분 제거 기법을 이용한 음성신호의 입사각 추정 (Direction-of-Arrival Estimation of Speech Signals Based on MUSIC and Reverberation Component Reduction)

  • 장형욱;정상배;김영일
    • 한국정보통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1302-1309
    • /
    • 2014
  • 본 논문에서는 다중 신호 분류 기반의 음성신호의 입사각 추정 향상 방법을 제안한다. 기본적으로 제안한 방식은 복소 대역통과 필터를 이용하여 신호 분석을 위한 협대역 신호를 생성한다. 또한, 공간 스펙트럼에서의 반향 성분 제거 및 2차 함수 기반의 응답 근사화를 사용하여 추정 각도의 정확도를 향상시켰다. 실험결과 제안한 방법은 일반화된 상호상관도 방식의 입사각 추정 알고리즘보다 검출 오차 및 검출 성공률 측면에서 더 좋은 성능을 보였다.

IoT를 위한 음성신호 기반의 톤, 템포 특징벡터를 이용한 감정인식 (Emotion Recognition Using Tone and Tempo Based on Voice for IoT)

  • 변성우;이석필
    • 전기학회논문지
    • /
    • 제65권1호
    • /
    • pp.116-121
    • /
    • 2016
  • In Internet of things (IoT) area, researches on recognizing human emotion are increasing recently. Generally, multi-modal features like facial images, bio-signals and voice signals are used for the emotion recognition. Among the multi-modal features, voice signals are the most convenient for acquisition. This paper proposes an emotion recognition method using tone and tempo based on voice. For this, we make voice databases from broadcasting media contents. Emotion recognition tests are carried out by extracted tone and tempo features from the voice databases. The result shows noticeable improvement of accuracy in comparison to conventional methods using only pitch.