• 제목/요약/키워드: Time-scale modification

검색결과 68건 처리시간 0.023초

유/무성음 결정에 다른 가변적인 시간축 변환 (Variable Time-Scale Modification with Voiced/Unvoiced Decision)

  • 손단영;김원구;윤대희;차일환
    • 전자공학회논문지B
    • /
    • 제32B권5호
    • /
    • pp.788-797
    • /
    • 1995
  • In this paper, a variable time-scale modification using SOLA(Synchronized OverLap and Add) is proposed, which takes into consideration the different time-scaled characteristics of voiced and unvoiced speech, Generally, voiced speech is subject to higher variations in length during time-scale modification than unvoiced speech, but the conventional method performs time-scale modification at a uniform rate for all speech. For this purpose, voiced and unvoiced speech duration at various talking speeds were statistically analyzed. The sentences were then spoken at rates of 0.7, 1.3, 1.5 and 1.8 times normal speed. A clipping autocorrelation function was applied to each analysis frame to determine voiced and unvoiced speech to obtain respective variation rates. The results were used to perform variable time-scale modification to produce sentences at rates of 0.7, 1.3, 1.5, 1.8 times normal speed. To evaluate performance, a MOS test was conducted to compare the proposed voiced/unvoiced variable time-scale modification and the uniform SOLA method. Results indicate that the proposed method produces sentence quality superior to that of the conventional method.

  • PDF

LPC 켑스트럼 거리 기반의 천이구간 정보를 이용한 음성의 가변적인 시간축 변환 (Variable Time-Scale Modification of Speech Using Transient Information based on LPC Cepstral Distance)

  • 이성주;김희동;김형순
    • 음성과학
    • /
    • 제3권
    • /
    • pp.167-176
    • /
    • 1998
  • Conventional time-scale modification methods have the problem that as the modification rate gets higher the time-scale modified speech signal becomes less intelligible, because they ignore the effect of articulation rate on speech characteristics. Results of research on speech perception show that the timing information of transient portions of a speech signal plays an important role in discriminating among different speech sounds. Inspired by this fact, we propose a novel scheme for modifying the time-scale of speech. In the proposed scheme, the timing information of the transient portions of speech is preserved, while the steady portions of speech are compressed or expanded somewhat excessively for maintaining overall time-scale change. In order to identify the transient and steady portions of a speech signal, we employ a simple method using LPC cepstral distance between neighboring frames. The result of the subjective preference test indicates that the proposed method produces performance superior to that of the conventional SOLA method, especially for very fast playback case.

  • PDF

유/무성음 결정에 따른 가변적인 시간축 변환 (Variable Time-Scale Modification with Voiced/Unvoiced Decision)

  • 손단영
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.111-115
    • /
    • 1994
  • In this paper, a variable time-scale modification using SOLA is proposed, which takes into consideration the different time-scaled characteristics of voiced and unvoiced speech. The conventional method performs time-scale modifiction at a uniform rate for all speech. For this purpose, voiced and unvoiced speech duration at various taling speeds were statistically analyzed. A clipping autocorrelation functio was applied to each analysis frame to detemine voiced and unvoiced speech to obtain respective variation rates. The results were used to perform variable time-scale modification to evaluate performance, a MOS test was conducted to compare the proposed voiced/unvoiced variable time-scale modification and the uniform SOLA method. Results indicate that the proposed method produces sentence quality superior to that of the conventional method.

  • PDF

천이구간 정보를 이용한 음성의 가변적인 시간축 변환 (Variable Time-Scale Modification of Speech Using Trasient Information)

  • 이성주;김희동;김형순
    • 전자공학회논문지S
    • /
    • 제35S권6호
    • /
    • pp.147-155
    • /
    • 1998
  • 기존의 시간축 변환 방법은 음성 특징에 따른 발음 속도의 영향을 고려하지 않기 때문에 변환비율이 커짐에 따라 합성음의 명료도가 떨어지는 문제점이 있다. 본 논문에서는 이러한 문제점을 해결하기 위하여 음성 인지과정에서 천이 구간의 시간축 정보가 중요한 역할을 한다는 사실에 기반을 둔 가변적인 시간축 변환 방법을 제안한다. 이를 위하여 제안된 방법에서는 먼저 음성신호를 천이 구간과 정적인 구간으로 구분하고, 천이 구간의 시간축 정보는 그대로 유지하면서 정적인 구간만을 시간축 변환함으로써 목표하는 변환 비율을 얻는다. 청취자 선호도 시험 결과, 제안된 방법이 기존의 대표적인 시간축 변환 방법인 SOLA 방법에 비해 그 성능이 우수함을 확인하였다.

  • PDF

G.729 음성 복호화기와 듀얼 SOLA 알고리즘을 통합한 최적의 음성 속도 변환 시스템 (Optimized Time Scale Modification (TSM) System Integrating G,729 Speech Decoder and Dual SOLA Algorithm)

  • 박규식;오승록;김선영
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.293-303
    • /
    • 2002
  • 본 논문에서는 ITU G.729 음성 복호화기와 듀얼 SOLA (Synchronized Overlap-Add)알고리듬을 통합한 최적의 음성 속도 변환시스템 (TSM)을 구현한다. 제안된 시스템은 ITU G.729 음성 복호화기를 통한 8 Khz 80 샘플/프레임 단위의 음성 신호를 입력으로 가정하여 듀얼 SOLA를 통해 사용자가 원하는 음성 속도에 맞추어 출력, 음성을 천천히 혹은 빠르게 최적화된 음성 품질로의 재생을 가능하게 한다. 특히 본 논문에서 제안된 듀얼 SOLA는 다양한 SOLA 파라미터에 대한 모의실험과 이론적 분석에 의거하여 ITU G.729 복호화기 음성 신호에 대한 최적화된 음성 재생 변환 기능을 제공하며, 입력 음성신호의 부가적인 인터폴레이션 (interpolation) 과정을 첨가하여 최대 2배 빠르기 혹은 2배 느리기의 극한 속도율에서도 우수한 성능의 통합 음성 속도 변환 시스템을 구현할 수 있다. 제안된 시스템은 다양한 입력 음성신호와 재생 속도에 대한 모의실험을 걸쳐 그 성능을 검증한다.

Time Scale Modification 을 이용한 인터넷 패킷 손실의 보상 (Concealment of Internet Packet Loss Using Time Scale Modification)

  • 오윤학;허호영;김희동;전준현;김형순
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.45-48
    • /
    • 1999
  • 인터넷에서 전송 지연에 의해 발생한 패킷 손실은 인터넷이라는 공유망을 사용함으로써 불가피하게 발생하게 된다. 이러한 패킷 손실은 음성과 같이 실시간 처리가 필요한 미디어를 전송할 경우 매우 심각한 문제를 야기시킨다. 본 논문에서는 인터넷을 통한 음성통신에서 전송 지연으로 인해 발생한 패킷 손실을 time scale modification(TSM)기번을 이동하여 복원하는 방법들을 검토하였다. 청취평가 결과, 송수신단 양쪽에서 TSM을 적용할 경우 기존의 가장 우수한 접근방식인 재생성(regeneration) 방식과 거의 대등한 음질을 얻을 수 있다.

  • PDF

Fast Time-Scale Modification of Speech Using Nonlinear Clipping Methods

  • 정호영;김형순;이성주
    • 대한음성학회지:말소리
    • /
    • 제59호
    • /
    • pp.69-87
    • /
    • 2006
  • Among the conventional time-scale modification (TSM) methods, the synchronized overlap and add (SOLA) method is widely used due to its good performance relative to computational complexity But the SOLA method remains complex due to its synchronization procedure using the normalized cross-correlation function. In this paper, we introduce a computationally efficient SOLA method utilizing 3 level center clipping method, as well as zero-crossing and level-crossing information. The result of subjective preference test indicates that the proposed method can reduce the computational complexity by over 80% compared with the conventional SOLA method without serious degradation of synthesized speech quality.

  • PDF

음성 신호 시간축 변환의 실시간 구현에 관한 연구 (A Study on Real-time Implementing of Time-Scale Modification)

  • 한동철;이기승;차일환;윤대희
    • 한국음향학회지
    • /
    • 제14권2호
    • /
    • pp.50-61
    • /
    • 1995
  • 본 논문에서는 음성 신호가 가지고 있는 중요한 특성을 유지하면서 발음 속도만을 변화시키는 시간축 변환 방법을 범용 디지탈 신호 처리 프로세서를 이용하여 실시간으로 구현하였다. 음성 신호 시간축 변환은 음성 신호의 발음 속도만을 변화시키기 때문에, 입력 신호와 변환 신호간의 시간적 차이가 발생하여 실시간 처리가 불가능하다. 본 논문에서는 이러한 입력, 변환 신호간의 시간차를 해결하기 위해서, 카세트 테이프 레코더의 모터 회전 속도를 조절하는 것과 같은 물리적 시간축 변환으로, 입력 음성 신호를 느리게 또는 빠르게 변환시켜 그 신호를 실시간 시스템의 입력으로 사용하였다. 카세트 레코더의 주행 속도만을 조절하는 물리적 변환은 원 신호의 피치 정보를 왜곡시켜, 원 음성의 특성을 변화시키기 때문에, 본 연구에서는 FIR 필터를 이용한 피치 보정 기법으로 왜곡된 신호를 원신호로 복원한 후, SOLA 시간축 변환 방법을 이용하여, 복원된 신호를 카세트 레코더의 모터 속도에 맞추어 시간축으로 변환하는 시스템을 실시간으로 구현하였다. 구현된 알고리듬으로 음성 신호를 시간축으로 변환하는 실험에서, 16비트 해상도를 가진 ADSP2101 프로세서로 구현한 결과와 컴퓨터 시뮬레이션 결과를 비교할 때 평균 구간 신호 대 오차비가 대략 20dB로 두 결과가 거의 유사함을 알 수 있었다.

  • PDF

정현파 모델링을 이용한 폴리포닉 오디오 신호의 시간축 변화 (Time-Scale Modification of Polyphonic Audio Signals Using Sinusoidal Modeling)

  • 장호근;박주성
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.77-85
    • /
    • 2001
  • 본 논문에서는 폴리포닉 음과 같은 복잡한 스펙트럼을 갖는 오디오 신호를 정현파 성분으로 모델링하고, 이를 바탕으로 고음질의 시간축 변화된 음을 얻는 방법을 제안한다. 입력 신호는 옥타브 밴드 구조의 다중 해상도 필터 뱅크를 통과하고 여기에서 나온 각 서브밴드 신호로부터 정현파 성분이 축출된다. 서브밴드 신호의 정현파 분석시 정현파 성분을 추출하는 구간의 크기를 국지적인 신호의 특성에 따라 다르게 해 주는 동적 세그멘테이션 방법을 적용한다. 이렇게 함으로써 기존 정현파 모델링에서 신호의 천이 구간에서 발생하는 퍼짐 현상을 개선하고, 시간축 변화 시에도 원래 음에 가까운 음질을 얻을 수 있다. 정현파 분석을 위한 스펙트럼 분석 도구로는 심리 음향 모델을 적용한 matching pursuit을 사용함으로써 정현파 성분의 갯수를 줄이고, matching pursuit의 반복 과정에 대한 합리적인 정지 조건을 제공할 수 있다. 정현파 성분으로 표현하기 어려운 신호의 잡음 성분은 원래 신호에서 정현파 성분으로 합성된 신호를 뺀 것으로 얻을 수 있으며, 스펙트럼 포락선 근사화 방법으로써 모델링된다. 본 논문의 알고리즘을 적용해 다양한 폴리포닉 음에 대해 실험한 결과 제안한 정현파 모델링 방법이 원래 신호의 음질을 잘 복원할 수 있고, 시간축 변화율이 큰 경우에도 신호의 천이 구간을 잘 표현할 수 있음을 확인하였다.

  • PDF

WSOLA 기반의 음성 시간축 변환을 위한 고속의 정규상호상관도 계산 (A Fast Normalized Cross-Correlation Computation for WSOLA-based Speech Time-Scale Modification)

  • 임상준;김형순
    • 한국음향학회지
    • /
    • 제31권7호
    • /
    • pp.427-434
    • /
    • 2012
  • WSOLA 방식은 음성 신호의 시간축 변환을 위한 고음질의 효율적인 알고리즘으로 알려져 있다. WSOLA의 계산량은 두 신호 파형 사이의 유사도를 평가하는 반복적인 정규상호상관도 계산에 집중되어 있다. 본 논문은 WSOLA 계산량 감축을 위해 고속의 정규상호상관도 계산 방법을 제안하며, 제안된 방법에서는 미리 계산된 합 테이블을 통해 인접한 구간에서의 반복적인 정규상호상관도 계산의 중복성을 제거한다. 정규상호상관도의 분모 부분은 시간축 변환 비율에 관계없이 높은 중복성을 가지는데 반해, 분자 부분은 보다 낮은 중복성을 가지며 중복 정도가 시간축 변환 비율과 최적 이동값에 의해 영향을 받기 때문에 고속 계산을 위해 보다 복잡한 알고리즘이 요구된다. 시뮬레이션 결과, 제안된 방법이 기존의 WSOLA와 완전히 동일한 음질을 유지하면서도 시간축 압축의 경우 약 40%, 그리고 1/2배속 및 1/3배속으로의 시간축 신장의 경우 각각 약 47% 및 52%의 실행시간을 감소시킴을 보인다.