• Title/Summary/Keyword: 음성압축

Search Result 218, Processing Time 0.027 seconds

Complexity Reduction of G.729 Vocoder (G.729 음성 압축기의 계산량 감소)

  • Choi Younchang;Park Hochong
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.15-18
    • /
    • 2000
  • ACELP는 우수한 음질을 제공하지만 최적의 코드 벡터를 찾기 위한 계산량이 상당히 많은 단점이 있고, 이로 인하여 모든 시스템과 단말기에서는 고성능 DSP칩을 사용하여 동작시킨다. 본 논문에서는 고속 ACELP 코드북 검색 방법인 펄스 교환 검색 방법을 G.729 음성 압축기에 적용시켜 G.729 음성 압축기의 계산량을 감소시키는 방법을 연구하였다. 적용된 방법은 두 단계 과정을 가지며, 첫 단계에서는 완전 순차적 검색 방법을 통하여 매우 빠르게 대략적인 코드 벡터를 찾는다. 두 번째 단계에서는 앞에서 선택된 코드 벡터의 각 펄스의 중요도를 계산하여 역할이 적은 펄스를 제거하고 새로운 펄스로 교환하는 펄스 교환 과정을 통하여 코드 벡터의 성능을 향상시킨다. 적용된 방법은 표준에서 사용하는 코드북 검색 방법보다 적은 계산량을 가진다. 적용된 방법의 성능은 표준보다 0.3-0.5dB 정도의 SNRseg 감소를 보이지만 Fast Algorithm인 G.729A보다는 우수한 음질의 코드 벡터를 찾으며, 다양한 음성신호를 이용한 모의 실험을 통하여 이 결과를 확인하였다.

  • PDF

Blind Classification of Speech Compression Methods using Structural Analysis of Bitstreams (비트스트림의 구조 분석을 이용한 음성 부호화 방식 추정 기법)

  • Yoo, Hoon;Park, Cheol-Sun;Park, Young-Mi;Kim, Jong-Ho
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.16 no.1
    • /
    • pp.59-64
    • /
    • 2012
  • This paper addresses a blind estimation and classification algorithm of the speech compression methods by using analysis on the structure of compressed bitstreams. Various speech compression methods including vocoders are developed in order to transmit or store the speech signals at very low bitrates. As a key feature, the vocoders contain the block structure inevitably. In classification of each compression method, we use the Measure of Inter-Block Correlation (MIBC) to check whether the bitstream includes the block structure or not, and to estimate the block length. Moreover, for the compression methods with the same block length, the proposed algorithm estimates the corresponding compression method correctly by using that each compression method has different correlation characteristics in each bit location. Experimental results indicate that the proposed algorithm classifies the speech compression methods robustly for various types and lengths of speech signals in noisy environment.

A study on implementing real time audio stream generation/restruction/sending system (실시간 오디오 스트림 생성/복원/전송 시스템 구현에 관한 연구)

  • 이경남;박인규
    • Proceedings of the IEEK Conference
    • /
    • 1998.10a
    • /
    • pp.1199-1202
    • /
    • 1998
  • 4채널 입력으로부터 입력되는 오디오를 압축,복원,저장, 전송하는 ㅅ스템을 설계한다. 이러한 시스템은 보안 시스템 중에서 특정 센서로부터 alarm 신호를 디지털 데이터로 변환한 후, 압축시켜 저장하고 동시에 압축된 오디오 데이터를 비디오 데이터와 통합하여 하나의 스트림으로 만들어 통신망으로 보내주는 시스템에 적용된다. 이러한 시스템의 구조를 간단히 설명하면 아날로그 음성 신호를 디지털 음성 data로 변환하기 위해 OKI사의 MSM 7570L-91이라는 ADPCM codec을 사용하였고 ADPCMcodec을 거쳐 나온 ADPCM 데이터를 64Mbyte SDRAM에 저장하였다가 FIFO를 거쳐서 통신망으로 전송을 한다. 복원은 SDRAM에 저장된 ADPCM 데이터를 MSM 7570L-01을 거쳐 아날로그 신호로 변환한 후 엠프를 거쳐 스피커로 출력을 하게 된다.

  • PDF

Analysis of the H.261 compression rate change for flow-controlling the Internet video conferencing (인터넷 영상회의의 흐름제어를 위한 H.261의 압축율 분석)

  • 고동환;고민수;안종석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.456-458
    • /
    • 1998
  • 최근 인터넷 상에서의 효율적인 영상/음성 시스템을 개발하려는 연구가 활발히 진행되고 있다. 이러한 연구중의 중요한 분야로는 인터넷의 대역폭을 효율적으로 사용하려는 즉 가변적인 인터넷의 사용가능한 대역폭을 예측하고, 예측된 대역폭에 알맞게 영상과 음성 정보를 압축하는 연구일 것이다. 본 논문에서는 사용 가능한 대역폭 예측에 알맞게 영상정보의 압축률을 조절하는 기법을 소개한다. 본 논문에서는 영상 압축 알고리즘의 하나인 H.261에서 압축률에 관련된 변수 값과 다양한 영상에서의 압축율 변화의 상관관계를 측정하였다. 또한 본 논문에서는 측정된 상관 관계를 수식화되고, 이 수식을 어떻게 전송량 조절 (flow control)알고리즘에 사용할 것인가를 제안한다.

  • PDF

Improvement of AMR Data Compression Using the Context Tree Weighting Method (Context Tree Weighting을 이용한 AMR 음성 데이터 압축 성능 개선)

  • Lee, Eun-su;Oh, Eun-ju;Yoo, Hoon
    • Journal of Internet Computing and Services
    • /
    • v.21 no.4
    • /
    • pp.35-41
    • /
    • 2020
  • This paper proposes an algorithm to improve the compression performance of the adaptive multi-rate (AMR) speech coding using the context tree weighting (CTW) method. AMR is the voice encoding standard adopted by IMT-2000, and supports 8 transmission rates from 4.75 kbit/s to 12.2 kbit/s to cope with changes in the channel condition. CTW as a kind of the arithmetic coding, uses a variable-order Markov model. Considering that CTW operates bit by bit, we propose an algorithm that re-orders AMR data and compresses them with CTW. To verify the validity of the proposed algorithm, an experiment is conducted to compare the proposed algorithm with existing compression methods including ZIP in terms of compression ratio. Experimental results indicate that the average additional compression rate in AMR data is about 3.21% with ZIP and about 9.10% with the proposed algorithm. Thus our algorithm improves the compression performance of AMR data by about 5.89%.

DSP를 이용한 음성 및 오디오 시스템 설계

  • 김성수;조성호
    • 전기의세계
    • /
    • v.46 no.5
    • /
    • pp.39-44
    • /
    • 1997
  • 현재 DSP는 음성 및 오디오 신호처리 시스템, 디지털 통신 시스템, 제어 시스템, 영상처리 시스템 등 많은 영역에 걸쳐 성공적으로 사용되고 있다. 몇가지 대표적인 활용분야를 살펴보면, 음성신호 압축 분야 [1-4], MPEG (moving picture expert group)과 같은 오디오신호 압축분야[5,6], 그리고 디지털 통신 시스템에서의 적응 반향제거기, 적응 동화기, 채널간섭 제거, 변복조기, 채널 코딩, 암호화기[7-14] 등에서도 DSP가 사용되고 있다. 그리고 수중 음향 신호처리[15], 디지털 필터 디자인, 전력 스펙트럼 추정, 수중 음향 신호처리 같은 디지털 신호처리 분야[16-23]와 적응 신호처리[24-26], 이외에도 능동 소음 제어기 및 적응 제어기와 같은 제어 시스템 [27]에도 유용하게 이용되고 있다. 또한 영상 압축, 디지털 방송, 의료기기 등과 같은 영상처리 분야[28-32] 및 그 밖의 많은 분야에서 DSP의 활용은 점점 커져가고 있는 추세이다.

  • PDF

New Codebook Structure For A High-Quality CELP Speech Coder (고성능 CELP 음성 압축기를 위한 새로운 코드북 구조)

  • 박호종;권순영
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.2
    • /
    • pp.43-49
    • /
    • 1998
  • 본 논문에서는 고성능 CELP 음성 압축기를 위한 "Boaseline 코드벡터"와 "Implied 코드벡터"로 구성되는 새로운 구조의 코드북을 제안한다. Implied 코드벡터는 피치 주기 이 전의 합성음으로부터 구하여지며 여기(勵起)신호의 피치 구조를 강화하여 합성음의 음질을 향상시킨다. Implied 코드벡터는 전달되지 않고 인코더 및 디코더에서 각각 합성음을 이용 하여 독립적으로 구하여진다. 또한 펄스와 랜덤 성분을 모두 가지는 복합 여기방식을 이용 하여 음질을 더욱 향상시킨다. 제안된 코드북 구조를 이용하여 10msec프레임을 가지는 8kbps CELP 음성 압축기를 설계하여 하나의 DSP칩에 실시간 구현 하였고, 이것의 성능을 SNRseg와 MOS로 측정하였다. 평균 SNRseg는 12.14dB로 CS-ACELP의 SNRseg보다 6dB 높고, 조용한 환경에서의 MOS는 3.80으로 G.729 CS-ACELP의 MOS보다 0.02 높다.

  • PDF

Coding Method of Variable Threshold Dual Rate ADPCM Speech Considering the Background Noise (배경 잡음환경에서 가변 임계값에 의한 Dual Rate ADPCM 음성 부호화 기법)

  • 한경호
    • Journal of the Korean Institute of Illuminating and Electrical Installation Engineers
    • /
    • v.17 no.6
    • /
    • pp.154-159
    • /
    • 2003
  • In this paper, we proposed variable threshold dual rate ADPCM coding method which adapts two coding rates of the standard ADPCM of ITU G.726 for speech quality improvement at a comparably low coding rates. The ZCR(Zero Crossing Rate) is computed for speecd data and under the noisy environment, noise data dominant region showed higher ZCR and speech data dominant region showed lower ZCR. The speech data with the higher ZCR is encoded by low coding rate for reduced coded data and the speech data with the lower ZCR is encoded by high coding rate for speech quality improvements. For coded data, 2 bits are assigned for low coding rate of 16[Kbps] and 5 bits are is assigned for high coding rate of 40[Kbps]. Through the simulation, the proposed idea is evaluated and shown that the variable dual rate ADPCM coding technique shows the qood speech quality at low coding rate.

Speech Compression by Non-uniform Sampling at the maxima and minima (극대 및 극소점에서의 비균일 표본화에 의한 음성압축)

  • Rheem, Jae-Yeol;Baek, Sung-Joon;Ann, Sou-Guil;Kim, Bum-Hoon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.11 no.4
    • /
    • pp.36-44
    • /
    • 1992
  • To reduce the redundancy within samples that resulted from uniform sampling method, nonuniform sampling or nonredundant-sample coding methods can be considered. But it is well-known that when conventional nonuniform sampling methods are applied directly to speech signal, the amount of data required is comparable to or more than that required by uniform sampling method like PCM. To overcome this problem, we consider properties of speech signal in the sense of perception, and suggest a nonuniform sampling method at the maxima and minima of speech wave. To analyze the performance of the suggested method, compression ratio is considered. We show that compression ratio can be improved by silence detection, which can't be implemented by conventional methods based on uniform sampling. As experimental results, compression ratios of 1.54 without silence detection and 2.88 with silence detection for 8kHz 8-bit PCM signals are obtained.

  • PDF

The implementation of database for high quality Embedded Text-to-speech system (고품질 내장형 음성합성 시스템을 위한 음성합성 DB구현)

  • Kwon, Oh-Il
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.42 no.4 s.304
    • /
    • pp.103-110
    • /
    • 2005
  • Speech Database is one of the most important part of Text-to-speech(TTS) system Especially, the embedded TTS system needs more small size of database than that of the server TTS system So, the compression and statistical reduction or database is a very important factor in the embedded TTS system But this compression and statistical reduction of database always rise a loss of quality of the synthesised speech. In this paper, we propose a method of constructing database for high quality embedded TTS system and verify the quality of synthesised speech with MOS(Mean Opinion Score) test.