• Title/Summary/Keyword: speech codec

Search Result 128, Processing Time 0.066 seconds

Implementation of MPEG4-CELP Vocoder for Speech Codec of Internet Video Phone (인터넷 화상 전화용 음성 코텍을 위한 MPEG4-CELP 부호화기의 구현)

  • 김병수;김동형;강경옥;홍진우;정재호
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.119-122
    • /
    • 2000
  • 인터넷이 일상생활에 다양하게 활용되면서 인터넷 채널을 통한 정보의 형태는 문자와 이미지 외에 음성, 오디오 신호 및 동영상 부분까지 확대되고 있다. 본 논문에서는 MPEG4-CELP를 인터넷 화상 통신의 음성 코덱용으로 사용하기 위한 최적화 기법 및 알고리듬의 개선을, DSP칩이 내장된 보드가 아닌 인터넷의 터미널로 사용되고 있는 펜티엄 프로세서를 장착한 PC에 초점을 맞추어 수행하였다. MPEG4-CELP VM C소스를 분석 및 프로파일(Profile)한 결과를 토대로 패라미터 추출을 위해 많은 연산을 수행하는 부호화기에 대해서 CPU상에 부하를 많이 주는 함수들을 제 1차 최적화 대상 함수들로 선정하고, CPU에 부하를 많이 주지는 않으나 호출되는 회수가 많은 함수를 2차 최적화 대상 함수로 선정해, C소스 레벨의 소프트웨어 파이프 라이닝(Software Pipelinging) 기법들을 적용하여 최적화를 수행하였다. 또한 1차 최적화 대상 함수의 경우에는 소프트웨어 파이프라이닝의 적용과 함께 연산량 감소를 위한 알고리듬 변형까지 수행하였다. 위의 과정을 거쳐 최적화 된 MPEG4-CELP는 펜티엄Ⅲ 450㎒ PC에서 음성을 부호화 하는데 원 VM소스에 비해 약 2배정도의 시간이 단축되는 것을 확인하였다.

  • PDF

A Study on the Gain Table Optimazation for Real-Time Speech Codec (실시간 음성 부호화기 구현을 위한 이득테이블 조정에 관한 연구)

  • 김남시;이성권;강준길;김순협
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.7
    • /
    • pp.12-21
    • /
    • 1998
  • 본 논문은 음성 부호화기인 MPMLQ(Multi Pulse Maximum Likehood Quantization)를 고정 소숫점 범용 DSP에 실시간으로 구현할 때 발생되는 계산량을 줄이기 위한 변형된 형태의 MPMLQdp 관한 것이다. MPMLQ는 음성 신호에서 선형 예측 계수와 피치 정보를 추출하고 남은 잔여 신호와 가장 유사한 여기 신호를 표현할 때 상관법을 이용 한다. 상관법은 DSP상에 구현할 때 계수 승산 오버플로우를 발생시킬 수 있으므로 연산후 항상 점검하여야 한다. 이것은 MPMLQ 구현시 전체 계산량의 많은 부분을 차지한다. 본 논 문은 이러한 문제점에 착안하여 계수 승산 오버플로우가 발생하지 않도록 입력 음성신호의 크기를 2비트 만큼 줄이고, 이로 인하여 같은 크기로 줄어든 잔여 신호를 고려하여 MPMLQ에서 여기신호의 크기를 표현하는 고정 코드북 이득표를 적절히 조절하였다. 실험 결과 변형된 MPMLQ의 SSNR은 0.040325dB(실험data기준) 향상되었으며, 계산량에 있어서 도 17.7%의 처리속도 향상되었다. 따라서 고정 소숫점 범용 DSP에 실시간 구현이 가능하였다.

  • PDF

Quantization on Wideband Speech Codec for Next Generation Packet Phone (차세대 패킷 전화용 광대역 음성 부호화기의 양자화에 대한 연구)

  • Kim Youngvo;Jeong Byounghak;Park Hochong
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.81-84
    • /
    • 2004
  • 패킷망을 통한 음성 통신이 발달됨에 따라 패킷 스위칭 채널 환경에서 계층적 구조를 가지는 광대역 음성 부호화기의 개발에 대한 요구가 늘어나고 있다. 본 논문에서는 이러한 차세대 패킷 전화용 광대역 음성 부호화기의 상위 대역에 대해서 효율적인 양자화 방법을 제안한다. 먼저 전체 프레임을 다수의 짧은 부프레임으로 구분하고, 각각의 부프레임에 MLT(Modulated Lapped Transform)변환을 적용하여 주파수 영역으로 변환하여 2차원 구조의 데이터 행렬을 생성한다. 이러한 2차원 구조의 데이터를 크기와 부호로 분리하고, 크기는 2차원 DCT를 사용하여 시간과 주파수 영역에서의 신호 압축을 동시에 얻을 수 있게 하였다. 이와 같은 새로운 구조를 활용하여 기존의 방법보다 Energy Compaction 효과를 높이고 양자화 성능을 향상시킬 수 있었다. 또한 Core Layer의 부호화된 파라미터를 상위 대역의 양자화에 이용함으로써 그 성능을 향상시킬 수 있는 방법을 제안한다.

  • PDF

A Study on the Low Noise Delta Codec System (저잡음 델타변조방식에 관한 연구)

  • 심수보
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.9 no.3
    • /
    • pp.120-126
    • /
    • 1984
  • In this paper, there is presented the novel encoder circuit design method in the realization of exponential adaption process on the delta modulation coding of speech signals. The digital implementation has been adapted for the illustration of above, especially using a rate multiplier end a double integration circuit. The use of a double integration of the local decoder included in the ADM encoder in prove the undesirable characteristics which the low switching speed of the ratemultiplier couses the SQNR to decreuse, and the SQNR of the decoding signal by above realization is relatively uniformed in wide range of signal levels. The validity of the above design is verified by laboratory experiments.

  • PDF

Trends of Speech-Based Audio Convergence Codec Technology (음성기반 오디오 융합코덱 기술동향)

  • Kim, D.Y.;Sung, J.M.;Lee, M.S.;Bae, H.J.;Lee, B.S.
    • Electronics and Telecommunications Trends
    • /
    • v.24 no.5
    • /
    • pp.10-19
    • /
    • 2009
  • 본 논문에서는 통신과 방송서비스가 하나의 기기 또는 단말장치 안에서 결합되고 단말 내부에서는 디바이스의 통합에 따라 코덱의 개수를 최소화하기 위한 음성기반 오디오 융합코덱의 기술동향에 대해 기술한다. 하지만 기술적으로 완전히 태생이 다른 음성과 오디오 코덱을 진정한 의미에서 융합할 수 있는 기술적 모델과 기법은 아직 개발되지 않고 있다. 본 고에서는 이러한 시도의 일환으로 ITU-T SGl6을 중심으로 진행되고 있는 음성기반 코덱을 점진적 대역폭 확장 기술을 사용하여 광대역 음성, 슈퍼와이드 밴드 및 향후 오디오 대역까지 커버할 수 있는 임베디드 가변비트율 코덱기술을 중심으로 기술동향의 분석을 시도한다.

A Novel Transcoding Algorithm for G.729A and SMV Speech Codec via Direct Parameter Conversion (G.729A와 SMV 음성부호화기를 위한 파라미터 직접 변환 방식의 상호부호화 알고리즘)

  • 장달원;서성호;이선일;유창동
    • Proceedings of the IEEK Conference
    • /
    • 2003.07e
    • /
    • pp.2236-2239
    • /
    • 2003
  • 본 논문에서는 G.729A 와 SMV 음성 부호화기를 위한 새로운 파라미터 직접 변환 방식의 상호 부호화 알고리즘을 제안한다. 상호 부호화를 위하여 부가적인 복호화, 부호화 과정을 거쳐야하는 기존의 tandem 방식과 달리 제안된 파라미터 직접 변환 방식에서는 양 음성부호화기에서 공통적으로 사용하는 파라미터들이 직접 변환된다. SMV에서 G.729A로의 상호 부호화에서는 LSP 변환, 피치 지연 변환, 낮은 전송률에서의 상호 부호화 둥의 알고리즘을 제안하고, G.729A에서 SMV로의 상호 부호화에서는 LSP 변환, 피치 지연 변환, 전송률 결정 등의 알고리즘을 제안한다. 제안된 알고리즘을 다양한 방법으로 평가해본 결과 기존의 tandem 방식과 비교하여 계산량과 지연 시간을 줄이면서도 동등한 음질 또는 향상된 음질을 구현함을 확인할 수 있었다.

  • PDF

Efficient Codebook Search Method for AMR Speech Codec (AMR 음성 압축기를 위한 효율적인 코드북 검색 방법)

  • Lee Doyoon;Park Hochong
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.93-96
    • /
    • 2001
  • ACELP 구조의 음성 압축기는 우수한 음질을 제공하지만 최적의 코드 벡터를 구하기 위한 계산량이 상당히 많은 단점이 있다. 이를 해결하기 위해서 본 논문에서는 AMR 음성 압축기의 코드북을 매우 효율적으로 검색하는 새로운 방법을 제안한다. 제안하는 코드북 검색 방법은 완전 순차적인 검색 방법을 사용하여 대략적인 코드 벡터를 구하고, 코드 벡터의 각 펄스들의 중요도를 계산하여 중요도가 낮은 펄스를 새로운 펄스로 교환하는 펄스 교환 과정을 수행하여 코드 벡터의 성능을 향상시키는 방법을 사용한다. 또한, AMR 음성 압축기의 구조에 맞도록 트랙별로 이동하면서 순차적으로 코드북을 검색하여 다수의 대략적인 코드벡터를 찾은 후, 각 코드 벡터에 대하여 펄스 교환 과정을 수행하여 최적의 코드 벡터를 구한다. 제안한 코드북 검색 방법을 AMR 음성 압축기의 모든 모드에 적용하여 코드북 검색을 위한 계산량과 성능을 측정하였으며, 모든 모드에 대하여 매우 적은 계산량으로 동등한 성능을 가지는 것을 확인하였다

  • PDF

DESIGN OF DESIRABLE LOUDNESS RATINGS FOR ISDN TELEPHONE

  • Hong, Jin-Woo;Kang, Kyeong-Ok;Kang, Seong-Hoon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06a
    • /
    • pp.1070-1075
    • /
    • 1994
  • This paper describes the method for designing loudness ratings as transmission quality for ISDN telephone connected to fully digital network. To design the desirable loudness ratings for ISDN telephone, the model system of digital speech communication for subjective test is developed and opinion tests for establishing the optimal CODEC input level, the range of overall loudness rating, and sidetone masking rating are performed. As the results, the desirable ranges of loudness ratings are proposed as 6 to 8dB for sending, 0 to 2dB for receiving, and 10 to 14dB for sidetone masking rating.

  • PDF

Real-time DSP implementation of IMT-2000 speech coding algorithm (IMT-2000 음성 부호화 알고리즘의 실시간 DSP 구현)

  • Seo, Jeong Uk;Gwon, Hong Seok;Park, Man Ho;Bae, Geon Seong
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.38 no.3
    • /
    • pp.68-68
    • /
    • 2001
  • 본 논문에서는 3GPP와 ETSI에서 IMT-2000의 음성부호화 방식 표준안으로 채택한 AMR 음성부호화 알고리즘을 분석하고 C 컴파일러와 어셈블리 언어를 이용한 최적화 과정을 거친 후, 고정 소수점 DSP 칩인 TMS320C6201을 이용하여 실시간 구현하였다. 구현된 codec의 프로그램 메모리는 약 31.06 kWords, 데이터 RAM 메모리는 약 9.75 kWords, 그리고 데이터 ROM 메모리는 약 19.89 kWords 정도를 가지며, 한 프레임(20 ms)을 처리하는데 약 4.38 ms가 소요되어 TMS320C6201 DSP 칩의 전체 가용한 clock의 21.94%만 사용하여도 충분히 실시간으로 동작 가능함을 확인하였다. 또한, DSP 보드상에서 구현한 결과가 ETSI에서 공개한 ANSI C 소스 프로그램의 수행 결과와 일치함을 검증하였고, 구현된 AMR 음성부호화기를 sound I/O 모듈과 결합하여 실험한 결과, 어떠한 음질의 왜곡이나 지연 없이 실시간으로 충분히 동작함을 확인하였다. 마지막으로, Host I/O와 LAN 케이블을 이용하여 AMR 음성부호화 알고리즘을 통한 쌍방간 실시간 통신을 full-duplex 모드로 확인하였다.

A Study on the Improvements of the Speech Quality by using Distribution Characteristics of LSP parameters in the EVRC(Enhanced Variable Rate Codec) (LSP 파라미터의 분포특성을 이용한 EVRC의 음질개선에 관한 연구)

  • Min, So-Yeon;Na, Deok-Su
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.12 no.12
    • /
    • pp.5843-5848
    • /
    • 2011
  • To improve the efficiency of the channel spectrum and to reduce the power consumption of the system in EVRC, the voice signal is compressed and transmitted only when the user speaks to. In addition to this, voice frames are divided into three rates 1, 1/2 and 1/8 and each frame is handled differently. For example, we assumed that the input is silence region if the 1/8 rate is used. In this paper, the sections are firstly separated into the voiced speech signal region, unvoiced speech signal region, and silence region by using distribution characteristics of LSP parameters. Then the paper suggested to encode 1 rate for the voiced speech signal, 1/2 rate for the unvoiced speech signal region, 1/8 rate for the silence region. In other words, traditional way of transmission is used when sending full rate in the EVRC. However, when sending half rate, the voice is firstly distinguished between voiced and unvoiced. If the voice is distinguished as voiced, voice is converted into full rate before the transmission. If it is distinguished as silence, EVRC's basic rate is applied. In the experimental results with SNR, ASDM, transmission bit rate measurement, we have demonstrated that voice quality was improved by using the proposed algorithm.