• 제목/요약/키워드: Speech Code

검색결과 118건 처리시간 0.023초

효율적인 하모닉-CELP 구조를 갖는 저 전송률 음성 부호화기 (Efficient Harmonic-CELP Based Low Bit Rate Speech Coder)

  • 최용수;김경민;윤대희
    • 한국음향학회지
    • /
    • 제20권5호
    • /
    • pp.35-47
    • /
    • 2001
  • 본 논문에서는 하모닉 부호화기와 CELP(Code Excited Linear Prediction) 부호화기의 장점을 고려한 효율적인 저 전송률 하모닉-CELP 음성 부호화기를 제안한다. 제안된 하모닉-CELP 부호화기에서는 프레임 단위 유/무성음 판별에 따라 무성음 구간에서는 고속 CELP방식으로 부호화하고 유성음 구간에서는 개선된 하모닉 부호화를 수행한다. 제안된 부호화기는 무성음 부호화를 위한 RP-VSELP(Regular Pulse Vector Sum Excited Linear Prediction), 유성음 부호화를 위한 간단한 정수 피치 검색, 정수 단위 피치에서의 고속 하모닉 추정, 가변 차원 하모닉 벡터 양자화, 주파수 해상도를 반영한 인지 가중치, 고속 하모닉 합성, 대역별 유성음 정도에 따른 자연성 제어, 다중 모드 등을 주요한 특징으로 하며, 이러한 특징들로 인해 기존의 HVXC(Harmonic Vector eXeited Coder) 부호화기에 비해서 매우 낮은 복잡도를 갖는다. 주관적인 음질 평가 결과, 제안된 2.4 kbps 하모닉-CELP 부호화기는 낮은 지연과 적은 계산량으로 양호한 음질을 얻을 수 있음을 확인하였다.

  • PDF

정규화 코드북을 이용한 분할 벡터 구조의 ISF 적응적 양자화 기법 (A Method of Adaptive ISF Split Vector Quantization Using Normalized Codebook)

  • 박지강;임종하;홍기봉;이인성
    • 한국음향학회지
    • /
    • 제30권5호
    • /
    • pp.265-272
    • /
    • 2011
  • 본 논문에서는 ISF 계수의 순서화 성질을 이용하여 광대역 음성부화기의 분할구조 벡터양자화기의 단점을 보완함으로써 ISF 계수 양자화의 성능을 개선하는 알고리즘을 제안한다. 음성 부호화기의 ISF 벡터양자화기는 계산량과 메모리 수요량을 줄이기 위하여 벡터분할 구조를 사용한다. 이러한 벡터 분할구조의 양자화기는 분할된 벡터 사이의 상관도를 이용하지 못하였다. 제안하는 알고리즘은 ISF 계수의 순서화 특징을 이용하여 정규화 코드북을 만든다. 그리고 양자화 된 분할 벡터로 정규화 코드북의 분포범위를 적응적으로 변화시킴으로써 양자화 하여야 할 분할 벡터의 코드북을 효율적으로 만들어 준다. 제안된 알고리즘은 분할 벡터사이의 저하된 상관도를 순서화 특징을 통하여 다시 이용하는 방법으로 표준화 코덱인 AMR-WB의 ISF 양자화기에 적용하여 1.5 bit정도의 성능 개선을 얻었다.

Zinc 함수 여기신호를 이용한 분석-합성 구조의 초 저속 음성 부호화기 (A Very Low-Bit-Rate Analysis-by-Synthesis Speech Coder Using Zinc Function Excitation)

  • 서상원;김종학;이창환;정규혁;이인성
    • 한국음향학회지
    • /
    • 제25권6호
    • /
    • pp.282-290
    • /
    • 2006
  • 본 논문에서는 1.2 kbps 의 전송률을 가지는 초 저속 음성 부호화기를 위한 방법과 구조를 제안한다. ZFE-CELP (Zinc Function Excitation-Code Excited Linear Prediction) 음성 부호화기는 선형예측 분석 후, 추출된 잔여 신호가 유성음일 경우 Zinc Function을 이용하여 부호화하고, 무성음일 경우에는 CELP 구조를 이용하여 부호화한다. 또한 Super-frame (40ms) 의 영향으로 발생하는 하모닉의 불연속 문제를 해결하기 위해 오버 샘플링을 이용한 선형 위상 합성 기법을 이용하고 Zinc 함수의 정확한 표준파형을 추출하기 위하여 분석-합성 구조를 제안한다. 제안된 초 저속음성 부호화기의 성능을 2.4 kbps의 MELP (Multi Pulse Linear Prediction) 부호화기 및 1.9kbps의 ZFE-PWI (Zinc Function Excitation-Prototype Waveform Interpolation) 음성 부호화기와 비교하였다 제안된 부호화 방법은 19kbps ZFE-PWI 부호화기와 유사한 성능을 보이는 것을 확인하였다.

주변 잡음 환경에 강한 화자인식 알고리즘 연구 (A study on the robust speaker recognition algorithm in noise surroundings)

  • 정종순
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권6호
    • /
    • pp.47-54
    • /
    • 2005
  • 대부분의 화자인식 시스템은 음성 분석을 통해 화자의 특징을 음향 파라미터 형태로 추출하여 화자의 표준패턴을 만든 후, 입력된 미지의 음성패턴과의 차이를 계산하여 허용 여부를 최종적으로 판단한다. 화자인식에 사용하는 파라미터는 화자의 특징을 충분히 표현함과 더불어 발성 시마다 변동이 작은 것이 바람직하다. 따라서 본 논문에서도 이를 위해서 다음과 같이 제안하였다. 벡터 양자화모델에 비잡음 환경에 강한 스펙트럼 특징과 잡음 환경에 강한 운율정보를 화자인식 시스템에 이용할 것을 제안하였다. 훈련과정에서 코드북 형성시 실제 데이터를 스펙트럼 특징과 운을 특징을 조합하여 원하는 모델 수만큼 만들었다. 인식과정에서는 입력된 테스트패턴을 각 모델간에 거리 측도로 비교하여 가부를 결정하였다. 실험결과 스펙트럼 특징과 운을 특징을 각각 이용할 경우 보다 좋은 인식율을 얻었으며, 특히 잡음 환경에서 안정된 인식율을 확보하므로 상용화의 가능성을 한층 높였다.

  • PDF

EVRC 코덱으로 재생하는 음악의 품질을 개선하기 위한 전처리 기법 (A Preprocessing Approach to Improving the Quality of the Music Produced by the EVRC)

  • 남영한;하태균;전윤호;김재수;박섭형
    • 한국통신학회논문지
    • /
    • 제28권5C호
    • /
    • pp.476-485
    • /
    • 2003
  • 이 논문에서는 CDMA(Code Division Multiple Access) 음성 압축 표준의 하나인 EVRC(enhanced variable rate codec) 코덱으로 재생되는 음악의 품질을 개선하기 위한 전처리 알고리듬을 제안한다. EVRC는 음성을 압축하는 목적으로 최적화되었기 때문에, 음악을 압축하여 전송하면 품질을 심하게 저하시키기도 한다. EVRC로 음악을 압축할 때 발생하는 품질 저하 현상들 중에서 가장 심한 것의 하나가 끊김 현상인데, 끊김 현상은 프레임들이 연속적으로 Rate 1/8로 전송될 때 발생한다. EVRC는 장기 예측 이득의 크기를 바탕으로 입력 프레임들의 전송률을 결정하므로, 장기 예측 이득을 증가시켜 대부분의 프레임이 Rate 1 혹은 Rate 1/2로 압축될 수 있도록 하였다. 실험 결과를 보면 이러한 전처리 방법은 음악 신호에 대해 잘 적용되며 끊김 현상이 발생하는 프레임의 개수가 상당히 줄어들었음을 확인할 수 있다.

Signal Enhancement of a Variable Rate Vocoder with a Hybrid domain SNR Estimator

  • Park, Hyung Woo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권2호
    • /
    • pp.962-977
    • /
    • 2019
  • The human voice is a convenient method of information transfer between different objects such as between men, men and machine, between machines. The development of information and communication technology, the voice has been able to transfer farther than before. The way to communicate, it is to convert the voice to another form, transmit it, and then reconvert it back to sound. In such a communication process, a vocoder is a method of converting and re-converting a voice and sound. The CELP (Code-Excited Linear Prediction) type vocoder, one of the voice codecs, is adapted as a standard codec since it provides high quality sound even though its transmission speed is relatively low. The EVRC (Enhanced Variable Rate CODEC) and QCELP (Qualcomm Code-Excited Linear Prediction), variable bit rate vocoders, are used for mobile phones in 3G environment. For the real-time implementation of a vocoder, the reduction of sound quality is a typical problem. To improve the sound quality, that is important to know the size and shape of noise. In the existing sound quality improvement method, the voice activated is detected or used, or statistical methods are used by the large mount of data. However, there is a disadvantage in that no noise can be detected, when there is a continuous signal or when a change in noise is large.This paper focused on finding a better way to decrease the reduction of sound quality in lower bit transmission environments. Based on simulation results, this study proposed a preprocessor application that estimates the SNR (Signal to Noise Ratio) using the spectral SNR estimation method. The SNR estimation method adopted the IMBE (Improved Multi-Band Excitation) instead of using the SNR, which is a continuous speech signal. Finally, this application improves the quality of the vocoder by enhancing sound quality adaptively.

CELP 보코더에서 전처리에 의한 피치검색 시간의 단축 (On A Reduction of Pitch Searching Time by Preprocessing in the CELP Vocoder)

  • 김대식;배명진;김종재;변경진;한기천;유하영
    • 한국음향학회지
    • /
    • 제13권3호
    • /
    • pp.33-40
    • /
    • 1994
  • 부호여기된 선형예측(CELP) 음성부호화기는 4.8 kbps 이하의 낮은 전송 비율에서도 좋은 성능을 갖는다. CELP형 부호기의 단점은 많은 계산량을 필요로 한다는 것이다. 본 논문에서, 우리는 복잡성을 줄이면서 CELP 보코더의 음질을 유지하는 새로운 피치 검색법을 제안하였다. 이것은 음성 파형의 자기상관계를 간단한 전처리관계식에 의해 사전에 파악하여 필요한 구간에 대해서만 피치검색을 수행하는 방법이다. 제안한 방법은 피치검색에서 기존의 방법에 비해 약 $77\%$의 복잡성이 감소되었다.

  • PDF

CELP보코더에서 Line Spectrum Frequency를 이용한 고속 피치검색 (A New Fast Pitch Search Algorithm using Line Spectrum Frequency in the CELP Vocoder)

  • 배명진;손상목;유하영;변경진
    • 한국음향학회지
    • /
    • 제15권2호
    • /
    • pp.90-94
    • /
    • 1996
  • 부호여기된 선형예측(CELP) 음성부호화기는 4.8kbps이하의 낮은 전송 비율에서도 좋은 성능을 갖는다. CELP형 부호기의 단점은 많은 계산량을 필요로 한다는 것이다. 본 논문에서, 우리는 복잡성을 줄이면서 CELP보코더의 음질을 유지하는 새로운 피치검색법을 제안하였다. 이 방법은 CELP보코더의 포만트 필터단에서 찾은 제 1 포만트를 이용하여 예비피치를 찾고, 피치검색을 예비피치 구간에서만 수행하는 것이다. 제안한 방법을 CELP보코더에 적용하므로써, 기존의 방법에 비해 약 64%의 복잡성이 감소되었다.

  • PDF

E-MIND II를 이용한 고립 단어 인식 시스템의 설계 (Isolated Word Recognition with the E-MIND II Neurocomputer)

  • 김준우;정홍;김명원
    • 전자공학회논문지B
    • /
    • 제32B권11호
    • /
    • pp.1527-1535
    • /
    • 1995
  • This paper introduces an isolated word recognition system realized on a neurocomputer called E-MIND II, which is a 2-D torus wavefront array processor consisting of 256 DNP IIs. The DNP II is an all digital VLSI unit processor for the EMIND II featuring the emulation capability of more than thousands of neurons, the 40 MHz clock speed, and the on-chip learning. Built by these PEs in 2-D toroidal mesh architecture, the E- MIND II can be accelerated over 2 Gcps computation speed. In this light, the advantages of the E-MIND II in its capability of computing speed, scalability, computer interface, and learning are especially suitable for real time application such as speech recognition. We show how to map a TDNN structure on this array and how to code the learning and recognition algorithms for a user independent isolated word recognition. Through hardware simulation, we show that recognition rate of this system is about 97% for 30 command words for a robot control.

  • PDF

성분분리에 의한 CELP 보코더의 피치 검색시간 단축에 관한 연구 (On a Reduction of Pitch Searching Time by Separating the Speech Components in the CELP Vocoder)

  • 현진일;변경진;한기천;김종재;유하영;김재석;김대식;배명진
    • The Journal of the Acoustical Society of Korea
    • /
    • 제14권1E호
    • /
    • pp.22-29
    • /
    • 1995
  • 부호여기된 선형예측(CELP) 음성부호화기는 4.8 kbps 이하의 낮은 전송 비율에서도 좋은 성능을 갖는다. CELP형 부호기의 단점은 많은 계산량을 필요로 한다는 것이다. 본 논문에서, 우리는 복잡성을 줄이면서 CELP 보코더의 음질을 유지하는 새로운 피치 검색법을 제안하였다. 그 기본 개념을 피치를 검색하고자하는 신호에 대해 음소 성분 분리를 통해 예비피치주기를 사전에 파악하고 이를 예비피치에 대해서만 본격적인 피치 검색을 수행하는 것이다. 제안한 방법을 CELP 보코더에 적용하므로써, 피침검색에서 기존의 방법에 대해 약 90%의 복잡성이 감소되었다.

  • PDF