• 제목/요약/키워드: 음질 파라미터

검색결과 70건 처리시간 0.026초

AMR-WB 음성 부호화기를 이용한 TTS 데이터베이스의 효율적인 압축 기법 (Efficient TTS Database Compression Based on AMR-WB Speech Coder)

  • 임종욱;김기출;김경선;이항섭;박혜영;김무영
    • 한국음향학회지
    • /
    • 제28권3호
    • /
    • pp.290-297
    • /
    • 2009
  • 본 논문에서는 효율적으로 Text-To-Speech (TTS) 데이터베이스를 압축하기 위해서 개선된 adaptive multi-rate wideband (AMR-WB) 음성 부호화 알고리즘을 제안하고자 한다. 제안된 알고리즘은 불필요한 common bit-stream (CBS)을 제거하고, 파라미터의 델타 코딩 방식과 특정 화자에 종속적인 Huffman coding을 접목하여 음질 저하 없이 비트율을 낮추고자 하였다. 또한, 최소한의 음질 손실로 최대의 비트율 개선 효과를 볼 수 있는 손실 압축 방식도 제안하였다. 기존의 12.65 kbit/s AMR-WB 코덱에 CBS 제거를 포함한 무손실 압축 방식을 적용한 결과 음질 저하 없이 최대 12.40%의 비트율 개선 효과를 나타냈다. 또한, 손실 압축방식에서는 20.00% 비트율 개선 시 PBSQ로 0.12 정도의 음질 저하가 발생했다.

잡음 환경에서의 음성 명료도 향상 기술 (Improvement of Speech Intelligibility in Noisy Environments)

  • 윤제열;김중회;오은미;박호종
    • 한국음향학회지
    • /
    • 제28권1호
    • /
    • pp.70-76
    • /
    • 2009
  • 주변 잡음이 심한 환경의 음성 통신에서 음성 명료도는 주변 잡음의 마스킹 효과로 인하여 크게 저하된다. 본 논문에서는 잡음 환경에서 음성 명료도를 향상시켜 통화 품질을 높이는 새로운 방법을 제안한다. 청각 이론에 의하면 음성의 시간축포락선은 명료도 결정에 중요한 역할을 한다. 이에 따라 본 논문에서는 대역별 시간축 포락선의 변화를 강화하여 명료도를 향상시키는 방법을 사용하며, 음질을 추가로 향상시키기 위한 피치 강화동작을 포함한다. 또한, 실제 통화상황에서의 정확한 주관적 성능 평가를 위하여 양 귀를 이용하는 새로운 주관적 성능 평가 방법을 제안한다. 제안하는 평가 방식을 통하여 제안하는 명료도 향상 기술의 성능을 평가하였으며, 명료도와 음질이 모두 향상되는 것을 확인하였고, 동작 파라미터 조정을 통하여 명료도와 음질 사이의 상호 관계가 조정되는 것을 확인하였다.

Damping 요소를 첨가한 매칭 퍼슈잇 정현파 모델링 (Matching Pursuit Sinusoidal Modeling with Damping Factor)

  • 정규혁;김종학;임정우;주기호;이인성
    • 대한전자공학회논문지SP
    • /
    • 제44권1호
    • /
    • pp.105-113
    • /
    • 2007
  • 본 논문은 정현파 모델 기반의 코덱을 위한 매칭 퍼슈잇(Matching Pursuit)의 성능을 개선시킨 새로운 정현파 모델링을 제안한다. 제안하는 damping 요소를 첨가한 매칭 퍼슈잇 정현파 모델링은 과거와 현재 프레임에서 파라미터들간의 상관성을 이용하여 damping 요소를 정의하고 현재 프레임에서 보다 정확한 정현파 파라미터를 damping 요소에 따라 매칭 퍼슈잇 방법으로 추출한 후 합성한다. 따라서 인접 프레임과의 보간 없이 현재 프레임에서의 정현파 파라미터만으로 효율적인 모델링이 가능하다. 제안한 모델링 방법은 보간법을 사용한 일반적인 정현파 모델과 달리 추가지연을 가지지 않으면서 유성음 구간 신호뿐만 아니라 모든 구간에서 개선된 음질을 보인다. 제안한 모델링 방법의 성능을 SNR, MOS값, LR(Itakura-Saito likelihood ratio), CD(cepstral distance)를 통해 보간법을 사용한 매칭 퍼슈잇과 비교 평가한다.

CELP Type Vocoder에서 RTP 확장 헤더 데이터를 이용한 연속적인 프레임 손실에 대한 PLC 성능개선 (The Performance Improvement of PLC by Using RTP Extension Header Data for Consecutive Frame Loss Condition in CELP Type Vocoder)

  • 홍성훈;배명진
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.48-55
    • /
    • 2010
  • 패킷네트워크에서 사용하는 음성부호화기는 자체적으로 PLC (Packet Loss Concealment) 알고리즘을 사용하고 있지만 서비스에 적합할 만큼 좋지 않다. 더욱이 연속적인 패킷 손실에 대해서는 많이 취약하다. PLC 알고리즘은 크게 송신단 기반의 알고리즘과 수신단 기반의 알고리즘으로 나뉜다. 송신단 기반의 알고리즘은 추가정보를 전송하기 때문에 음질개선에 큰 성능을 갖는 반면 데이터 전송율이 높아지고 추가 지연이 발생하며 상호간의 호환이 불가능하다. 수신단 기반의 알고리즘은 수신된 데이터에 기반하기 때문에 추가지연이나 정보가 필요 없으나 음질개선에 한계가 있다. 본 논문에서는 RTP 헤더 정보 중 사용하지 않는 확장 헤더 데이터 (Extension Header Data: 32 bit)부분에 PLC를 위한 추가정보를 전송하는 방법을 제안한다. 이렇게 함으로써 송신단 기반의 알고리즘이 갖는 호환성 문제를 해결하고 음질 개선 성능을 향상 시킬 수 있다. 추가적으로 발생하는 지연 (delay)는 이미 수신단에서 네트워크상의 지연을 조정하기 위해 지터 버퍼 (jitter buffer)를 갖고 있기 때문에 제안하는 알고리즘으로 인해 발생하는 추가 지연은 없다. G.729 PLC를 위한 추가 정보는 LP 파라미터 합성용 MA필터 인덱스, 여기신호, 여기신호 이득 및 잔여신호 이득 파라미터로 프레임당 16 bit를 할당한다. 이는 RTP payload 전송 시 음성 데이터를 두 프레임인 20 ms 단위로 전송하기 때문이다. 성능 평가 결과 기존 대비 13.5%의 성능 향상을 보였다.

CELP 음성부호화기 전송률 감소를 위한 음성신호의 V/UV 결정 알고리즘 (The V/UV Decision Algorithm for a Reduction of the Transmission Bit Rate in the CELP Vocoder)

  • 민소연;김현철
    • 한국항행학회논문지
    • /
    • 제11권1호
    • /
    • pp.87-92
    • /
    • 2007
  • 기존의 CELP 계열 보코더에서, 무성음에 대한 별도의 처리 없이 유성음과 동일하게 처리함으로써 합성음에서 음질의 저하 및 계산량과 전송률 측면에서 손실을 가져왔다. 본 논문에서는 에러율과 전처리 계산량을 최소로 할 수 있는 V/UV 분류기를 사용하여 CELP 보코더에서 전송률을 감소시키는 방법을 제안한다. 새로운 V/UV 분류기는 CELP 보코더에서 사용되는 LSP 파라미터의 주파수영역 분포도와 간격정보를 이용하여 V/UV를 결정하게 된다. 제안한 방법을 G.723.1 5.3kbps ACELP에 적용하여 성능 평가를 실시하였다. 실험결과, 음질의 저하 없이 약 6%의 전송률을 감소할 수 있었다.

  • PDF

대역폭 계층 구조의 광대역 음성 부호차기 개발 (Bandwidth Scalable Wideband Speech Codec)

  • 이우석;손창용;이영범;박호종
    • 한국음향학회지
    • /
    • 제23권6호
    • /
    • pp.481-487
    • /
    • 2004
  • 본 논문에서는 대역폭 계층 구조의 광대역 음성 부호화기 구조와 이를 위한 상위 대역 부호화기를 제안한다. 상위 대역 부호화기는 상위 대역 신호를 다수의 주파수 밴드로 분할하고, 각 밴드 신호를 DCT 변환하여 양자화한다. DCT 계수는 크기와 부호로 분리하여 독립적으로 처리하며, 각각의 특성에 적합한 양자화 방법을 개발하여 성능을 향상시킨다. 또한, 하위 대역의 부호화된 이득 파라미터를 상위 대역의 양자화에 이용함으로써 부호화 성능을 향상시키는 방법을 제안한다. G.729E로 하위 대역을 부호화하고 제안한 부호화기로 상위 대역을 처리하는 대역폭 계층 구조의 광대역 음성 부호화기를 개발하였고, 주관적 음질을 측정하여 24kbps G.722.1보다 우수한 음질을 가지는 것을 확인하였다.

VoIP 음질의 주관적 평가에 관한 연구 (A Study of Subjective Speech Quality Measurement in VoIP)

  • 강영도;강진석;최연성;김장형
    • 한국정보통신학회논문지
    • /
    • 제5권2호
    • /
    • pp.279-287
    • /
    • 2001
  • 본 논문은 초고속 인터넷을 이용한 음성전송 방식인 VoIP(Voice over IP) 서비스에서의 음질의 주관적 평가에 관한 연구이다. PSNR이나 지터 갊은 멀티미디어 서비스의 객관적 파라미터는 명료히 정의되어 있고 쉽게 측정되나, 그것이 이용자의 지각적 인지도와는 일치하지 않는다. 본 연구에서는 송화자 내용 발생과정에 있어서 어느 정도 완전히 표현되었는가를 나타내는 송화 품질과 음성이 전송계를 통해 수화자에게 전달되는 과정에서 왜곡이나 잡음 등의 방해요인에 의해 열화 되는 정도를 나타내는 전송 품질, 그리고 수화자가 청각에서 신호처리 과정을 거친 송화자의 내용을 어느 정도 이해할 수 있는지를 나타내는 수화 품질에 대한 주관적 평가법과 그 척도를 제시한다. 또한 제안된 방법으로 실험하여 그 유효성을 검증한다.

  • PDF

심리 음향 기준을 이용한 새로운 음질 개선 방법 (New Speech Enhancement Method using Psychoacoustic Criteria)

  • 김대경;박장식;손경식
    • 한국멀티미디어학회논문지
    • /
    • 제4권1호
    • /
    • pp.56-66
    • /
    • 2001
  • 최근에 심리 음향 기준을 이용한 스펙트럼 차감법이 제안되었다. Virag의 알고리즘에서는 기존의 방법보다 청취자가 더 편안한 음성을 들을 수 있지만 잡음에 강인한 음성활동 검출기가 필요하다. 음성활동 검출기를 필요로 하지 않는 확장 스펙트럼 차감법에서는 신호 대 잡음비가 감소함에 따라 잔여 잡음이 더욱 잘 들리게 된다. 본 논문에서는 심리 음향 기준을 이용한 스펙트럼 차감법에 Wiener 필터를 결합한 새로운 음질 개선 방법을 제안한다. 제안한 방법에서는 Wiener 필터를 사용하여 음성 구간에 서도 잡음의 추정치가 계속 갱신되므로 음성 검출기가 필요 없고 마스킹 임계값에 따라 차감 파라미터를 조정하기 때문에 잔여 잡음이 거의 들리지 않게 된다. 제안된 방법에 대하여 시뮬레이션을 통하여 기존의 스펙트럼 차감법과 성능을 비교한 결과, 제안한 방법을 사용하여 개선된 음성이 기존의 방법에 비하여 청취하기에 더 편한 음질을 제공하였다.

  • PDF

AMR과 EVRC 음성 부호화기간의 비탠덤 방식을 이용한 상호 부호화 (Tandemless Transcoding for AMR and EVRC Speech Coders)

  • 이선일;유창동
    • 한국음향학회지
    • /
    • 제21권6호
    • /
    • pp.531-542
    • /
    • 2002
  • 본 논문에서는 AMR과 EVRC 음성 부호화기간의 비탠덤 (Tandemless) 방식을 이용한 상호 부호화 방법이 제안되었다. 제안된 방법은 기존의 탠덤 (Tandem) 방식의 상호 부호화 방법과 달리 음성 신호를 다시 복호화했다가 부호화하지 않고, CELP 계열의 음성 부호화기들이 공통적으로 사용하는 파라미터들을 직접 변환한다. 상호 부호화는 LSP 변환, 적응 코드북을 위한 피치 지연 값 및 적응 코드북 이득 변환, 고정 코드북 벡터 및 고정 코드북 이득 변환으로 구성되어 있다. 제안된 방법을 객관적, 주관적 방법으로 평가한 결과 기존의 탠덤 방식에 비하여 적은 계산량과 지연 시간으로 탠덤 방식과 최소 동등, 혹은 우월한 음질을 얻을 수 있다는 것을 확인했다.

High-Band 신호에 웨이브렛 변환을 적용한 광대역 GSM-EFR 음성부호화 알고리즘 개발 (Development of Wideband GSM-EFR Speech Coding Algorithm with Application of Wavelet Transform to High-Band Signal)

  • 이승원;배건성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.783-786
    • /
    • 2000
  • 본 논문에서는 웨이브렛 변환을 적용한 광대역 음성부호화 알고리즘을 제안하였다. 제안한 음성부호화 알고리즘은 split-band 구조를 가지며, 16 kHz로 sampling된 입력신호를 QMF를 이용해서 동일한 대역폭을 갖는 두 개의 subband 신호로 나누고 이를 8kHz의 sampling율을 갖도록 downsampling 한다. 그리고 저대역 신호는 GSM-EFR 음성부호화 알고리즘을 이용하여 부호화하고, 고대역 신호는 DWT(Discrete Wavelet Transform)을 적용하여 subband로 나누어 부호화하였다. 각 subband에서 양자화 된 파라미터는 IDWT(Inverse DWT)과정을 거쳐서 upsampling되고 합성 QMF를 통과시켜 최종 합성음을 구하였다. 제안한 음성부호화기는 저대역 신호의 GSM-EFR 부호화에 12.2 kbps, 웨이브렛 변환을 이용한 고대역 신호의 부호화에 7.8 kbps로 전체 20 kbps의 전송율을 가지면서 G.722 표준안의 56 kbps에서의 합성음과 비슷한 음질을 나타내었다.

  • PDF