• 제목/요약/키워드: 음성 코딩

검색결과 127건 처리시간 0.021초

Lexicon transducer를 적용한 conformer 기반 한국어 end-to-end 음성인식 (Conformer with lexicon transducer for Korean end-to-end speech recognition)

  • 손현수;박호성;김규진;조은수;김지환
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.530-536
    • /
    • 2021
  • 최근 들어 딥러닝의 발달로 인해 Hidden Markov Model(HMM)을 사용하지 않고 음성 신화와 단어를 직접 매핑하여 학습하는 end-to-end 음성인식 방법이 각광을 받고 있으며 그 중에서도 conformer가 가장 좋은 성능을 보이고 있다. 하지만 end-to-end 음성인식 방법은 현재 시점에서 어떤 자소 또는 단어가 나타날지에 대한 확률에 대해서만 초점을 두고 있다. 그 이후의 디코딩 과정은 현재 시점에서 가장 높은 확률을 가지는 자소를 출력하거나 빔 탐색을 사용하며 이러한 방식은 모델이 출력하는 확률 분포에 따라 최종 결과에 큰 영향을 받게 된다. 또한 end-to-end 음성인식방식은 전통적인 음성인식 방법과 비교 했을 때 구조적인 문제로 인해 외부 발음열 정보와 언어 모델의 정보를 사용하지 못한다. 따라서 학습 자료에 없는 발음열 변환 규칙에 대한 대응이 쉽지 않다. 따라서 본 논문에서는 발음열 정보를 담고 있는 Lexicon transducer(L transducer)를 이용한 conformer의 디코딩 방법을 제안한다. 한국어 데이터 셋 270 h에 대해 자소 기반 conformer의 빔 탐색 결과와 음소 기반 conformer에 L transducer를 적용한 결과를 비교 평가하였다. 학습자료에 등장하지 않는 단어가 포함된 테스트 셋에 대해 자소 기반 conformer는 3.8 %의 음절 오류율을 보였으며 음소 기반 conformer는 3.4 %의 음절 오류율을 보였다.

음악 및 음성 신호의 융합 압축 기술 (Unified coding scheme of speech and music)

  • 오은미
    • 방송과미디어
    • /
    • 제16권4호
    • /
    • pp.59-71
    • /
    • 2011
  • 오디오와 음성 압축 기술적 근간은 서로 다르지만, 최근의 모바일 멀티미디어 기기 시장의 컨버전스 현상에 따라 압축하고자 하는 신호가 혼용되고 있으며, 비슷한 목표 전송률과 음질로 수렴하고 있다. 현재는 동일 기기에서 서로 다른 압축 기술을 적용하고 있으나, 음성과 음악이 동시에 서비스 되는 멀티미디어 기기에서는 단일 압축 방식으로 처리하고자 하는 이슈가 부각되고 있다. 특히, 스마트 폰 및 음악 콘텐츠 포탈 서비스의 대중화를 고려할 때, 음성 및 음악 신호 모두를 효율적으로 압축하는 음악 및 음성 신호의 융합 압축 기술이 더욱 필요해 보인다. 본 고에서는 MPEG 오디오 그룹에서 가장 최근 진행한 Unified Speech and Audio Coding(USAC)의 탄생 배경 및 표준화 현황을 소개한다. USAC는 64kbps 이하에서 기술적으로 최고 성능을 지닌 AMR-WB+ 및 HE-AAC v2보다도 우월한 음질을 보이며, 높은 비트율에서도 동등한 음질을 보장한다. 이런 우수한 음질에 기여한 USAC의 스위칭 구조와 더불어 기술적으로 향상된 주요 모듈인 파라미터 기반 스테레오 및 고주파 압축, 그리고 엔트로피 코딩 방식에 대해서 살펴 본다. 향후, 다양한 오디오 신호를 효율적으로 압축하는 USAC는 디지털 라디오, 모바일 TV, 그리고 오디오 북과 같은 사용자 시나리오에서 사용될 확률이 높아 보인다. 또한, USAC는 배경 잡음이나 배경 음악이 있는 경우에도 성능이 우수하기 때문에 YouTube 및 podcast 등과 같이 사용자가 콘텐츠를 생성할 때도 유용하게 사용 될 수 있다.

분산 음성 인식 시스템을 위한 특징 계수 양자화 방식 설계 (Design of a Quantization Algorithm of the Speech Feature Parameters for the Distributed Speech Recognition)

  • 이준석;윤병식;강상원
    • 한국음향학회지
    • /
    • 제24권4호
    • /
    • pp.217-223
    • /
    • 2005
  • 본 논문에서는 분산 음성 인식 시스템에서 사용되는 멜켑스트럼 계수를 양자화 하기 위하여 예측 구조를 갖는 BC-TCQ 양자화기를 제안하였다. 분산 음성 인식 시스템을 위한 효율적인 멜켑스트럼 계수 양자화기를 설계하기 위하여, 인접 프레임간의 높은 상관도를 이용한 1차 AR 예측 필터를 적용하였다. 그리고 예측 필터에 의해서 구해지는 예측 에러 벡터는 BC-TCQ를 사용하여 양자화를 수행하였다. 본 연구에서 제안된 예측 BC-TCQ멜켑스트럼 계수 양자화기는 분산 음성 인식 시스템을 위해 ETSI 규격에서 사용되는 split VQ 멜켑스트럼 계수 양자화 방식보다 cepstral distortion (CD) 측면에서 훨씬 좋은 성능을 보이며, 인코딩 연산 복잡도 및 메모리 요구량에서도 더 유리하다.

잡음 데이터를 활용한 음성 기저 행렬과 NMF 기반 음성 향상 기법 (Speech Basis Matrix Using Noise Data and NMF-Based Speech Enhancement Scheme)

  • 권기수;김형용;김남수
    • 한국통신학회논문지
    • /
    • 제40권4호
    • /
    • pp.619-627
    • /
    • 2015
  • 본 논문은 비음수 행렬 인수분해(NMF)를 이용한 음성향상 기법을 다루고 있다. 음성과 잡음에서 적절한 훈련을 통해 각각의 기저(basis) 행렬을 구하고 이 행렬들을 이용하여 두 음원을 분리 하는 것이다. 그 중에서도 음성향상의 성능은 사용하게 되는 기저 행렬에 따라 크게 달라짐을 보인다. 기존의 독립적으로 구한 음성 기저 행렬에 비해서, 잡음 데이터를 복원하는데 부적합한 방향으로 최적화시킨 음성 기저 행렬을 사용하였을 때 더 높은 음성향상 성능을 보임을 실험으로 확인하였다. 이 때 잡음 데이터의 복원 오차 자체를 크게 해주는 방향과 해당 인코딩 행렬(encoding matrix) 원소의 값을 작게 해주는 두 가지 방법을 적용하여 비교하였다. 좀 더 음성 복원에만 특화된 기저 행렬을 구함으로서 음성 기저 행렬이 잡음 데이터 복원에 사용되는 것을 최소화 하였다. 실험 결과에서는 perceptual evaluation speech quality값과 signal to distortion ratio를 지표로 사용하였고, 기존 기법에서 사용하는 기저 행렬 보다 더 높은 성능을 보임을 확인 하였다.

정상 가우시안 소오스와 음성 신호용 변환 격자 코드에 대한 훈련 알고리즘 개발 (A Training Algorithm for the Transform Trellis Code with Applications to Stationary Gaussian Sources and Speech)

  • 김동윤;박용서;황금찬
    • 한국음향학회지
    • /
    • 제11권1호
    • /
    • pp.22-34
    • /
    • 1992
  • 변환 격차 코드는 모든 레이트에서 정상 가우시안 소오스와 자승 오차 왜곡에 대해 최적코드이다. 본 논문은 실제 데이타의 통계적 특성에 잘 맞는 코드를 얻기 위해 점근적으로 최적인 변환 격자 코드를 훈련시켰다. 훈련 알고리즘은 격자 코드북을 탐색하기위한 M알고리즘과 코드북을 새롭게하기 위한 LBG 알고리즘을 사용했다. 훈련된 변환 격자 코드의 성능을 조사하기 위해서 상관 계수가 0.9인 1차 AR 가우시안 소오스와 실제 음성 데이타를 사용하였다. 1차 AR 소오스에서, 훈련에 사용되지 않은 데이타에 대한 SNR은 레이트에 따라 샤논의 정보량 왜곡 함수에 의한 SNR보다 0.6에서 1.4dB 낮았으나, 이것은 같은 계산량을 사용한 다른 코딩 결과들보다 우수 했다. 실제 음성 데이타는 레이트 1.0 bits/sample에서 코딩을 했으며, 보다 좋은 성능을 얻기 위해 윈도우 함수와 이득 적용을 사용했다.

  • PDF

AMR-WB 음성 부호화기를 이용한 TTS 데이터베이스의 효율적인 압축 기법 (Efficient TTS Database Compression Based on AMR-WB Speech Coder)

  • 임종욱;김기출;김경선;이항섭;박혜영;김무영
    • 한국음향학회지
    • /
    • 제28권3호
    • /
    • pp.290-297
    • /
    • 2009
  • 본 논문에서는 효율적으로 Text-To-Speech (TTS) 데이터베이스를 압축하기 위해서 개선된 adaptive multi-rate wideband (AMR-WB) 음성 부호화 알고리즘을 제안하고자 한다. 제안된 알고리즘은 불필요한 common bit-stream (CBS)을 제거하고, 파라미터의 델타 코딩 방식과 특정 화자에 종속적인 Huffman coding을 접목하여 음질 저하 없이 비트율을 낮추고자 하였다. 또한, 최소한의 음질 손실로 최대의 비트율 개선 효과를 볼 수 있는 손실 압축 방식도 제안하였다. 기존의 12.65 kbit/s AMR-WB 코덱에 CBS 제거를 포함한 무손실 압축 방식을 적용한 결과 음질 저하 없이 최대 12.40%의 비트율 개선 효과를 나타냈다. 또한, 손실 압축방식에서는 20.00% 비트율 개선 시 PBSQ로 0.12 정도의 음질 저하가 발생했다.

모바일 학습을 위한 스마트폰의 사운드 레코딩과 플레이어 구현에 관한 연구 (A Study on Implementation of Sound Recording and Player of Smartphone for Mobile Learning)

  • 서정희;박흥복
    • 한국전자통신학회논문지
    • /
    • 제8권6호
    • /
    • pp.847-854
    • /
    • 2013
  • 본 논문은 모바일 학습의 사운드 레코딩과 플레이어를 위한 스마트폰 애플리케이션을 구현한다. 스마트폰은 유비쿼터스로 언제 어디서나 사용 가능하고, 오디오를 지원하고 마이크로폰을 내장하고 있기 때문에 본 논문에서 제안하는 사운드 레코딩과 플레이어 애플리케이션의 개발은 추가적인 인프라가 필요없이 가격이 싸고 쉬운 방법으로 프로그래밍을 개발할 수 있다. 그리고 안드로이드 플랫폼에 내장된 DBMS인 SQLite를 이용하여 내장된 데이터베이스 기술에 기반한 노래의 가사 데이터 처리에 대한 기법을 설명한다. 따라서 스마트폰의 사운드 레코딩과 플레이어 앱을 개발하여 모바일 폰에 음원 파일만 있다면 언제 어디서나 음원에 맞춰 자신의 음성을 녹음할 수 있다. 따라서 본 논문은 학습자가 추가적인 인프라를 구성하지 않고 모바일 학습의 활성화를 기대할 수 있다.

Path Back 방식을 이용한 TCM의 복호 알고리즘에 관한 연구 (A Study on Decoding Algorithm of TCM by Path Back Method)

  • 정지원;장청룡;이인숙;원동호
    • 한국통신학회논문지
    • /
    • 제17권12호
    • /
    • pp.1401-1412
    • /
    • 1992
  • TCM(Trellis Coded Modulation)은 위성통신이나 음성통신과 같이 대역폭이 제한된 채널에서 코딩과 변조가 결합되어 대역폭의 증가없이 코딩 이득을 가져올수 있는 하나의 통신 방식이다. 본 논문에서는 PAM, PSK, QAM 변조를 TCM에 적용하고, Viterbi decoding의 단점을 개선할수 있는 확장된 path back method 복호 알고리즘을 제안하여 TCM의 복호 알고리즘에 적용하였다. 또한, Monte Carlo simulation을 이용하여 각 변조기법에 따른 성능과 복호 효율성에 대하여 분석하였다.

  • PDF

MPEG-4 기반의 멀티미디어 메시징 서비스 시스템 설계 및 구현 (The Design and Implementation of Multimedia Messaging Services System based on MPEG-4)

  • 강기정;홍충선;이대영
    • 한국통신학회논문지
    • /
    • 제26권10A호
    • /
    • pp.1632-1638
    • /
    • 2001
  • 본 논문은 MPEG-4 인코딩/디코딩 기반의 멀티미디어 메시징 서비스 시스템 설계 및 구현에 관한 연구인다. 본 시스템은 멀티미디어 스트리밍 기술을 기반으로 한 영상 통신 시스템의 구현을 목표로 했으며, 이 기술은 IP 환경에서 동영상을 기반으로 1:1 통화와 상대방이 부재시 음성과 영상이 통합된 멀티미디어 메시지 데이터를 수신하여 저장하고 상대방에게 전송하는 비 실시간 멀티미디어 메시징 서비스를 제공하는 구조를 제안한다. 또한, 수신된 영상 메시지는 웹 검색기를 사용하여 웹을 통해 확인할 수 있는 인터페이스 프로토콜을 제안하였다. 제안된 구조 및 프로토콜은 Solaris 2.7 및 oracle 8i 환경 하에서 Visual C++를 이용하여 구현하였다.

  • PDF

융복합 시스템의 8kbps에 있어서 APC-MPC에 관한 연구 (A Study on APC-MPC in 8kbps of Convergence System)

  • 이시우
    • 디지털융복합연구
    • /
    • 제13권7호
    • /
    • pp.177-182
    • /
    • 2015
  • 유성음원과 무성음원을 사용하는 멀티펄스 음성부호화 방식(MPC)에 있어서, 유성음의 파형에서 일그러짐이 발생한다. 이러한 문제를 해결하기 위해, 재생파형의 일그러짐이 감소하도록 피치구간 마다 멀티펄스의 진폭과 위치를 보정하는 APC-MPC를 제안하였다. 또한 융복합 시스템의 8kbps 부호화 조건에서 APC-MPC의 SNRseg를 검토하고 부호화 시스템으로 구현하였다. APC-MPC의 SNRseg를 평가한 결과, APC-MPC의 남자음성에서 14.3dB, 여자음성에서 13.9dB 임을 확인할 수 있었다. 본 방법은 셀룰러폰이나 스마트폰과 같이 Low Bit Rate의 음원을 사용하여 음성신호를 부호화하는 방식에 활용할 수 있을 것으로 기대된다.