• 제목/요약/키워드: 음성 코딩

검색결과 126건 처리시간 0.02초

TMS320C5509 DSP를 이용한 AMR-WB 음성부호화기의 실시간 구현 (Real-time Implementation or AMR-WB Speech Coder Using TMS320C5509 DSP)

  • 최송인;지덕구
    • 한국음향학회지
    • /
    • 제24권1호
    • /
    • pp.52-57
    • /
    • 2005
  • AMR-WB 음성부호화기는 50~7000 Hz의 확장된 대역폭을 갖는 음성신호를 압축/복원하는 광대역 음성부호화기로써 6.60 kbit/s에서 23.85 kbit/s까지 9개의 전송 비트율을 가지고 있다. 본 논문에서는 2개의 MAC (Multimply and-Accumulate) 유닛을 가진 Tl의 16bit 고정소수점 DSP인 TMS320C5509 DSP를 이용한 AMR-WB 음성부호화기의 실시간 구현에 관하여 논한다. 실시간 구현은 intrinsic을 이용한 C수준의 구현 및 어셈블리 코딩에 의한 구현을 수행하여 그 결과를 비교하였다. 어셈블리 코딩에 의하여 실시간 구현된 AMR-WB 음성부호화기는 23.85 kbit/s 모드에서 42.9 Mclock의 계산량을 가지며, 사용된 프로그램 메모리는 15.1 kword이고, 데이터 ROM 메모리는 9.2 kword이고 데이터 RAM 메모리는 13.9 kword이다.

스마트폰 음성 녹음 파일 위변조 검출을 위한 스펙트로그램 분석의 한계점 (Limitations of Spectrogram Analysis for Smartphone Voice Recording File Forgery Detection)

  • 한상민;손영민;박재완
    • 문화기술의 융합
    • /
    • 제9권2호
    • /
    • pp.545-551
    • /
    • 2023
  • 오늘날 누구나 디지털 정보를 용이하게 활용할 수 있게 됨에 따라 디지털 증거의 채택이 증가되고 있다. 하지만 다양한 음성 파일 편집 도구를 보급과 함께 정교한 편집 과정을 거친 음성 녹음 파일의 경우 위변조 진위 여부를 판단하는 것은 사실상 불가능하다. 본 연구는 음성 녹음 파일에 삽입, 삭제, 연결 및 합성 편집 기술을 활용해 원본 파일과 구별하기 어려운 위변조가 가능함을 증명하고자 한다. 본 연구는 위변조 된 음성 파일을 원본과 동일한 확장자로 인코딩하는 작업을 통해 위변조 검출의 어려움을 제시한다. 또한 특징점이 발생한 실험에 한 하여 추가적으로 천이대역의 삭제 및 2차 인코딩 작업을 수행할 경우 위변조 검출은 불가능함을 나타냈다. 이를 통해 본 연구는 음성 녹음 파일을 디지털 증거로 채택하기 위한 더 엄격한 증거능력 판단 기준 수립에 공헌할 것으로 기대된다.

MLLR 화자적응 기법을 이용한 새로운 화자확인 디코딩 알고리듬 (A Noble Decoding Algorithm Using MLLR Adaptation for Speaker Verification)

  • 김강열;김지운;정재호
    • 한국음향학회지
    • /
    • 제21권2호
    • /
    • pp.190-198
    • /
    • 2002
  • 화자확인에서 사용되는 디코딩 방법에는 음성인식에서 주로 사용되는 비터비 알고리듬을 사용하여 왔다. 그러나 화자확인에서는 화자의 특성을 최대한 발휘하여 같은 음소라도 화자마다 다르게 인식해야 하는 어려움이 있다. 본 논문에서는 기존 화자확인 디코딩에서 사용하는 비터비 알고리듬을 대신하는 새로운 알고리듬을 제안하였다. 제안된 알고리듬은 음성인식에서 사용되고 있는화자 적응 알고리듬을 화자의 특성에 따라 모델 파라미터로 변환하는 것을 응용한 방법이다. 본 논문에서는 여러 적응 알고리듬중 MLLR(Maximum Likelihood Linear Regression)과 MAP (Maximum A-Posterior) 적응 알고리듬을 사용하였고 제안된 알고리듬이 기존의 비터비 알고리듬을 사용하였을 때보다 평균 30%의 EER (Equal Error Rate) 향상을 이루었다.

자기상관함수에서 위상 성분의 보존에 의한 피치 시점 검출에 관한 연구 (On a Pitch Point Detection by Preserving the Phase Component of the Autocorrelation Function)

  • 함명규;최성영;박종철;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.799-802
    • /
    • 2000
  • 음성신호처리 분야에서 음성신호의 기본 주파수를 정확히 검출 할 수 있다면 음성인식을 할 때 화자에 따른 영향을 줄일 수 있으므로 인식의 정확도를 높일 수 있고, 음성합성을 할 때 자연성과 개성을 쉽게 변경하거나 유지할 수 있다. 또한 분석을 할 때 피치에 동기시켜 분석하면 성문의 영향이 제거된 정확한 성도 파라미터를 얻을 수 있다. 위와 같은 피치검출의 중요성 때문에 피치검출에 대하여 다양한 방법 이 제안되었다〔1〕. 본 논문에서는 음성신호의 분석 시 불안정한 구간에 대해 피치 시점을 검출하는 방법을 연구하였다. 음성신호의 분석에 있어서 기존의 자기상관함수법(Autocorrelation Function)은 주기성을 강조할 수 있다는 장점을 가지고 있다. 그러나 자기상관함수는 위상성분을 보존하지 못한다는 단점을 가지고 있다. 따라서, 자기상관함수를 사용하면서 위상성분을 보존할 수 있는 알고리즘을 제안하고자 한다. 실험결과 피치시점을 수동으로 찾은 경우와 비교하였을 때 약 98% 정도의 정확도를 얻을 수 있었다. 위의 결과와 같이 위상 성분이 보존된 자기상관함수를 사용할 경우 음성합성, 코딩, 인식에서 유용하게 쓰일 수 있다.

  • PDF

SpecAugment와 Kaldi기반 한국어 음성인식 비교 연구 (Comparative study of Korean speech recognition based on SpecAugment and Kaldi)

  • 이승훈;박찬준;서재형;김경민;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.152-157
    • /
    • 2021
  • Kaldi는 음성인식 오픈소스 플랫폼이며 많은 기업에서 이를 이용하여 비즈니스 및 연구를 진행하고 있다. 그러나 국문으로 된 Kaldi에 대한 자세한 모듈 설명과 활용법은 아직 미비한 실정이다. 본 논문은 음성인식 오픈소스인 Kaldi에 대한 각 모듈별 자세한 설명과 더불어 데이터 증강 기법인 SpecAugment를 한국어 음성인식 시스템에 적용하여 성능 향상 여부를 검증하였다. 그리고 Kaldi의 음향모델과 언어모델을 변경하면서 어떠한 모듈들로 구성된 한국어 음성인식 모델을 사용하는 것이 가장 결과가 좋은 지를 검증하고 실시간 디코딩에 있어서 실용적인지를 비교하였다.

  • PDF

대규모 무선 센서네트워크에서 네트워크 코딩 기반의 음성 트래픽을 위한 딜레이 감소 방안 (Network Coding-based Delay Reduction for Voice Traffic in Large-scale Wireless Sensor Networks)

  • 김경환;조인휘
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 추계학술발표논문집 1부
    • /
    • pp.438-442
    • /
    • 2010
  • 무선 센서 네트워크 기술이 발전됨에 따라 소규모 무선 센서 네트워크에서 대규모 무선 센서 네트워크로 변하고 있으며, 이로 인하여 대규모 무선 센서 네트워크를 효율적으로 관리하기 위하여 여러 연구가 진행되고 있다. 본 논문에서는 대규모 무선 센서 네트워크를 효율적으로 관리하는 클러스터 기법을 사용한다. 또한 음성 정보를 전송하기 위해 네트워크 코딩 기법을 사용하여 수집된 자료를 목표지점까지 전달하는데 걸리는 딜레이 시간을 줄이는 방법을 제안한다.

  • PDF

트리코딩과 시영역 하모닉 스케일링을 결합한 음성 부호화 (Tree Coding Combined with TDHS for Speech Coding)

  • 이인성;구본응
    • 한국음향학회지
    • /
    • 제17권2호
    • /
    • pp.50-55
    • /
    • 1998
  • 트리코딩과 시영역 하모닉 스케일링을 결합하여 6.4 및 4.8 kbits/s급 음성부호화기 를 제안하였다. 부호화기는 완전 후방 적응적이고 또 하모닉 스케일링 때문에 저지연은 아 니다. 부호화기의 에러 성능을 향상시키기 위하여 트리코더에 새로운 적응 피치 예측기, 적 응 이득 함수, 단구간 적응 예측 알고리듬 등을 제안하였다. 새로운 코드 트리와 적응 이득 함수, 새로운 후방 적응 피치 예측기, 잡음에 강인한 단구간 적응 예측 알고리듬 등을 이상 적인 채널과 잡음의 영향을 받는 채널에 대하여 각각 그 성능을 평가하였다. 두 문장씩 쌍 으로 비교한 청취실험 결과, 6.4kbits/s coder (2-to-1 TDHS/2 bits/sample tree coding)의 음질은 6400samples/s로 표본화된 6-bit logPCM의 음질과 대등하였다.

  • PDF

모바일 VoIP 음성통신을 위한 대화음질 측정 시스템 (Conversational Quality Measurement System for Mobile VoIP Speech Communication)

  • 조재만;김형국
    • 한국ITS학회 논문지
    • /
    • 제10권4호
    • /
    • pp.71-77
    • /
    • 2011
  • 본 논문에서는 고품질 모바일 VoIP 음성통신에 대한 객관적인 QoS를 제공하는 대화음질 측정시스템을 구현하였다. 대화음질 측정을 위해서 VoIP로 연결된 두 대의 스마트폰에 에코 및 잡음 제거, 음성 인코딩 및 디코딩, RTP (Real-TimeProtocol)을 적용한 패킷 생성, 지터버퍼 콘트롤, LC (Loss Concealment)를 포함한 POS (Play-out Schedule)로 구성된 VoIP음성 통화시스템을 구현하였다. 대화음질 측정 시스템은 VoIP로 연결된 두 스마트폰의 마이크, 그리고 스피커와 연결되어 각 화자별로 음성신호를 녹음한 후에, 녹음된 음성신호를 이용하여 CE (Conversational Efficiency), CS (Conversational Symmetry) 및 PESQ (Perceptual Evaluation of Speech Quality)를 측정하고, CE-CS-PESQ에 대한 상관관계를 측정한다. 본 논문에서는 다양한 SNR, IP 네트워크망 변동에 따른 지연, 손실 변화에 따른 CE, CS, PESQ를 측정하여 대화음질 측정시스템을 검증하였다.

다국어 음성인식을 위한 언어별 출력 계층 구조 Wav2Vec2.0 (Language Specific CTC Projection Layers on Wav2Vec2.0 for Multilingual ASR)

  • 이원준;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.414-418
    • /
    • 2021
  • 다국어 음성인식은 단일언어 음성인식에 비해 높은 난이도를 보인다. 하나의 단일 모델로 다국어 음성인식을 수행하기 위해선 다양한 언어가 공유하는 음성적 특성을 모델이 학습할 수 있도록 하여 음성인식 성능을 향상시킬 수 있다. 본 연구는 딥러닝 음성인식 모델인 Wav2Vec2.0 구조를 변경하여 한국어와 영어 음성을 하나의 모델로 학습하는 방법을 제시한다. CTC(Connectionist Temporal Classification) 손실함수를 이용하는 Wav2Vec2.0 모델의 구조에서 각 언어마다 별도의 CTC 출력 계층을 두고 각 언어별 사전(Lexicon)을 적용하여 음성 입력을 다른 언어로 혼동되는 경우를 원천적으로 방지한다. 제시한 Wav2Vec2.0 구조를 사용하여 한국어와 영어를 잘못 분류하여 음성인식률이 낮아지는 문제를 해결하고 더불어 제시된 한국어 음성 데이터셋(KsponSpeech)에서 한국어와 영어를 동시에 학습한 모델이 한국어만을 이용한 모델보다 향상된 음성 인식률을 보임을 확인하였다. 마지막으로 Prefix 디코딩을 활용하여 언어모델을 이용한 음성인식 성능 개선을 수행하였다.

  • PDF

한국어에 의한 EVRC LSP 코드북 설계 (Design of EVRC LSP Codebooks with Korean)

  • 이진걸
    • 한국음향학회지
    • /
    • 제21권2호
    • /
    • pp.167-172
    • /
    • 2002
  • 음성부호화 알고리즘인 EVRC (Enhanced Variable Rate Codec)는 현재 북미 및 한국 CDMA 디지털 셀룰러 시스템에 사용되고 있다. EVRC음성부호화기에서 음성의 주파수영역에서의 에너지 분포와 관련되어 있는 LSP (Line Spectral Pairs)값은 가중분할 벡터 양자화 (Weighted Split Vector Quantization)에 의해 코딩된다. 이러한 코딩 과정에 사용되는 LSP 코드북이 개발국 언어 혹은 영어로 설계되었음을 감안하면 한국어통화에 대해서는 한국어로 설계된 LS 코드북에 의해 향상된 성능을 기대할 수 있다. 본 논문에서는 한국어로 BVRC의 LSP 코드북을 LBG알고리즘을 기반으로 한 벡터 양자화기법으로 설계하였으며 이 코드북에 의한 벡터양자화 성능향상 및 그에 따른 음질향상을 각각 SD (Spectral Distortion) 및 신호대 잡음비 (SNR), SegSNR측정으로 입증하였다.