• 제목/요약/키워드: 음성다중

검색결과 350건 처리시간 0.023초

음성 및 음악을 위한 저 전송률 다중모드 하모닉 변환 여기 부호화기 (Low Bit Rate Multi Mode Harmonic Transform Excitation Coding for Speech and Music)

  • 김종학;이인성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.525-528
    • /
    • 2001
  • 본 논문은 음성 및 음악을 위한 새로운 4kbps 다중 모드 하모닉 변환 여기 부호화 방법을 제안한다. 제안된 부호화방법은 음성/음악 분류기에 의해 분류된 신호를 각각 하모닉-잡음 여기모델과 MLT 여기모델로 부호화한다. 하모닉-잡음 여기모델에서는 전이구간과 유/무성음 혼합신호의 모델링오차 개선을 위해 MP(Matching Pursuit)방법과 혼합된 잡음스펙트럴을 표현하기 위한 캡스트럽 LPC 잡음 모델, 빠른 정현파 합성법을 제안한다. 음악에서는 비트할당 효율을 높이기위한 LP 적응 피크 분석을 적용한 MLT(Modulated Lapped Transform) 부호화 방법을 제안한다. 제안된 방법을 적용한 4kbps 음성부호화 방법은 전이구간에서의 향상된 모델링 구조를 보여주었으며, 주관적음질 평가 8kbps QCELP 보다 MOS 0.2 정도 향상된 결과를 얻었다.

  • PDF

ETRI신기술-확장 합성단위 기반 한국어 음성합성기 기술

  • 한국전자통신연구원
    • 전자통신동향분석
    • /
    • 제14권3호통권57호
    • /
    • pp.127-128
    • /
    • 1999
  • 확장 합성단위 기반 한국어 음성합성장치는 통상의 문자로 쓰여진 텍스트를 인간이 소리내어 읽듯이 기계에 의해 자동적으로 음성을 합성하는 시스템이다. 이 시스템은 1995년부터 수행하고 있는 "다중 매체 환경 하에서의 대화체 음성번역 통신 기술개발" 사업의 연구 결과물 중 하나로 1997년도에 개발되어 학습형 자동합성단위 생성기 및 영역의존 음성합성기 기술을 전수할 예정이다.

  • PDF

분산 메모리 다중프로세서 환경에서의 병렬 음성인식 모델 (A Parallel Speech Recognition Model on Distributed Memory Multiprocessors)

  • 정상화;김형순;박민욱;황병한
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.44-51
    • /
    • 1999
  • 본 논문에서는 음성과 자연언어의 통합처리를 위한 효과적인 병렬계산모델을 제안한다. 음소모델은 연속 Hidden Markov Model(HMM)에 기반을 둔 문맥종속형 음소를 사용하며, 언어모델은 지식베이스를 기반으로 한다. 또한 지식베이스를 구성하기 위해 계층구조의 semantic network과 병렬 marker-passing을 추론 메카니즘으로 쓰는 memory-based parsing 기술을 사용한다. 본 연구의 병렬 음성인식 알고리즘은 분산메모리 MIMD(Multiple Instruction Multiple Data) 구조의 다중 Transputer 시스템을 이용하여 구현되었다. 실험결과, 본 연구의 지식베이스 기반 음성인식 시스템의 인식률이 word network 기반 음성인식 시스템보다 높게 나타났으며 code-phoneme 통계정보를 활용하여 인식성능의 향상도 얻을 수 있었다. 또한, 성능향상도(speedup) 관련 실험들을 통하여 병렬 음성인식 시스템의 실시간 구현 가능성을 확인하였다.

  • PDF

Multi-band Power Subtraction과 Wavelet Packets Decomposition을 이용한 개선된 음성 향상 방법 (Unproved Speech Enhancement Algorithm employing Multi-band Power Subtraction and Wavelet Packets Decomposition)

  • 이윤창;곽정훈;안상식
    • 한국통신학회논문지
    • /
    • 제31권6C호
    • /
    • pp.589-602
    • /
    • 2006
  • 잡음은 음성과 관련된 시스템의 성능을 제한하는 주된 원인이기 때문에 음성향상과 관련된 연구는 꾸준히 계속되어왔다. 전통적인 음성향상 방법은 무성음과 잡음을 구분하지 알기 때문에 잡음제거 과정에서 무성음이 함께 제거되는 단점이 있으며, 웨이블릿 기반의 전통적인 잡음제거 방법은 각 대역마다 동일한 문턱값을 사용하기 때문에 시변 환경에서 성능이 떨어지는 단점이 있다. 이 단점들을 개선하기위해 다중대역 파워 차감법과 Perceptual 웨이블릿 패킷 분해를 이용한 웨이블릿 기반의 개선된 음성향상 방법을 제안한다. 전처리 과정으로 다중대역 파워 차감법을 사용하여 광대역 잡음을 제거하고 뮤지컬 잡음의 발생을 줄이며, psycho-acoustic 모델 기반 Perceptual 웨이블릿 패킷으로 신호를 분해한 후 각 웨이블릿 노드의 엔트로피 비율과 음성검출을 이용하여 무성음/유성음/잡음을 구분한다. 구분된 신호에 따라 각 웨이블릿 노드마다의 문턱값을 기준으로 웨이블릿 Shrinkage를 적용하여 잡음을 제거하고 무성음이나 파워가 작은 유성음이 제거되는 오류를 최소화한다. 또한 잡음 파워 추정 과정에 적응적으로 망각 계수를 선택하여 잡음 파워 추정 오류를 최소화한다.

무선 망에서 상향채널 인터넷 트래픽을 위한 매체접근제어 프로토콜 (A Medium Access Control Protocol for Internet Traffics of Uplink Channel on Wireless Network)

  • 조성현;박성한
    • 한국통신학회논문지
    • /
    • 제26권5A호
    • /
    • pp.809-816
    • /
    • 2001
  • 본 논문에서는 사용자 수의 증가에 민감하지 않은 안정적인 인터넷 서비스를 위한 매체접근제어 프로토콜을 제안하고자 한다. 제안하는 프로토콜에서는 짧은 시간동안 적은 양의 데이터가 발생하는 상향채널 인터넷 트래픽의 특성 및 음성과 데이터 연결이 동시에 설정되는 다중 세션 모드를 활용하여 음성 트래픽 채널을 통해 상향채널 인터넷 트래픽을 전송할 수 있는 방안을 제시한다. 수학적 분석 시뮬레이션 결과는 다중세션 하에서 제안하는 매체접근제어 프로토콜을 적용할 경우 높은 시스템 부하에서도 안정된 인터넷 서비스 제공이 가능함을 보인다.

  • PDF

다중대역 여기신호를 이용한 음성의 규칙합성에 관한 연구 (A Study on the speech synthesis-by-rue system using Multiband Excitation signal)

  • 경연정
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.80-83
    • /
    • 1993
  • 본 논문에서는 양질의 규칙합성을 얻기 위하여, 유성음에 대한 여기신호로 임펄스 스펙트럼과 노이즈 스펙트럼을 다중대역으로 혼합하여 생성한 여기신호를 규칙합성에 적용하는 방법을 제안한다. 이 방법에서는, 분석합성에서 각 프레임별로 요구되었던 혼합여기신호에 대한 정보량 문제를 해결하기 위해 유성음의 정상부분의 한 프레임에 대해 혼합여기신호를 구하여 규칙합성에 적용하였고, 정보량을 더욱 줄이는 방안으로, 켑스트럼 유클리디안 거리를 이용하여 유성음을 분류하여, 각 그룹에 대한 대표 여기신호를 규칙합성의 여기신호로 사용하였다. 제안된 방법으로 음성을 합성한 결과 양질의 합성음을 얻을 수 있음을 확인하였다.

  • PDF

다중 펄스와 다중 대역 이차 장구간 예측을 이용한 CELP 음성 부호화기 (A CELP Speech Coder Using Secondary Long Term Prediction with Multi-Band Pass Filtered Multi-Pulses)

  • 서정태;최용수;강홍구;윤대희
    • 한국음향학회지
    • /
    • 제17권1호
    • /
    • pp.9-16
    • /
    • 1998
  • 본 논문에서는 낮은 비트율 CELP 음성 부호화기의 장구간 예측기의 성능 향상 방 법을 제안한다. 비트율을 낮추기 위해서는 분석 구간의 길이가 길어져야하며 이에 따라 장 구간 예측기의 성능이 저하되어 장구간 예측 후에도 준 주기성 성분이 상당량 존재하므로 백색 잡음으로 구성된 통계 코드북만으로는 이를 모델링하기 어려워진다. 제안 방법에서는 다중 대역 필터와 다중 펄스열을 이용하여 한 번 더 필터링(이차 장구간 예측)함으로써 장 구간 예측 후의 신호가 통계 코드북에 적합한 백색 잡음 형태로 되도록 모델링한다. 제안된 방법의 성능을 평가하기 위해 4.8kbps 비트율로 양자화한 후, 기존에 제안된 같은 전송률의 MBCELP와 DoD-CELP와 비교하였다. 실험 결과 제안된 방법이 기존 부호화기들에 비해 주/객관적인 음질에서 우수한 성능을 보여준다.

  • PDF

적응형 다중 비트율 음성 부호화기를 위한 효율적인 대수코드북 검색법 (An Efficient Algebraic Codebook Search Method for ham Speech Coder)

  • 변경진;정희범;한민수
    • 한국음향학회지
    • /
    • 제22권2호
    • /
    • pp.129-134
    • /
    • 2003
  • 본 논문에서는 적응형 다중 비트율 (AMR: Adaptive Multi-Rate) 음성 부호화기의 구현 시 계산량을 가장 많이 차지하는 대수 코드북 검색과정의 계산량을 줄임으로써 효율적인 AMR 음성 부호화기를 구현하였다. 대수 코드북 검색의 계산량을 줄이기 위하여 기존의 AMR 음성 부호화기에서 사용하고 있는 깊이우선 가지 검색법 (depth first tree) 검색 방법을 개선한 고속 코드북 검색 알고리즘을 제안하였다. 제안된 방법은 검색과정에서 최적의 여기신호로 선택될 가능성이 적은 트리를 제거하여 검색의 복잡도를 줄이는 방법으로 트리 선택을 위한 추가의 계산량이 필요없으며 검색에 필요한 계산량은 기존의 깊이우선 가지 검색법에 비해 현저한 감소를 이루었으나 약간의 음질 저하가 있었다. 제안한 방법을 적용하여 AMR 음성 부호화기의 12.2 kbps 모드를 TeakLite DSP를 사용하여 구현한 결과 기존의 방법에 비해 약 40%의 계산량을 감소할 수 있었다.

다중 스케일 시간 확장 합성곱 신경망을 이용한 방송 콘텐츠에서의 음성 검출 (Speech detection from broadcast contents using multi-scale time-dilated convolutional neural networks)

  • 장병용;권오욱
    • 말소리와 음성과학
    • /
    • 제11권4호
    • /
    • pp.89-96
    • /
    • 2019
  • 본 논문에서는 방송 콘텐츠에서 음성 구간 검출을 효과적으로 할 수 있는 심층 학습 모델 구조를 제안한다. 또한 특징 벡터의 시간적 변화를 학습하기 위한 다중 스케일 시간 확장 합성곱 층을 제안한다. 본 논문에서 제안한 모델의 성능을 검증하기 위하여 여러 개의 비교 모델을 구현하고, 프레임 단위의 F-score, precision, recall을 계산하여 보여 준다. 제안 모델과 비교 모델은 모두 같은 학습 데이터로 학습되었으며, 모든 모델은 다양한 장르(드라마, 뉴스, 다큐멘터리 등)로 구성되어 있는 한국 방송데이터 32시간을 이용하여 모델을 학습되었다. 제안 모델은 한국 방송데이터에서 F-score 91.7%로 가장 좋은 성능을 보여주었다. 또한 영국과 스페인 방송 데이터에서도 F-score 87.9%와 92.6%로 가장 높은 성능을 보여주었다. 결과적으로 본 논문의 제안 모델은 특징 벡터의 시간적 변화를 학습하여 음성 구간 검출 성능 향상에 기여할 수 있었다.

다중대역 음성인식을 위한 부대역 신뢰도의 추정 및 가중 (Estimation and Weighting of Sub-band Reliability for Multi-band Speech Recognition)

  • 조훈영;지상문;오영환
    • 한국음향학회지
    • /
    • 제21권6호
    • /
    • pp.552-558
    • /
    • 2002
  • 최근에 Fletcher의 HSR (human speech recognition) 이론을 기초로 한 다중대역 (multi-band) 음성인식이 활발히 연구되고 있다. 다중대역 음성인식은 주파수 영역을 다수의 부대역으로 나누고 별도로 인식한 뒤 부대역들의 인식결과를 부대역 신뢰도로 가중 및 통합하여 최종 판단을 내리는 새로운 음성인식 방식으로서 잡음환경에 특히 강인하다고 알려졌다. 잡음이 정상적인 경우 무음구간의 잡음정보를 이용하여 부대역 신호대 잡음비(SNR)를 추정하고 이를 가중치로 사용하기도 하였으나, 비정상잡음은 시간에 따라 특성이 변하여 부대역 신호대 잡음비를 추정하기가 쉽지 않다. 본 논문에서는 깨끗한 음성으로 학습한 은닉 마코프 모델과 잡음음성의 통계적 정합에 의해 각 부대역에서 모델과 잡음음성 사이의 거리를 추정하고, 이 거리의 역을 부대역 가중치로 사용하는 ISD (inverse sub-band distance) 가중을 제안한다. 1500∼1800㎐로 대역이 제한된 백색잡음 및 클래식 기타음에 대한 인식 실험 결과, 제안한 방법은 정상 및 비정상대역제한잡음에 대하여 부대역의 신뢰도를 효과적으로 표현하며 인식 성능을 향상시켰다.