• 제목/요약/키워드: Speech processor

검색결과 94건 처리시간 0.027초

입술 움직임 영상 선호를 이용한 음성 구간 검출 (Speech Activity Detection using Lip Movement Image Signals)

  • 김응규
    • 융합신호처리학회논문지
    • /
    • 제11권4호
    • /
    • pp.289-297
    • /
    • 2010
  • 본 논문에서는 음성인식을 위한 음성구간 검출과정에서 유입될 수 있는 동적인 음향에너지 이외에 화자의 입술움직임 영상신호까지 확인함으로써 외부 음향잡음이 음성인식 대상으로 오인식되는 것을 방지하기 위한 한 가지 방법이 제시된다. 우선, 연속적인 영상이 PC용 영상카메라를 통하여 획득되고 그 입술움직임 여부가 식별된다. 다음으로, 입술움직임 영상신호 데이터는 공유메모리에 저장되어 음성인식 프로세서와 공유한다. 한편, 음성인식의 전처리 단계인 음성구간 검출과정에서 공유메모리에 저장되어진 데이터를 확인함으로써 화자의 발성에 의한 음향에너지인지의 여부가 입증된다. 최종적으로, 음성인식기와 영상처리기를 연동시켜 실험한 결과, 영상카메라에 대면해서 발성하면 음성인식 결과의 출력에 이르기까지 연동처리가 정상적으로 진행됨을 확인하였고, 영상카메라에 대면치 않고 발성하면 연동처리시스템이 그 음성인식 결과를 출력치 못함을 확인하였다. 또한, 오프라인하의 입술움직임 초기 특정값 및 템플릿 초기영상을 온라인하에서 추출된 입술움직임 초기특정값 및 템플릿 영상으로 대체함으로써 입술움직임 영상 추적의 변별력을 향상시켰다. 입술움직임 영상 추적과정을 시각적으로 확인하고 실시간으로 관련된 패러미터를 해석하기 위해 영상처리 테스트베드를 구축하였다, 음성과 영상처리 시스템의 연동결과 다양한 조명환경 하에서도 약 99.3%의 연동율을 나타냈다.

LPC-CEPSTRUM 추출을 위한 전용 프로세서의 설계 (A design of the processor dedicated to LPC-CEPSTRUM)

  • 황인철;김성남;김영우;김태근;김수원
    • 전자공학회논문지C
    • /
    • 제34C권8호
    • /
    • pp.71-78
    • /
    • 1997
  • An LPC cepstrum processor for speech recognition is implemented on CMOS array process. The designed processor contains a 24-bit floating-point MAC unit to perform the correlation quickly, which occupies the majority of operations used in the algorithm, and has 22 register files to store temporary variables. For the purpose of fast operations, the floating-point MAC consists of a 3-stage pipeline and the new post-normalization shceme is proposed and applied to it. Experimental result shows that it takes approximately 266.mu.s to process 200 samples/frame at 15 MHz clock rate. This processor runs at the maximum rate of 16.6 MHz and the number of gates are 27,760.

  • PDF

차세대 통신망을 위한 G.729.1 광대역 음성 코덱을 활용한 인터넷 단말 구현 (Implementation of Internet Terminal using G.729.1 Wideband Speech Codec for Next Generation Network)

  • 소운섭;김대영
    • 한국통신학회논문지
    • /
    • 제33권10B호
    • /
    • pp.939-945
    • /
    • 2008
  • 본 논문에서는 차세대 통신망을 위한 G.729.1 광대역 음성 코덱을 활용한 인터넷 단말을 구현한 절차와 결과에 대해 기술하였다. 이러한 목적을 이루기 위해 먼저 음성 코덱 처리를 위한 DSP 기능을 가지며, 비디오 코덱 처리를 위한 향상된 멀티미디어 가속기 기능을 가진 고성능 RISC 응용 프로세서를 선택하였다. 단말 구현에 사용한 G.729.1 광대역 음성 코덱은 ITU-T에서 최근 표준화 된 것으로 G.729 음성 코덱 표준을 확장한 새로운 스케일러블 음성 및 오디오 코덱이다. G.729.1 코덱의 프로세서에서 처리 시간을 줄이고, 단말에 적용하기 위해 계산량이 많이 필요한 부분의 고정 소수점 C 코드를 어셈블리 언어로 변환하였다. 그 결과 원시 C 코드의 실행 시간을 약 80% 줄여서 단말에서 실시간으로 동작시켰다. 비디오 코덱은 프로세서의 eMMA 하드웨어에서 지원되는 H.263/MPEG-4 코덱을 사용하였다. 실제 망에 접속판 SIP 호 처리 시험에서 단 대 단 지연은 100ms 이하이고, PESQ 장비로 측정한 MOS 값은 평균 3.8 이었으며, 상용 단말들과의 연동 시험에서도 정상적으로 동작하였다.

ARM9 $Thumb^{\circledR}$ 프로세서 코어를 이용한 G.729A의 실시간 구현 (Real-time Implementation of the G.729 Annex A Using ARM9 $Thumb^{\circledR}$ Processor Core)

  • 성호상;이동원
    • 한국음향학회지
    • /
    • 제20권7호
    • /
    • pp.63-68
    • /
    • 2001
  • 본 논문에서는 국제 통신 표준화기구인 ITU-T의 SG15에서 채택된 G.729 Annex A (이하G.729A)음성 부호화기를 ARM9 Thumb/sup R/ 프로세서 코어에 적용 가능하도록 전체 모듈을 다양한 최적화방법을 이용하여 어셈블리어로 실시간 구현하였다. G.729A는 8 kbit/s의 전송률을 갖는 ITU-T표준 음성 부호화기이며, 입력신호는 8 kHz로 샘플링되며 샘플당 16 비트로 양자화된 PCM신호이다. G.729A는 앞서 표준화된 G.729와 비트단위로 상호호환 가능하며 계산량을 대폭 감소시킨 버전이다. 구현된 G.729A음성 부호화기는 부호화기와 복호화기 부분이 각각 약 35 MIPS 및 8 MIPS의 복잡도를 나타내며, 사용된 메모리양은 프로그램 ROM 36.5 kBytes, RAM 6.3 kBytes이다 구현된 G.729A 음성 부호화기는 ITU-T에서 제공하는 9개의 테스트 벡터를 모두 통과하였다.

  • PDF

후처리기를 이용한 음향 반향 제거기의 성능향상 (Performance Improvement of Acoustic Echo Canceller Using Post-Processor)

  • 박장식;김현태;손경식
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.35-43
    • /
    • 1999
  • 본 논문에서는 크게 계산량이 증가하지 않으면서 음향 반향 제거기의 성능을 향상시킬 수 있는 잡음에 강건한 적응 알고리즘과 후처리기를 제안한다. 제안하는 적응 알고리즘은 기준 입력신호와 마이크 입력신호의 전력 합으로 적응 상수를 정규화 한다. 근단화자의 음성신호나 주변 잡음이 마이크로 입력되면 그 전력만큼 적응 상수가 작아지기 때문에 이들 주변 잡음에 의한 계수 오조정을 줄일 수 있다. 잔여 반향을 제거하기 위해서 잡음에 강건한 알고리즘과 연동하는 새로운 후처리 방법을 제안한다. 제안하는 후처리 방법은 마이크 입력신호와 추정 오차신호의 상관도를 활용한다. 잔여 반향은 마이크 입력신호의 전력으로 정규화된 상관도에 의해서 감쇠되어 제거한다. 정규화 상관도는 잔여 반향에 대해서 Wiener 필터 역할을 한다. 동시 통화시에는 추정 오차신호에는 근단화자의 음성신호가 대부분을 차지함으로 정규화 상관도는 거의 1이 되어 근단화자의 음성신호는 감쇠없이 전송된다. 반향 신호만 있을 때에는 잔여 반향은 후처리기에 의해서 대부분 감쇠되어 제거된다. 제안하는 후처리기를 이용한 음향 반향 제거기의 계산량은 NLMS 알고리즘에 비해서 크게 증가하지 않는다.

  • PDF

범용 DSP를 이용한 LPC 방식 실시간 음성 합성기 설계에 관한 연구 (A Study on the Design of the real-time speech synthesizer with the LPC method using Digital Signal Processor.)

  • 김홍선
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1984년도 추계학술발표회 논문집
    • /
    • pp.63-65
    • /
    • 1984
  • In this paper, the implementation of the real time LPC synthesizer using NEC 77p20, the DSP (Digital Signal Processor) chip which facilitates and simplifies the digital hardware, is considered. This method shows the good quality with the low bit rate below 9.6kbps and has the advantage of the flexibility and the simplicity.

  • PDF

초음파 센서와 DSP 음성인식을 이용한 이동 로봇 구현 (Implement Of Automobile Robot Using the Ultrasonic Sensors And the DSP Chip(TMS320C31))

  • 임창환;문철홍
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 하계종합학술대회 논문집(5)
    • /
    • pp.155-158
    • /
    • 2000
  • In this paper, For operator's conveniency of the mobile robot, achieved the system which control the robot by adopting the speaker independently isolated word recognition and by implementing the real time with TMS320C31. and This paper using the Tri-ultrasonics range finder to detect obstacles and implements the mobile robot. In this paper, DSP processor (TMS320C31) is used signal processing for speech recognition in the real time and Micro processor(80C196KC) is controling the ultrasonics range finders.

  • PDF

입술움직임 영상신호를 고려한 음성존재 검출 (Speech Activity Decision with Lip Movement Image Signals)

  • 박준;이영직;김응규;이수종
    • 한국음향학회지
    • /
    • 제26권1호
    • /
    • pp.25-31
    • /
    • 2007
  • 본 논문은 음성인식을 위한 음성구간 검출과정에서, 음향에너지 이외에도 화자의 입술움직임 영상신호까지 확인하도록 함으로써, 외부의 음향잡음이 음성인식 대상으로 오인식되는 것을 방지하기 위하여 시도한 것이다. 먼저, PC용 화상카메라를 통하여 영상을 획득하고, 입술움직임 여부가 식별된다. 그리고 입술움직임 영상신호 데이터는 공유메모리에 저장되어 음성인식 프로세스와 공유한다. 한편, 음성인식의 전처리 단계인 음성구간 검출과정에서는 공유메모리에 저장되어 있는 데이터를 확인함으로써 사람의 발성에 의한 음향에너지인지의 여부를 확인하게 된다. 음성인식기와 영상처리기를 연동시켜 실험한 결과, 화상카메라에 대면해서 발성하면 음성인식 결과의 출력까지 정상적으로 진행됨을 확인하였고, 화상카메라에 대면하지 않고 발성하면 음성인식 결과를 출력하지 않는 것을 확인하였다. 이는 음향에너지가 입력되더라도 입술움직임 영상이 확인되지 않으면 음향잡음으로 간주하도록 한 것에 따른 것이다.

DSP를 이용한 음성인식기 구현 (Implementation of Speech Recognizer using DSP(Digital Signal Processor))

  • 임창환;문철홍;전경남
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 추계종합학술대회 논문집(4)
    • /
    • pp.187-190
    • /
    • 2000
  • In this paper, implementation of speech Recognizer system, Separated from Personal computer. By using DSP, this intends to extend the voice recognizing, limited into PC because of amount of data and calculations. For this performance The thesis uses the real time End point detector and organizes no additional device between human and the system, characteristic vector are that detects End point and voice from absolute energy and ZCR, that uses 12 difference Cepstrum from LPC, that uses the method to compensate the process of pattern separating and pre-calculated standard pattern limitation.

  • PDF

ETRI 소용량 대화체 음성합성시스템 (ETRI small-sized dialog style TTS system)

  • 김종진;김정세;김상훈;박준;이윤근;한민수
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.217-220
    • /
    • 2007
  • This study outlines a small-sized dialog style ETRI Korean TTS system which applies a HMM based speech synthesis techniques. In order to build the VoiceFont, dialog-style 500 sentences were used in training HMM. And the context information about phonemes, syllables, words, phrases and sentence were extracted fully automatically to build context-dependent HMM. In training the acoustic model, acoustic features such as Mel-cepstrums, logF0 and its delta, delta-delta were used. The size of the VoiceFont which was built through the training is 0.93Mb. The developed HMM-based TTS system were installed on the ARM720T processor which operates 60MHz clocks/second. To reduce computation time, the MLSA inverse filtering module is implemented with Assembly language. The speed of the fully implemented system is the 1.73 times faster than real time.

  • PDF