• Title/Summary/Keyword: 분산음성인식

Search Result 56, Processing Time 0.024 seconds

Parallel Speech Recognition on Distributed Memory Multiprocessors (분산 메모리 다중 프로세서 상에서의 병렬 음성인식)

  • 윤지현;홍성태;정상화;김형순
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.747-749
    • /
    • 1998
  • 본 논문에서는 음성과 자연언어의 통합처리를 위한 효과적인 병렬 계산 모델을 제안한다. 음소모델은 continuous HMM에 기반을 둔 문맥종속형 음소를 사용하며, 언어모델은 knowledge-based approach를 사용한다. 또한 계층구조의 지식베이스상에서 다수의 가설을 처리하기 위해 memory-based parsing기술을 사용하였다. 본 연구의 병렬 음성인식 알고리즘은 분산메모리 MIMD 구조의 다중 Transputer 시스템을 이용하여 구현되었다. 실험을 통하여 음성인식 과정에서 발생하는 speech-specific problem의 해를 제공하고 음성인식 시스템의 병렬화를 통하여 실시간 음성인식의 가능성을 보여준다.

  • PDF

Development of Embedded Fast/Light Phoneme Recognizer for Distributed Speech Recognition (분산음성인식을 위한 내장형 고속/경량 음소인식기 개발)

  • Kim, Seung-Hi;Hwang, Kyu-Woong;Jeon, Hyun-Bae;Jeong, Hoon;Park, Jun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.395-396
    • /
    • 2007
  • ETRI 음성/언어정보연구센터에서는 분산음성인식을 위해 메모리를 작게 사용하며 속도가 빠른 음소인식기를 개발 중이다. 음향 모델, 언어 모델, 탐색 네트워크 등 고정되어 있는 정보는 인식기를 수행하기 이전에 미리 binary 형태로 구축하여 ROM 형태로 저장함으로써 실제 사용해야 할 RAM 용량을 대폭 줄일 수 있었다. Tied state에 기반한 triphone 모델에서는 unique HMM 만을 사용함으로써 인식시간 및 메모리 사용량을 대폭 줄일 수 있었다. Monophone 인식기의 경우 RAM 사용량이 179KB였으며, triphone 인식기의 경우 435KB의 RAM 사용량과 RTF(Real Time Factor) 0.02를 확인하였다.

  • PDF

Design of a Quantization Algorithm of the Speech Feature Parameters for the Distributed Speech Recognition (분산 음성 인식 시스템을 위한 특징 계수 양자화 방식 설계)

  • Lee Joonseok;Yoon Byungsik;Kang Sangwon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.24 no.4
    • /
    • pp.217-223
    • /
    • 2005
  • In this paper, we propose a predictive block constrained trellis coded quantization (BC-TCQ) to quantize cepstral coefficients for the distributed speech recognition. For Prediction of the cepstral coefficients. the 1st order auto-regressive (AR) predictor is used. To quantize the prediction error signal effectively. we use a BC-TCQ. The performance is compared to the split vector quantizers used in the ETSI standard, demonstrating reduction in the cepstral distance and computational complexity.

Decision Rule using Confidence Based Anti-phone Model and Interrupt-Polling Method for Distributed Speech Recognition DSP Networking System (분산형 음성인식 DSP 네트워킹 시스템을 위한 반음소 모델기반의 신뢰도를 사용한 결정규칙과 인터럽트-폴링)

  • Song, Ki-Chang;Kang, Chul-Ho
    • Journal of Korea Multimedia Society
    • /
    • v.13 no.7
    • /
    • pp.1016-1022
    • /
    • 2010
  • Far-talking recognition and distributed speech recognition networking techniques are essential to control various and complex home services conveniently with voices. It is possible to control devices everywhere at home by using only voices. In this paper, we have developed the server-client DSP module for distributed speech recognition network system and proposed a new decision rule to decide intelligently whether to accept the recognition results or not by the transferred confidence rate. Simulation results show that the proposed decision rule delivers better performances than the conventional decision by majority rule or decision by first-arrival. Also, we have proposed the new interrupt-polling technique to remedy the defect of existing delay technique which always has to wait several clients' results for a few seconds. The proposed technique queries all client's status after first-arrival and decides whether to wait or not. It can remove unnecessary delay-time without any performance degradation.

A Parallel Speech Recognition System based on Hidden Markov Model (은닉 마코프 모델 기반 병렬음성인식 시스템)

  • Jeong, Sang-Hwa;Park, Min-Uk
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.27 no.12
    • /
    • pp.951-959
    • /
    • 2000
  • 본 논문의 병렬음성인식 모델은 연속 은닉 마코프 모델(HMM; hidden Markov model)에 기반한 병렬 음소인식모듈과 계층구조의 지식베이스에 기반한 병렬 문장인식모듈로 구성된다. 병렬 음소인식 모듈은 수천개의 HMM을 병렬 프로세서에 분산시킨 수, 할당된 HMM에 대한 출력확률 계산과 Viterbi 알고리즘을 담당한다. 지식베이스 기반 병렬 문장인식모듈은 음소모듈에서 공급되는 음소열과 지안하는 병렬 음성인식 알고리즘은 분산메모리 MIMD 구조의 다중 트랜스퓨터와 Parsytec CC 상에 구현되었다. 실험결과, 병렬 음소인식모듈을 통한 실행시간 향상과 병렬 문장인식모듈을 통한 인식률 향상을 얻을 수 있었으며 병렬 음성인식 시스템의 실시간 구현 가능성을 확인하였다.

  • PDF

Study of Speech Recognition System Operation for Voice-driven UAV Control (음성 기반 무인 항공기 제어를 위한 음성인식 시스템 운용 체계 연구)

  • Park, Jeong-Sik
    • Journal of the Korean Society for Aeronautical & Space Sciences
    • /
    • v.47 no.3
    • /
    • pp.212-219
    • /
    • 2019
  • As unmanned aerial vehicle (UAV) has been utilized for military operation, efficient ways for controlling UAV has been necessary. In particular, instead of conventional approach using console control, speech recognition based UAV control is essential for military environments in which rapid command operation is required. But research on this novel approach is not actively studied yet. In this study, we introduce efficient ways of speech recognition system operation for voice-driven UAV control, focusing on mission command control from manned aircraft rather than ground control center. We propose an efficient way of system operation for UAV control in cooperation of aircraft and UAV, and verify its efficiency via speech recognition experiment.

Analysis and Recognition of Korean Fricatives and Affricates (한국어 마찰음 및 파찰음의 분석과 인식)

  • 정석재;정현열;이무영
    • The Journal of the Acoustical Society of Korea
    • /
    • v.10 no.5
    • /
    • pp.27-35
    • /
    • 1991
  • 음소를 인식의 기본 단위로 하는 소규모 음성 인식 시스템을 구현하기 위한 기초 연구로서 마 찰음(/ㅅ, ㅆ, ㅎ/) 과 파찰음(/ㅈ, ㅉ, ㅊ/) 에 대하여 지속시간, 평균패턴, 분산비를 이용하여 각 음소 의 특징을 분석하고 각 음소군 내에서의 식별에 유효한 parameter들을 추출하여 인식 실험을 실시하 였다. 지속시간의 분포, 평균패턴의 분포, 분산비의 분포를 이용하여 분석한 결과 6차원 정도의 cepstrum 계수만으로 마찰음 및 파찰음의 식별이 가능하고, 시간 방향의 정보는 음성의 시단으로부터 14 frame 정도의 특징을 인식 파라미터로 할 경우가 최적임을 알 수 있었다. 이를 이용한 인식실험 결과에서는 조음방법별로 분류된 음소군내의 각 음소에 대한 인식실험의 인식률 보다는 발음방법별 인식실험시의 인식률이 높게 나타나 동일 음소군 내에서의 각 음소에 대한 식별이 더 어려움을 알 수 있었고, 특징 파라미터의 길이를 음성의 시단으로부터 14 frame 정도로 했을 때 조음방법별 인식률은 평균 81.1%, 발음방법별 인식률은 평균 97.9%로 최고의 인식률을 나타내었다. 특징 파라미터의 길이 를 14 frame 이상으로 증가시켜도 인식률은 큰 변화가 없어 분석 결과를 잘 설명하고 있음을 알 수 있었다.

  • PDF

Dimensionality Reduction in Speech Recognition by Principal Component Analysis (음성인식에서 주 성분 분석에 의한 차원 저감)

  • Lee, Chang-Young
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.8 no.9
    • /
    • pp.1299-1305
    • /
    • 2013
  • In this paper, we investigate a method of reducing the computational cost in speech recognition by dimensionality reduction of MFCC feature vectors. Eigendecomposition of the feature vectors renders linear transformation of the vectors in such a way that puts the vector components in order of variances. The first component has the largest variance and hence serves as the most important one in relevant pattern classification. Therefore, we might consider a method of reducing the computational cost and achieving no degradation of the recognition performance at the same time by dimensionality reduction through exclusion of the least-variance components. Experimental results show that the MFCC components might be reduced by about half without significant adverse effect on the recognition error rate.

Robust Distributed Speech Recognition under noise environment using MESS and EH-VAD (멀티밴드 스펙트럼 차감법과 엔트로피 하모닉을 이용한 잡음환경에 강인한 분산음성인식)

  • Choi, Gab-Keun;Kim, Soon-Hyob
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.48 no.1
    • /
    • pp.101-107
    • /
    • 2011
  • The background noises and distortions by channel are major factors that disturb the practical use of speech recognition. Usually, noise reduce the performance of speech recognition system DSR(Distributed Speech Recognition) based speech recognition also bas difficulty of improving performance for this reason. Therefore, to improve DSR-based speech recognition under noisy environment, this paper proposes a method which detects accurate speech region to extract accurate features. The proposed method distinguish speech and noise by using entropy and detection of spectral energy of speech. The speech detection by the spectral energy of speech shows good performance under relatively high SNR(SNR 15dB). But when the noise environment varies, the threshold between speech and noise also varies, and speech detection performance reduces under low SNR(SNR 0dB) environment. The proposed method uses the spectral entropy and harmonics of speech for better speech detection. Also, the performance of AFE is increased by precise speech detections. According to the result of experiment, the proposed method shows better recognition performance under noise environment.

A Parallel Speech Recognition Model on Distributed Memory Multiprocessors (분산 메모리 다중프로세서 환경에서의 병렬 음성인식 모델)

  • 정상화;김형순;박민욱;황병한
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.5
    • /
    • pp.44-51
    • /
    • 1999
  • This paper presents a massively parallel computational model for the efficient integration of speech and natural language understanding. The phoneme model is based on continuous Hidden Markov Model with context dependent phonemes, and the language model is based on a knowledge base approach. To construct the knowledge base, we adopt a hierarchically-structured semantic network and a memory-based parsing technique that employs parallel marker-passing as an inference mechanism. Our parallel speech recognition algorithm is implemented in a multi-Transputer system using distributed-memory MIMD multiprocessors. Experimental results show that the parallel speech recognition system performs better in recognition accuracy than a word network-based speech recognition system. The recognition accuracy is further improved by applying code-phoneme statistics. Besides, speedup experiments demonstrate the possibility of constructing a realtime parallel speech recognition system.

  • PDF