• Title/Summary/Keyword: 음성인식률

Search Result 549, Processing Time 0.026 seconds

Development of Context Awareness and Service Reasoning Technique for Handicapped People (멀티 모달 감정인식 시스템 기반 상황인식 서비스 추론 기술 개발)

  • Ko, Kwang-Eun;Sim, Kwee-Bo
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.19 no.1
    • /
    • pp.34-39
    • /
    • 2009
  • As a subjective recognition effect, human's emotion has impulsive characteristic and it expresses intentions and needs unconsciously. These are pregnant with information of the context about the ubiquitous computing environment or intelligent robot systems users. Such indicators which can aware the user's emotion are facial image, voice signal, biological signal spectrum and so on. In this paper, we generate the each result of facial and voice emotion recognition by using facial image and voice for the increasing convenience and efficiency of the emotion recognition. Also, we extract the feature which is the best fit information based on image and sound to upgrade emotion recognition rate and implement Multi-Modal Emotion recognition system based on feature fusion. Eventually, we propose the possibility of the ubiquitous computing service reasoning method based on Bayesian Network and ubiquitous context scenario in the ubiquitous computing environment by using result of emotion recognition.

The design of Multi-modal system for the realization of DARC system controller (DARC 시스템 제어기 구현을 위한 멀티모달 시스템 설계)

  • 최광국;곽상훈;하얀돌이;김유진;김철;최승호
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.179-182
    • /
    • 2000
  • 본 논문은 DARC 시스템 제어기를 구현하기 위해 음성인식기와 입술인식기를 결합하여 멀티모달 시스템을 설계하였다. DARC 시스템에서 사용하고 있는 22개 단어를 DB로 구축하고, HMM을 적용하여 인식기를 설계하였다. 두 모달간 인식 확률 결합방법은 음성인식기가 입술인식기에 비해 높은 인식률을 가지고 있다는 가정 하에 8:2 비율의 가중치로 결합하였고, 결합시점은 인식 후 확률을 결합하는 방법을 적용하였다. 시스템간 인터페이스에서는 인터넷 프로토콜인 TCP/IP의 소켓을 통신모듈로 설계/구현하고, 인식실험은 테스트 DB를 이용한 방법과 5명의 화자가 실시간 실험을 통해 그 성능 평가를 하였다.

  • PDF

Implementation of Speech Recognition System for Car Navigation (차량 항법용 음성 인식 시스템 구현)

  • 김지성
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.51-54
    • /
    • 1998
  • 본 논문에서는 자동차 잡음 환경에서 녹음된 데이터 베이스를 이용하여 인식 시스템의 성능을 향상시키기 위한 효율적인 잡음 제거 방법을 연구하였다. 먼저, 잡음 및 주변 환경 변화에 강인한 것으로 알려져 있는 특징 벡터들의 인식 성능을 비교하교, 가중 켑스트랄 거리 측정 방법을 이용한 인식 실험을 통하여 시스템의 성능 향상을 확인하였다. 실험 결과, 본 논문에서 기준 시스템으로 사용한 LPC 켑스트럼의 경우에 비하여 MFCC나 root-cepstrum을 사용한 경우 인식률이 향상되었다. 켑스트럼간의 거리 측정에 있어서는 RPS와 BPL과 같은 가중 켑스트랄 거리 측정 함수들이 인식 성능 향상에 도움을 주었다. 또한 켑스트럼 평균 차감법이라는 간단한 잡음 제거기술을 적용하여 자동차 잡음 환경에서 인식 성능 향상을 보였다. 마지막으로, 차량 항법용 음성 인식 시스템의 실시간구현을 위하여 여러 경우의 인식 성능을 비교하고, 메모리 량과 실행 시간 등을 고려하여 최적 시스템을 제시하였다.

  • PDF

State-Dependent Feature-Parameter Weighting By the Contribition of the feature parameter to the performance of the Speech Recongition (음성인식에 있어서 특징 파라미터의 기여도에 기반한 상태별 특징 파라미터 가중)

  • 최환진
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.1
    • /
    • pp.39-48
    • /
    • 1998
  • 본 논문에서는 은닉 마르코프 모델에 기반한 음성인식에 있어서 특징 파라미터의 인식 성능에 미치는 영향의 차이를 인식 시스템에 반영하여 인식성능을 향상시키기 위한 방 법을 제안하였다. 특징 파라미터별 가중치를 유도하기 위해서 우선 상태별 특징 파라미터의 인식율에 대한 기여도를 가중치로 변환하고, 이를 특징 파라미터 각각의 상태에서의 출력확 률에 곱하여 상태별 출력확률을 재 추정하게 된다. 실험결과, "가변가중"방법이 "고정가중" 방법에 비해서 단어 인식의 경우 3.3%, 그리고 문장 인식율의 경우 5.3%의 성능향상을 보 임으로써 상태별 특징 파라미터의 가중이 인식 성능 향상에 유효함을 알 수 있었다.

  • PDF

Implementation of Embedded System for Multi-modal Biometric Recognition using KSOM (KSOM을 이용한 다중생체 인식시스템에 관한 연구)

  • Kim, Jae-Wan;Lee, Sang-Bae
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2006.11a
    • /
    • pp.91-94
    • /
    • 2006
  • 본 논문은 생체인식시스템에서 단일시스템의 각각의 특징을 바탕으로 신뢰성을 증가시키는 것에 있다. 간단하면서 높은 인식률을 가지는 지문과 개개인의 음성을 다중생체인식에 활용하여 다중생체인식 시스템을 구현 하였다. 화자인식부에서는 DSP를 이용하여 화자인식을 수행하고, 이후 지문인식부에서 지문 특징점을 추출하여 KSOM신경망 알고리즘을 이용하여 인식을 수행하였다. 그리고 각 인식부의 전체적인 제어는 ATmega16L을 사용하였다. 또한 인증결과를 PC에 MFC로 디스플레이 한다.

  • PDF

Cyber Threats Analysis of AI Voice Recognition-based Services with Automatic Speaker Verification (화자식별 기반의 AI 음성인식 서비스에 대한 사이버 위협 분석)

  • Hong, Chunho;Cho, Youngho
    • Journal of Internet Computing and Services
    • /
    • v.22 no.6
    • /
    • pp.33-40
    • /
    • 2021
  • Automatic Speech Recognition(ASR) is a technology that analyzes human speech sound into speech signals and then automatically converts them into character strings that can be understandable by human. Speech recognition technology has evolved from the basic level of recognizing a single word to the advanced level of recognizing sentences consisting of multiple words. In real-time voice conversation, the high recognition rate improves the convenience of natural information delivery and expands the scope of voice-based applications. On the other hand, with the active application of speech recognition technology, concerns about related cyber attacks and threats are also increasing. According to the existing studies, researches on the technology development itself, such as the design of the Automatic Speaker Verification(ASV) technique and improvement of accuracy, are being actively conducted. However, there are not many analysis studies of attacks and threats in depth and variety. In this study, we propose a cyber attack model that bypasses voice authentication by simply manipulating voice frequency and voice speed for AI voice recognition service equipped with automated identification technology and analyze cyber threats by conducting extensive experiments on the automated identification system of commercial smartphones. Through this, we intend to inform the seriousness of the related cyber threats and raise interests in research on effective countermeasures.

A Study on the Automatic Recognition of Korean Basic Spoken Digit Using Energy of Special Bandwidth (특정 대역 에너지를 이용한 한국어 기본 수자 음성의 백동 인식에 관한 연구)

  • Han, Hee;Kim, Soon-Hyob;Park, Kyu-Tae
    • Journal of the Korean Institute of Telematics and Electronics
    • /
    • v.19 no.3
    • /
    • pp.5-12
    • /
    • 1982
  • Through the use of energy ratio of special bandwidths of basic vowels, recognition of Korean basic spoken digit is performed in logical combination with a zero-crossing rate and an energy parameter. In the experiments for recognition of the digits, the speech signal of spoken digits is filtered by a lowpass filter of which the cutoff frequency is 10KHz, and then sampled at 20KHz of sampling rate, In the speech signal processing, we used four FIR digital filters, and the order of filter lengths is 61, 120, 25, 25respectively. The filters are designed by using Remetz exchange algorithm.[13],[14] As a result, the recognition rate of 92% for the three speakers is obstained.

  • PDF

LSTM RNN-based Korean Speech Recognition System Using CTC (CTC를 이용한 LSTM RNN 기반 한국어 음성인식 시스템)

  • Lee, Donghyun;Lim, Minkyu;Park, Hosung;Kim, Ji-Hwan
    • Journal of Digital Contents Society
    • /
    • v.18 no.1
    • /
    • pp.93-99
    • /
    • 2017
  • A hybrid approach using Long Short Term Memory (LSTM) Recurrent Neural Network (RNN) has showed great improvement in speech recognition accuracy. For training acoustic model based on hybrid approach, it requires forced alignment of HMM state sequence from Gaussian Mixture Model (GMM)-Hidden Markov Model (HMM). However, high computation time for training GMM-HMM is required. This paper proposes an end-to-end approach for LSTM RNN-based Korean speech recognition to improve learning speed. A Connectionist Temporal Classification (CTC) algorithm is proposed to implement this approach. The proposed method showed almost equal performance in recognition rate, while the learning speed is 1.27 times faster.

A study on creating Reference Pattern of speech by using the cluster (집단화를 이용한 음성의 표준 패턴설정에 관한 연구)

  • 김계국
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1985.10a
    • /
    • pp.59-63
    • /
    • 1985
  • 불특정 화자의 음성인식을 위해 150 숫자음에 대하여 10개의 표준패턴을 설정하는데 목적을 두고 기술했다. 남성화자 3인이 각숫자음(0-9)를 5번씩 반복 발음한 150음을 지단화하여 숫자음의 표준패턴을 설정하였다. 특징 파라미터는 포르만트 주파수를 이용하였고 유크리드 거리 측정법을 유사도 비교에 사용하였다. 실험결과 85.3%의 인식률을 얻었다.

  • PDF

Multi-channel input-based non-stationary noise cenceller for mobile devices (이동형 단말기를 위한 다채널 입력 기반 비정상성 잡음 제거기)

  • Jeong, Sang-Bae;Lee, Sung-Doke
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.17 no.7
    • /
    • pp.945-951
    • /
    • 2007
  • Noise cancellation is essential for the devices which use speech as an interface. In real environments, speech quality and recognition rates are degraded by the auditive noises coming near the microphone. In this paper, we propose a noise cancellation algorithm using stereo microphones basically. The advantage of the use of multiple microphones is that the direction information of the target source could be applied. The proposed noise canceller is based on the Wiener filter. To estimate the filter, noise and target speech frequency responses should be known and they are estimated by the spectral classification in the frequency domain. The performance of the proposed algorithm is compared with that of the well-known Frost algorithm and the generalized sidelobe canceller (GSC) with an adaptation mode controller (AMC). As performance measures, the perceptual evaluation of speech quality (PESQ), which is the most widely used among various objective speech quality methods, and speech recognition rates are adopted.