• Title/Summary/Keyword: Telephone speech recognition

Search Result 62, Processing Time 0.017 seconds

A Study on Speaker Recognition Algorithm Through Wire/Wireless Telephone (유무선 전화를 통한 화자인식 알고리즘에 관한 연구)

  • 김정호;정희석;강철호;김선희
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.3
    • /
    • pp.182-187
    • /
    • 2003
  • In this thesis, we propose the algorithm to improve the performance of speaker verification that is mapping feature parameters by using RBF neural network. There is a big difference between wire vector region and wireless one which comes from the same speaker. For wire/wireless speakers model production, speaker verification system should distinguish the wire/wireless channel that based on speech recognition system. And the feature vector of untrained channel models is mapped to the feature vector(LPC Cepstrum) of trained channel model by using RBF neural network. As a simulation result, the proposed algorithm makes 0.6%∼10.5% performance improvement compared to conventional method such as cepstral mean subtraction.

The Effect of the Telephone Channel to the Performance of the Speaker Verification System (전화선 채널이 화자확인 시스템의 성능에 미치는 영향)

  • 조태현;김유진;이재영;정재호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.5
    • /
    • pp.12-20
    • /
    • 1999
  • In this paper, we compared speaker verification performance of the speech data collected in clean environment and in channel environment. For the improvement of the performance of speaker verification gathered in channel, we have studied on the efficient feature parameters in channel environment and on the preprocessing. Speech DB for experiment is consisted of Korean doublet of numbers, considering the text-prompted system. Speech features including LPCC(Linear Predictive Cepstral Coefficient), MFCC(Mel Frequency Cepstral Coefficient), PLP(Perceptually Linear Prediction), LSP(Line Spectrum Pair) are analyzed. Also, the preprocessing of filtering to remove channel noise is studied. To remove or compensate for the channel effect from the extracted features, cepstral weighting, CMS(Cepstral Mean Subtraction), RASTA(RelAtive SpecTrAl) are applied. Also by presenting the speech recognition performance on each features and the processing, we compared speech recognition performance and speaker verification performance. For the evaluation of the applied speech features and processing methods, HTK(HMM Tool Kit) 2.0 is used. Giving different threshold according to male or female speaker, we compare EER(Equal Error Rate) on the clean speech data and channel data. Our simulation results show that, removing low band and high band channel noise by applying band pass filter(150~3800Hz) in preprocessing procedure, and extracting MFCC from the filtered speech, the best speaker verification performance was achieved from the view point of EER measurement.

  • PDF

Study on the Situational satisfaction survey of Smart Phone based on voice recognition technology (스마트 폰 음성 인식 서비스의 상황별 만족도 조사)

  • Lee, Yoon-jeong;Kim, Seung-In
    • Journal of Digital Convergence
    • /
    • v.15 no.8
    • /
    • pp.351-357
    • /
    • 2017
  • The purpose of this study is to analyze the relationship between users' expectation and satisfaction through analyzing smart phone voice recognition service and surveying the situational satisfaction of voice recognition service. First, the concept and current status of speech recognition service were investigated through literature research, and the questionnaire survey was carried out through questionnaires based on the second and third principles. As a result, the user is most likely to use the smartphone voice recognition service when making a telephone call. Also, it was found that the service is the most used at home and the service is used most when the hand is not available. Through these results, various methods such as personalization service, condition recognition function, automatic emergency recognition, unlocking by voice could be derived. Based on this research, it is expected that it will be used effectively for improving smartphone voice recognition service and developing wearable device in the future.

Formant-broadened CMS Using the Log-spectrum Transformed from the Cepstrum (켑스트럼으로부터 변환된 로그 스펙트럼을 이용한 포먼트 평활화 켑스트럴 평균 차감법)

  • 김유진;정혜경;정재호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.4
    • /
    • pp.361-373
    • /
    • 2002
  • In this paper, we propose a channel normalization method to improve the performance of CMS (cepstral mean subtraction) which is widely adopted to normalize a channel variation for speech and speaker recognition. CMS which estimates the channel effects by averaging long-term cepstrum has a weak point that the estimated channel is biased by the formants of voiced speech which include a useful speech information. The proposed Formant-broadened Cepstral Mean Subtraction (FBCMS) is based on the facts that the formants can be found easily in log spectrum which is transformed from the cepstrum by fourier transform and the formants correspond to the dominant poles of all-pole model which is usually modeled vocal tract. The FBCMS evaluates only poles to be broadened from the log spectrum without polynomial factorization and makes a formant-broadened cepstrum by broadening the bandwidths of formant poles. We can estimate the channel cepstrum effectively by averaging formant-broadened cepstral coefficients. We performed the experiments to compare FBCMS with CMS, PFCMS using 4 simulated telephone channels. In the experiment of channel estimation, we evaluated the distance cepstrum of real channel from the cepstrum of estimated channel and found that we were able to get the mean cepstrum closer to the channel cepstrum due to an softening the bias of mean cepstrum to speech. In the experiment of text-independent speaker identification, we showed the result that the proposed method was superior than the conventional CMS and comparable to the pole-filtered CMS. Consequently, we showed the proposed method was efficiently able to normalize the channel variation based on the conventional CMS.

Comparison of Feature Extraction Methods for the Telephone Speech Recognition (전화 음성 인식을 위한 특징 추출 방법 비교)

  • 전원석;신원호;김원구;이충용;윤대희
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.7
    • /
    • pp.42-49
    • /
    • 1998
  • 본 논문에서는 전화망 환경에서 음성 인식 성능을 개선하기 위한 특징 벡터 추출 단계에서의 처리 방법들을 연구하였다. 먼저, 고립 단어 인식 시스템에서 채널 왜곡 보상 방 법들을 단어 모델과 문맥 독립 음소 모델에 대하여 인식 실험을 하였다. 켑스트럼 평균 차 감법, RASTA 처리, 켑스트럼-시간 행렬을 실험하였으며, 인식 모델에 따른 각 알고리즘의 성능을 비교하였다. 둘째로, 문맥 독립 음소 모델을 이용한 인식 시스템의 성능 향상을 위하 여 정적 특징 벡터에 대하여 주성분 분석 방법(principal component analysis)과 선형 판별 분석(linear discriminant analysis)과 같은 선형 변환 방법을 적용하여 분별력이 높은 벡터 공간으로 변환함으로써 인식 성능을 향상시켰다. 또한 선형 변환 방법을 켑스트럼 평균 차 감법과 결합하여 더욱 뛰어난 성능을 보여주었다.

  • PDF

A Development of CDMA based Robot Remote Controller (CDMA 음성 통신 및 데이터 통신을 이용한 로봇 원격제어기 개발)

  • Kim, Woo-Sik;Yoon, Su-Jeong;Kim, Eung-Seok
    • Proceedings of the KIEE Conference
    • /
    • 2005.07d
    • /
    • pp.2762-2764
    • /
    • 2005
  • In this paper, we study the robot controller design using the voice and data communication via CDMA(Code Division Multiple Access) mobile communication network. We design the robot remote controller using the three methods, telephone call speech recognition, DTMF (Dual Tone Multiple Frequency) realization, SMS(Short Message Service) transmission/reception way via CDMA mobile communication network. We investigate the validity and effectiveness of the proposed remote controller which applied to the mobile robot.

  • PDF

A Korean Large Vocabulary Speech Recognition System for Automatic Telephone Number Query Service (자동 전화번호 안내를 위한 한국어 대용량 음성 인식 시스템)

  • 구준모;김형순;은종관
    • The Journal of the Acoustical Society of Korea
    • /
    • v.11 no.1E
    • /
    • pp.86-97
    • /
    • 1992
  • 인식어휘수가 1160단어이며 자동 전화번호 안내에 사용될 수 있는 한국어 대용량 음성 인식 시 스템에 관하여 소개하였다. 이 시스템은 네 개의 부시스템으로 구성되어 있다. 첫 번째는 HMM 방식으 로 입력음성중의 단어를 인식하는 처리부에서 인식할 어휘를 제한하므로써 인식시간을 감축시켜 주는 인식 시간 감축부이다. 이 부시스템은 언어학적 정보뿐만 아니라 음향학적 정보도 이용한다. 마지막은 음성인식 시스템의 파라미터를 새로운 화자의 음성에 신속하게 적응시켜 주는 화자적응부이다. 마지막 부시스템은 VQ 적응방식과 스펙트럼 mapping 방식에 근거한 HMM 파라미터 적응방식을 이용한다. 또 한, 본 논문에서는 대용량 음성인식 시스템의 성능을 향상시키기 위한 최근의 연구결과들에 관하여 살 펴보았다. 이 연구들은 화자 독립 음성인식을 위한 음향학적 처리부와 인식 시간 감축부의 성능향상에 초점이 맞추어져 있다. 마지막으로 화자적응을 위한 새로운 연구결과라도 기술하였다.

  • PDF

Noise Processing for Speech Recognition in the Telephone Line (음성 인식을 위한 전화망에서의 잡음처리)

  • 전원석;신원호;양태영;김원구;윤대희
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.1
    • /
    • pp.4-8
    • /
    • 1998
  • 본 논문에서는 다양한 전화선 채널을 통하여 수집된 음성 데이터에 포함된 잡음 및 채널 왜곡을 제거하여 음성인식 시스템의 성능을 향상시키는 방법에 관하여 연구하였다. 전 화선을 통과한 음성에 포함된 채널 잡음 및 왜곡을 제거하는 방법으로는 음성신호를 보상하 는 방법으로 CMS(Cepstral Mean Subtraction), SBR(Signal Bias Removal)과 SM(Stochastic Matching)의 성능을 비교 평가하였다. 잡음제거 방식의 성능을 평가를 위하 여 음소 단위의 반연속 HMM을 이용한 화자독립 단독음 인식을 수행하였다. 인식 실험 결 과, 멜 켑스트럼을 사용한 경우에 CMS가 가장 우수한 성능을 내었고 다음으로 SM과 SBR 순으로 나타났다. 또한 특징벡터를 주변 잡음에 강인하게 하는 가중함수(RPS, BPL)를 사용 한 켑스트럼 계수와 잡음제거 방식을 함께 사용한 경우에 인식 성능이 더욱 향상되었다.

  • PDF

Performance Evaluation of Telephone Continuous Digit Recognition (전화망 환경에서의 연속숫자음 인식 성능평가)

  • Kim SungTak;Kim SangJin;Jung Hoyoung;Kim Hoirin;Hahn Minsoo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.253-256
    • /
    • 2002
  • 한국어 숫자는 단음절로 이루어져 있고, 연속적으로 발음할 때 조음현상에 의해 발음이 심하게 변하고, 숫자간의 경계를 규정하기가 어려워진다. 특히 잡음환경에서는 한국어의 무성음인 자음구간의 주파수 특징이 많이 왜곡되어 성능이 저하된다. 본 논문에서는 전화망에서의 고성능 연속숫자음 인식기 개발을 위하여 그 첫 단계로서 다양한 조건에서 MFCC 특징계수를 구하는 방법들과 문맥독립 및 문맥종속 HMM의 상태수 및 각 상태에서의 mixture 수 변화에 대한 성능을 분석해본다. 음향모델로는 문맥독립 모델인 음소와 문맥종속 모델인 triphone 모델을 모두 평가하였다.

  • PDF

A Study on the Performance Improvement of Connected Digit Telephone Speech Recognition (연속 숫자음 전화음성의 인식 성능 향상에 관한 연구)

  • Kim Min Sung;Jung Sung Yun;Son Jong Mok;Bae Keun Sung
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.143-146
    • /
    • 2002
  • 전화음성의 경우 전화 회선의 채널 대역폭 제한과 통화로 형성시 달라지는 채널의 특성으로 인하여 마이크 음성에 비하여 인식 성능이 많이 저하된다. 본 연구에서는 연속 숫자음 전화음성의 인식율 향상을 위해 채널 왜곡 보상 기법들을 적용하고, HTK 기반의 인식 실험을 통해 보상 기법에 따른 인식 성능을 비교하였다. 채널 왜곡 보상 기법으로 CMN, RASTA, RTCN 등을 적용하고, 각 보상 기법에 따라 HMM의 state 수, mixture 수를 바꾸어 가며 인식 실험한 결과를 제시한다.

  • PDF