• Title/Summary/Keyword: 음성 인식 후처리

Search Result 131, Processing Time 0.025 seconds

A Study of Telephone Digit Recognition Using CHMM (CHMM을 이용한 전화번호 인식에 관한 연구)

  • 이성권
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.31-34
    • /
    • 1998
  • 본 연구는 음소 단위의 CHMM을 이용한 연속어 숫자음 인식에 관한 내용이다. ETRI 445 데이터를 사용하여 초기의 모델은 ML 추정법을 이용하여 작성하였고 적응화를 위해 최대 사후 확률 추정법을 사용하였다. 또한 한국어 숫자음 음성의 음향학적 특성을 고려하여 발성 사전을 작성하였고 음절 다누이로 되어있는 한국어 숫자음의 모든 경우를 고려하여 복수개의 단어를 사전에 등록하였다. 또한 적응화 학습에 있어서 숫자음의 앞 뒤 모든 경우를 고려하여 작성한 21 종류의 7자리 전화번호 숫자음 DB로 사용하였고 이의 효율성을 입증하기 위하여 ETRI에서 작성한 35종류의 4연속 숫자음 목록을 대상으로 인식실험을 수행하였다. 그 결과 5인의 화자에 대하여 4연속 숫자음에 대하여 96%의 인식률을 보이고 있으며 7연속 숫자음에 대하여도 약 91%의 결과를 보여주고 있다. 또한 후처리를 두어 연음 현상으로 인한 오인식의 경우에 대해서도 약 2%의 인식률의 증가를 보여주었다.

  • PDF

A Study on the Speech Signal Processing for Cochlear Implant using the PLP Analysis (청각보철을 위한 PLP방식의 음성신호처리에 관한 연구)

  • Kim, Young-Sun;Choi, Doo-Il;Park, Sang-Hui;Beack, Seung-Hwa
    • Proceedings of the KOSOMBE Conference
    • /
    • v.1992 no.05
    • /
    • pp.167-170
    • /
    • 1992
  • 본 논문에서는 감각성 난청자들이 정상인들과 유사한 음성 인식을 하도록 청각 보철 기기를 구성하였다. 음성의 포먼트를 추출하기 위해서는 PLP(Perceptual Linear Prediction) 방식을 이용하였으며, pitch 추출을 위해서는 3 단계 클리핑 함수를 이용한 자기 상관법을 이용하였다. 또한 다중 채널 - 다중 전극 방식을 이용하여 내이의 헤어셀에 17 개의 전극을 삽입하여 신호를 가하는 시뮬레이션을 하였다. 실험에 사용한 데이타는 모음 /a/, /e/, /i/, /o/, /u/로 전모음과 후모음의 차이를 구별하였으며 두번째 포먼트의 변화와 포먼트 통합 이론에 대한 검증을 하였다.

  • PDF

ICLAL: In-Context Learning-Based Audio-Language Multi-Modal Deep Learning Models (ICLAL: 인 컨텍스트 러닝 기반 오디오-언어 멀티 모달 딥러닝 모델)

  • Jun Yeong Park;Jinyoung Yeo;Go-Eun Lee;Chang Hwan Choi;Sang-Il Choi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.514-517
    • /
    • 2023
  • 본 연구는 인 컨택스트 러닝 (In-Context Learning)을 오디오-언어 작업에 적용하기 위한 멀티모달 (Multi-Modal) 딥러닝 모델을 다룬다. 해당 모델을 통해 학습 단계에서 오디오와 텍스트의 소통 가능한 형태의 표현 (Representation)을 학습하고 여러가지 오디오-텍스트 작업을 수행할 수 있는 멀티모달 딥러닝 모델을 개발하는 것이 본 연구의 목적이다. 모델은 오디오 인코더와 언어 인코더가 연결된 구조를 가지고 있으며, 언어 모델은 6.7B, 30B 의 파라미터 수를 가진 자동회귀 (Autoregressive) 대형 언어 모델 (Large Language Model)을 사용한다 오디오 인코더는 자기지도학습 (Self-Supervised Learning)을 기반으로 사전학습 된 오디오 특징 추출 모델이다. 언어모델이 상대적으로 대용량이기 언어모델의 파라미터를 고정하고 오디오 인코더의 파라미터만 업데이트하는 프로즌 (Frozen) 방법으로 학습한다. 학습을 위한 과제는 음성인식 (Automatic Speech Recognition)과 요약 (Abstractive Summarization) 이다. 학습을 마친 후 질의응답 (Question Answering) 작업으로 테스트를 진행했다. 그 결과, 정답 문장을 생성하기 위해서는 추가적인 학습이 필요한 것으로 보였으나, 음성인식으로 사전학습 한 모델의 경우 정답과 유사한 키워드를 사용하는 문법적으로 올바른 문장을 생성함을 확인했다.

Speech Interface with Echo Canceller and Barge- In Functionality for Telematic System (텔레매틱스 시스템을 위한 반향제거 및 Barge-In 기능을 갖는 음성인터페이스)

  • Kim, Jun;Bae, Keun-Sung
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.5
    • /
    • pp.483-490
    • /
    • 2009
  • In this paper, we develop a speech interface that has acoustic echo cancelling and barge-in functionalities in the car environment. In the echo canceller, DT (Double-Talk) detection algorithm using the correlation coefficients between reference and desired signals can make DT detection errors often in the background noise. We reduce the DT detection errors by using the average power of noise and echo estimated from the input signal. In addition, to make it possible for drivers to give speech command to the system by interrupting the speaker output, barge-in functionality is implemented with the combination of DT detection and appropriate gain control of the speaker output. Through the computer simulation with the assumed car environment and experiment in the real laboratory environment, implemented speech interface has shown good performance in removing acoustic echo signals in the noisy environment with proper operation of barge-in functionality.

Robust Blind Source Separation to Noisy Environment For Speech Recognition in Car (차량용 음성인식을 위한 주변잡음에 강건한 브라인드 음원분리)

  • Kim, Hyun-Tae;Park, Jang-Sik
    • The Journal of the Korea Contents Association
    • /
    • v.6 no.12
    • /
    • pp.89-95
    • /
    • 2006
  • The performance of blind source separation(BSS) using independent component analysis (ICA) declines significantly in a reverberant environment. A post-processing method proposed in this paper was designed to remove the residual component precisely. The proposed method used modified NLMS(normalized least mean square) filter in frequency domain, to estimate cross-talk path that causes residual cross-talk components. Residual cross-talk components in one channel is correspond to direct components in another channel. Therefore, we can estimate cross-talk path using another channel input signals from adaptive filter. Step size is normalized by input signal power in conventional NLMS filter, but it is normalized by sum of input signal power and error signal power in modified NLMS filter. By using this method, we can prevent misadjustment of filter weights. The estimated residual cross-talk components are subtracted by non-stationary spectral subtraction. The computer simulation results using speech signals show that the proposed method improves the noise reduction ratio(NRR) by approximately 3dB on conventional FDICA.

  • PDF

A Robust Speaker Identification Method Based on the Wavelet Filter Banks (웨이블렛 필터뱅크에 기반을 둔 강인한 화자식별 기법)

  • Lee, Dae-Jong;Gwak, Geun-Chang;Yu, Jeong-Ung;Jeon, Myeong-Geun
    • The KIPS Transactions:PartC
    • /
    • v.9C no.4
    • /
    • pp.459-466
    • /
    • 2002
  • This paper proposes a robust speaker identification algorithm based on the wavelet filter banks and multiple decision-making scheme. Since the proposed speaker identification algorithm has a structure performing the identification algorithm independently for each subband, the noise effect of an subband can be localized. Through this process, we can obtain more robust results for the environmental noises which generally have band limited frequency. In the experiments, the proposed method showed more 15∼60% improvement than the vector quantization method for the various noisy environments.

NUI LMS using Webcam & Mic (Natural User Interface Learning Method System) (음성인식과 안면인식을 활용한 NUI LMS)

  • Gu, Seong-mo;Ahn, In-kun;Lee, Ji-hoon;Moon, Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.552-555
    • /
    • 2020
  • 최근 코로나 관련 온라인 강의가 늘어남에 따라 적은 도구를 이용한 온라인과 오프라인 강의의 장점은 부각, 단점은 보완한 새로운 LMS가 필요함. 웹캠과 마이크를 이용하여 수강자의 수강태도를 파악 후, 수강자의 수업태도를 향상시키는 시스템임.

Subway Guidance System for the Visually Impaired Using Object Recognition (객체 인식을 활용한 시각장애인용 지하철 길 안내 시스템)

  • Yoon, Sungchul;Park, Jonghuyk;Han, Yunwon;Joo, Sehwan;Kim, Sung Wan;Kim, Jongdeug
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.1278-1281
    • /
    • 2021
  • 본 논문에서는 시각장애인들의 지하철 이용의 불편함을 최소화할 수 있는 내비게이션 앱을 개발하였다. 스마트폰 카메라가 전방을 인식하여 사물을 판단 후 장애물 혹은 위험요소를 사용자에게 음성으로 전달한다. 또한, 사용자의 원활한 지하철 이용을 위해 공공데이터를 활용하여 지하철 환승 정보, 화장실, 출구 정보 등의 이동 편의를 위한 실질적인 정보를 제공한다. 시각장애인은 본 앱을 활용하여 지하철을 더욱 편하고 안전하게 이용할 수 있다.

Design of a control device for the blind to recognize household medicines (시각장애인을 위한 물품인식 제어장치의 설계와 제어방법에 관한 연구)

  • Kyung-Duk Seo;Kwang-Jin Ahn;Ji-Yun Ahn;Kyung-Wook Ha
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.972-973
    • /
    • 2023
  • 2022년 등록된 장애인은 265만 3,000명으로 전체 인구 대비 5.2%를 기록했으며, 그중 시각장애인은 9.5%에 해당한다. 그들은 여가문화 활동, 대중교통 이용, 무인기 이용에 어려운 점이 있듯이 일상생활에 많은 불편한 점이 있다. 특히 제품의 미비한 점자 시스템으로 인한 문제점을 해결하기 위해 '물품인식 제어장치'를 고안했으며, 제품의 바코드를 스캔한 후 제품에 대한 정보를 점자로 출력과 동시에 음성으로 출력하여 시각장애인에게 올바른 정보를 제공한다.

A Study of Phoneme Modeling for Improvement of Automatic Segmentation Performance (자동 음소 분할 성능 개선을 위한 음소 모델링에 관한 연구)

  • Park Hae Young;Kim Hyung Soon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.175-178
    • /
    • 2002
  • 본 논문에서는 Hidden Markov Model(HMM)을 이용하여 corpus 기반 TTS에 사용할 DB를 자동 음소 분할 해주는 시스템을 구현하였다. HMM을 이용해서 음소 분할 할 경우 HMM을 모델링 하는 방법에 따라 많은 성능의 차이가 난다. 따라서 본 논문에서는 HMM 모델링 방법에 따른 몇 가지 실험 및 성능 평가를 하였다. 실험 결과 음성 인식과는 달리 HMM모델링 시 triphone 모델보다 monophone 모델의 성능이 더 우수하였으며, 에너지 기반의 후처리를 통해 성능 향상을 얻을 수 있었다.

  • PDF