• Title, Summary, Keyword: 음성 인식

Search Result 2,265, Processing Time 0.062 seconds

Implementation of Automatic Test System for Voice Recognition (음성인식 자동시험장치 개발)

  • 김희경
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • /
    • pp.219-222
    • /
    • 1998
  • 음성인식시험은 다양한 사용자의 음성을 입력으로 음성인식을 수행하고 그 결과를 이용하여 시스팀의 성능을 평가하거나, 음성의 특징을 파악하기 위한 중요한 기능으로 음성인식 서비스의 질을 향상시키기 위한 필수적인 요소이다. 본 논문에서 제시하는 음성인식 자동시험장치는 음성인식의 결과를 DTMF 신호로 처리하도록 하여 사람의 개입 없이 빠르고 정확한 결과를 통해 인식율, 인식속도 등 인식기술과 관련된 중요한 정보를 얻을 수 있도록 하였다. 본 논문에서는 한국통신의 기업체 음성다이얼서비스의 음성인식시험을 중심으로 음성인식 자동시험장치의 구성 및 기능에 대해서 설명한다.

  • PDF

Emotion Recognition using Speech Recognition Information (음성 인식 정보를 사용한 감정 인식)

  • Kim, Won-Gu
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • /
    • pp.425-428
    • /
    • 2008
  • 본 논문은 음성을 사용한 인간의 감정 인식 시스템의 성능을 향상시키기 위하여 감정 변화에 강인한 음성 인식 시스템과 결합된 감정 인식 시스템에 관하여 연구하였다. 이를 위하여 우선 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정 변화가 음성 인식 시스템의 성능에 미치는 영향에 관한 연구와 감정 변화의 영향을 적게 받는 음성 인식 시스템을 구현하였다. 감정 인식은 음성 인식의 결과에 따라 입력 문장에 대한 각각의 감정 모델을 비교하여 입력 음성에 대한 최종 감정 인식을 수행한다. 실험 결과에서 강인한 음성 인식 시스템은 음성 파라메터로 RASTA 멜 켑스트럼과 델타 켑스트럼을 사용하고 신호편의 제거 방법으로 CMS를 사용한 HMM 기반의 화자독립 단어 인식기를 사용하였다. 이러한 음성 인식기와 결합된 감정 인식을 수행한 결과 감정 인식기만을 사용한 경우보다 좋은 성능을 나타내었다.

  • PDF

Bi-modal speech recognition in noisy environments (잡음환경에서의 바이모달 음성인식)

  • 박병구
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • /
    • pp.111-114
    • /
    • 1998
  • 기존의 음성인식시스템의 잡음환경에서 인식률의 한계를 극복하기 위해 음성신호뿐만이 아니라 입술정보를 결합하여 음성인식에 이용하여 바이모달(Bi-modal) 음성인식이 근래에 제안되어지고 있다. 그래서 바이모달 음성인식 시스템을 실제로 구현해보고 인식 실험을 수행해 보았다. 입술영상은 이미지에 근거한 입술모양을 파라메터화하여 인식실험에 사용하였으며 음성과 입술영상을 각각 인식한 후 인식스코어(Score)에 가중치를 적용하여 통합하는 방법을 사용하였다. 마지막으로 바이모달 음성인식의 잡음환경에서의 성능을 알아보기 위해 음성신호에 여러 레벨의 잡음을 섞어서 실험을 하고 잡음환경에서 인식률의 한계를 입술정보를 이용하여 극복할 수 있다는 것을 보이고자 한다.

  • PDF

A Study on the Rejection Capability based on Utterance Verification for Speech Recognition (발화 검증에 의한 음성인식 거절기능 연구)

  • 김우성
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • /
    • pp.67-70
    • /
    • 1998
  • 본 논문에서는 단어독립 음성인식 시스템을 위한 음성인식 거절(rejection)기능에 대해 기술한다. 음성인식 거절 기능은 음성인식기를 제작할 때 정해놓은 인식대상 단어 이외의 단어가 입력되었을 때 그 단어가 인식할 수 없는 단어임을 알려주는 기능이다. 본 연구에서는 단어독립 음성인식 시스템에 적용될 수 있는 발화 검증 방식에 의해 음성인식 거절 기능을 구현하였다. 특히 유사도를 결정함에 있어서 산술평균, 기하평균, 조화평균을 사용하고 각각을 비교하여, 기하 평균을 사용하는 방식이 우수한 성능을 보임을 알 수 있었다. 음성의 신뢰도(confidence score)를 정규화하기 위해서 Sigmoid 함수를 사용하는데 이 함수의 가중치(weight) 상수의 변화에 대해 인식률을 비교함으로써 가장 적절한 가중치 상수값을 결정하였다. 음성인식 테스트 결과에서는 신뢰도 임계치 값을 구하고 이 값을 사용하여 인식률을 계산하였으며, 거절의 오류까지 포함된 음성인식률은 약 76%였다. 이 연구결과는 현재 한국통신에서 시험 서비스 중인 음성인식 증권정보 안내 시스템에 적용될 예정이다.

  • PDF

Compensation Method for Improvement of Speech Recognition in Wireless Communication Network (무선 통신망에서 음성인식률 개선을 위한 보상기법 연구)

  • Seo Jin-Ho;Park Ho-Chong
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • /
    • pp.65-68
    • /
    • 2004
  • 이동통신 기술의 발전으로 이동통신 사용이 폭발적으로 증가하였고 그에 따라 이동통신망을 이용한 많은 서비스가 제공되고 있다. 이동통신망에서의 음성 인식 서비스에서 음성 인식기에 입력되는 음성신호는 통신망을 통해 음성 압축기를 거치게 되고 이에 음성신호가 왜곡되어 인식기의 인식성능이 저하된다. 본 논문에서는 무선통신 환경에서 음성인식기의 성능을 개선하기 위한 보상 방법을 제안한다. 기존의 제안된 방법은 음성 데이터에 의존하는 방법을 사용하나 본 논문에서는 음성 데이터와는 독립적 방법인 음성 압축기에 의해 손상된 입력 신호의 스펙트럼 보상방법과 Cepstrum 보정방법을 통해 인식률을 향상시키는 방법을 제안한다. 즉, 음성 압축기에 의하여 왜곡된 스펙트럼을 단계적 방법으로 보상하고 그를 토대로 왜곡된 신호에서 만들어진 Cepstrum을 보정하여 음성 인식기의 성능을 향상시키는 방법을 연구하였으며, 그 견과 손상된 음성신호의 인식률 $64.88\%$에 대하여, 본 논문에서 제안하는 보상 방법을 적용한 음성신호의 인식률은 $79.73\%$로서 $14.85\%$가 향상된 결과를 얻을 수 있었다.

  • PDF

음성인식

  • 김형순
    • Proceedings of the KSPS conference
    • /
    • /
    • pp.156-165
    • /
    • 1994
  • 반도체 및 컴퓨터 응용기술 등의 급속한 발전과 더불어 인간의 가장 자연스러운 의사 전달수단인 음성을 인간과 기계 사이의 의사소통의 매개체로 사용하기 위한 음성인식기술에 관한 연구가 활발히 진행되고 있으며, 일부 상품화된 음성인식 시스템들이 다양한 응용분야에 걸쳐 등장하고 있다. 본 고에서는 지금까지 개발되어온 음성인식기술의 방법론 및 기술적으로 해결해야 할 과제들을 살펴보고, 음성인식기술에 관한 국내외 연구동향과 음성인식의 응용분야, 그리고 앞으로의 전망에 대해 논의한다. 이 과정에서 음성학 및 언어학적 지식이 음성인식에서 차지하는 중요성에 대해서도 일부 언급한다.

  • PDF

Emotion Recognition using Robust Speech Recognition System (강인한 음성 인식 시스템을 사용한 감정 인식)

  • Kim, Weon-Goo
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.5
    • /
    • pp.586-591
    • /
    • 2008
  • This paper studied the emotion recognition system combined with robust speech recognition system in order to improve the performance of emotion recognition system. For this purpose, the effect of emotional variation on the speech recognition system and robust feature parameters of speech recognition system were studied using speech database containing various emotions. Final emotion recognition is processed using the input utterance and its emotional model according to the result of speech recognition. In the experiment, robust speech recognition system is HMM based speaker independent word recognizer using RASTA mel-cepstral coefficient and its derivatives and cepstral mean subtraction(CMS) as a signal bias removal. Experimental results showed that emotion recognizer combined with speech recognition system showed better performance than emotion recognizer alone.

Performance Analysis of Speech Recognition in Communication Systems using Speech Coder (음성 압축기를 사용한 통신 시스템에서의 음성 인식 성능 분석)

  • Han Sang-Wook;Jung Heui Suck;Park Hochong
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • /
    • pp.179-182
    • /
    • 2002
  • 본 논문에서는 음성 압축기를 사용하는 디지털 이동통신 환경에서 한글 음성 인식기의 성능을 분석하기 위하여 다양한 표준 음성 압축기를 이용하여 음성 압축기의 구조, 전송률, 전송 채널의 에러율에 대한 성능을 측정하여 비교하였다. 동일한 구조의 음성 압축기에 대하여 전송률의 증가에 따라 음성 인식률이 증가하지만, 음성 압축기의 구조에 따라 동일 전송률에서도 많은 성능 차이가 발생하는 것을 확인하였다. 특히 IS-127 EVRC의 인식 성능이 매우 떨어지는 것을 알 수 있고, EVRC의 잡음 제거기와 가변 전송률에 의하여 음성 인식 성능이 저하되는 것을 확인하였다. 이를 통하여 청취 음질과 음성 인식 성능 사이의 상관 관계가 높지 않는 것을 알 수 있다. 모든 음성 압축기에 대하여 채널 에러율과 음성 인식기의 성능은 매우 밀접한 관계가 있음을 확인하였고, 평균적으로 채널 에러율 $1.0\%$에서 인식률이 $0.6\%$ 감소하고, 에러 $5.0\%$에서 인식률이 $1.8\%$ 감소한다.

  • PDF

Performance Evaluation of Large Vocabulary Continuous Speech Recognition System (대어휘 연속음성 인식 시스템의 성능평가)

  • Kim Joo-Gon;Chung Hyun-Yeol
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • /
    • pp.99-102
    • /
    • 2002
  • 본 논문에서는 한국어 대어휘 연속음성 인식 시스템의 성능향상을 위하여 Multi-Pass 탐색 방법을 도입하고, 그 유효성을 확인하고자 한다. 연속음성 인식실험을 위하여, 최근 실험용으로 널리 사용되고 있는 HTK와 Multi-Pass 탐색 방법을 이용한 음성인식 시스템의 비교 실험을 수행한다. 대어휘 연속음성 인식 시스템에 사용한 언어 모델은 ARPA 표준 형식의 단어 N-gram 언어모델로, 1-pass에서는 2-gram 언어모델을, 2-pass 에서는 역방향 3-gram 언어모델을 이용하여 Multi-Pass 탐색 방법으로 인식을 수행한다. 본 논문에서는 Multi-Pass 탐색 방법을 한국어 연속음성인식에 적합하게 구성한 후, 다양한 한국어 음성 데이터 베이스를 이용하여 인식실험을 수행하였다. 그 결과, 전화망을 통하여 수집된 잡음이 포함된 증권거래용 연속음성 데이터 베이스를 이용한 연속음성 인식실험에서 HTK가 $59.50\%$, Multi-Pass 탐색 방법을 이용한 시스템은 $73.31\%$의 인식성능을 나타내어 HTK를 이용한 연속음성 인식률 보다 약 $13\%$의 인식률 향상을 나타내었다.

  • PDF

Implementation of the Multi-Channel Speech Recognition System for the Telephone Speech (전화음성인식을 위한 멀티채널 음성인식 시스템 구현)

  • Yi Siong-Hun;Suh Youngjoo;Kang Dong-Gyu
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • /
    • pp.179-182
    • /
    • 2000
  • 본 논문은 전화음성 서비스 시스템의 핵심 기술인 멀티채널 음성인식 시스템의 구현에 대해서 기술하고자 한다. 구현한 시스템은 전화망 인터페이스 모듈, 음성입력 모듈, 음성인식 모듈, 및 서비스 제어모듈로 구성되어 있다. 전화망 인터페이스 모듈은 전화망을 이용한 교환기와의 호 처리 및 이벤트 처리를 담당하며, 전화망 접속카드와 밀접한 관계를 가지고 있다. 음성입력 및 인식 모들은 호 접속이 이루어진 채널로부터 음성을 입력받아 단어인식 기능을 수행하는 부분으로서 멀티 채널을 수용할 수 있는 구조로 설계되어 있다. 음성인식 모델은 문맥 종속형 CHMM 모델이며, 각각의 HMM 모델은 3-state, skip path 로 구성되어 있다. 음성인식 모듈내의 함수들은 모두 re-entrant 하도록 구성함으로써 멀티 채별이 가능하며, 각각의 채널은 모두 독립적인 메모리 공간에서 동작하도록 되어있다. 이와 같은 멀티채널 전화음성인식 시스템은 Dialogic보드를 이용하여 Windows NT에서 동작하도록 구현하였다. 실험결과, 구현된 시스템은 실시간으로 상용서비스가 가능한 인식율을 보였으며 원활한 멀티채널 지원이 가능하였다.

  • PDF