• Title, Summary, Keyword: 음성인식

Search Result 2,233, Processing Time 0.055 seconds

신성장동력산업용 대어휘 음성인식 기술 동향 및 응용

  • Gang, Jeom-Ja;Gang, Byeong-Ok;Jeong, Ho-Yeong;Jeong, Hun;Lee, Yun-Geun
    • Electronics and Telecommunications Trends
    • /
    • v.23 no.1
    • /
    • pp.65-76
    • /
    • 2008
  • 신성장동력산업용 음성인식 기술은 지능형 로봇, 텔레매틱스, 홈네트워크, 차세대 PC, 디지털 콘텐츠 검색 등에 음성인식 기술을 적용하기 위한 것이다. 음성인식 기술은 사람이 일상생활 속에서 사용하는 단말기들의 제어나 정보 서비스를 마우스나 키보드를 사용하지 않고, 사람이 갖는 가장 친화적이면서 편리한 의사소통 도구인 목소리를 사용하여 원하는 단말기의 제어나 정보 서비스를 제공 받을 수 있도록 지원하는 기술을 말한다. 본 고에서는 음성인식 기술의 발전과정을 통한 음성인식 기술의 발전 동향에 대해서 설명하고, 신성장동력산업 분야의 인터페이스로 음성인식 기술을 적용한 핵심 요소 기술에 대한 개발 동향과 응용 사례에 대해서 기술한다.

Comparison of Adult and Child's Speech Recognition of Korean (한국어에서의 성인과 유아의 음성 인식 비교)

  • Yoo, Jae-Kwon;Lee, Kyoung-Mi
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.5
    • /
    • pp.138-147
    • /
    • 2011
  • While most Korean speech databases are developed for adults' speech, not for children's speech, there are various children's speech databases based on other languages. Because there are wide differences between children's and adults' speech in acoustic and linguistic characteristics, the children's speech database needs to be developed. In this paper, to find the differences between them in Korean, we built speech recognizers using HMM and tested them according to gender, age, and the presence of VTLN(Vocal Tract Length Normalization). This paper shows the speech recognizer made by children's speech has a much higher recognition rate than that made by adults' speech and using VTLN helps to improve the recognition rate in Korean.

Speech Recognition based on Variable Information Rate Model (가변 정보율 모델을 이용한 음성인식)

  • 김남수
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • /
    • pp.171-174
    • /
    • 1995
  • 기존의 음성인식에서는 음성의 모든 구간의 정보적 중요도를 같게 두는 고정정보율 처리가 일반적이다. 고정 정보율 처리는 변화가 작은 장 구간을 변화가 큰 단 구간보다 중시하는 경향이 있기 때문에, 음성인식에는 부적절한 요소를 내포하고 있다. 본 논문에서는, 가변 정보율 모델을 제시하여, 음성인식 시, 가변정보율 처리를 수용하게 하였다. 음성의 각 구간마다 정보율 파라메타를 두어, 확률값 계산에 그 구간의 중요도를 반영하였다. 또한 maximum mutual information을 이용하여 정보율 파라메타를 학습시키는 방법을 제안하였다. 화자독립 연속어 인식 실험을 통하여, 가변정보율 모델을 이용한 방법이 기존의 고정 정보율 방법보다 우수한 인식 성능을 보임을 확인할 수 있었다.

  • PDF

Recognition Algorithm using MFCC Feature Parameter (MFCC 특징 파라미터를 이용한 인식 알고리즘)

  • Choi, Jae-seung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • /
    • pp.773-774
    • /
    • 2016
  • 배경잡음은 음성신호의 특징을 왜곡하기 때문에 음성인식 시스템의 인식율 향상의 방해요소가 된다. 따라서 본 논문에서는 배경잡음이 존재하는 환경에서의 음성인식을 실시하기 위해서, 신경회로망과 Mel 주파수 켑스트럼 계수를 사용하여 연속음성 식별 알고리즘을 제안한다. 본 논문의 실험에서는 본 알고리즘을 사용하여 배경잡음이 섞인 음성신호에 대하여 음성인식의 식별율 개선을 실현할 수 있도록 연구를 진행하며, 본 알고리즘이 유효하다는 것을 실험을 통하여 명백히 한다.

  • PDF

Performance Analysis of Speech Recognition in Communication Systems using Speech Coder (음성 압축기를 사용한 통신 시스템에서의 음성 인식 성능 분석)

  • Han Sang-Wook;Jung Heui Suck;Park Hochong
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • /
    • pp.179-182
    • /
    • 2002
  • 본 논문에서는 음성 압축기를 사용하는 디지털 이동통신 환경에서 한글 음성 인식기의 성능을 분석하기 위하여 다양한 표준 음성 압축기를 이용하여 음성 압축기의 구조, 전송률, 전송 채널의 에러율에 대한 성능을 측정하여 비교하였다. 동일한 구조의 음성 압축기에 대하여 전송률의 증가에 따라 음성 인식률이 증가하지만, 음성 압축기의 구조에 따라 동일 전송률에서도 많은 성능 차이가 발생하는 것을 확인하였다. 특히 IS-127 EVRC의 인식 성능이 매우 떨어지는 것을 알 수 있고, EVRC의 잡음 제거기와 가변 전송률에 의하여 음성 인식 성능이 저하되는 것을 확인하였다. 이를 통하여 청취 음질과 음성 인식 성능 사이의 상관 관계가 높지 않는 것을 알 수 있다. 모든 음성 압축기에 대하여 채널 에러율과 음성 인식기의 성능은 매우 밀접한 관계가 있음을 확인하였고, 평균적으로 채널 에러율 $1.0\%$에서 인식률이 $0.6\%$ 감소하고, 에러 $5.0\%$에서 인식률이 $1.8\%$ 감소한다.

  • PDF

Normalized Recognition Method using Characteristic Vector of Speech Signal (음성의 특징벡터를 사용한 정규화 인식수법)

  • Choi, Jae-Seung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • /
    • pp.616-618
    • /
    • 2011
  • 본 논문에서는 음성의 특징벡터를 추출하여 음성인식을 위한 인식 알고리즘을 제안한다. 본 논문에서 제안하는 방법은 사람의 음성을 정규화하여 시간지연신경회로망을 사용하여 음성인식을 하는 인식 알고리즘이다. 본 논문에서는 시간지연신경회로망을 이용하여 입력되는 음성정보를 일정시간 동안 학습시킨 후에 새로이 입력되는 정보를 인식하는 수법이다. 본 실험에서는 음성인식률에 의하여 본 알고리즘의 유효성을 확인한다.

  • PDF

분별학습에 기반한 전화 숫자음 음성인식

  • Han, Mun-Seong
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • v.5 no.2
    • /
    • pp.7-17
    • /
    • 2001
  • 음성인식 시스템이 있어서 현재 가장 널리 사용되고 있는 Hidden Markov Model(HMM)은 확률 모델을 기반한 것으로 데이터에 대한 통계처리를 학습과정으로 하고 있다. 한국어 연속 숫자음에 대한 음성인식은 고립 숫자음 인식과는 달리 충분한 학습데이터만으로는 만족할 만한 결과를 가져오지 못한다. 이 논문에서는 연속 숫자음 음성인식에 잇어서 비슷하게 발음되는 숫자음과 같은 숫자에 대해 다양하게 발음되는 숫자음에 대해 HMM의 한계를 제시하고 그 해결채으로 Discriminant 학습의 적용방법을 제시한다. 연속 숫자음의 인식 시스템을 구현하는 데 있어서 인식률 낮은 부분에 Discriminant 학습을 적용하여 인식률을 대폭 향상시킨 실험결과를 제시한다.

  • PDF

A Study of Speech Recognition Web Services Environment for Voice Browser (Voice Browser를 위한 음성 인식 웹서비스 환경에 관한 연구)

  • Hong, In-Suk;Kim, Yoon-Joong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.142-145
    • /
    • 2009
  • 음성인터페이스 관련 표준화는 음성 대화, 음성인식/합성, 전화망 등의 접속망을 상호 분리하여 음성정보시스템 구성요소들 각각의 상호 독립적인 개발을 보장해 주며, 각 요소의 이해가 없이도 음성정보시스템을 개발할 수 있도록 함으로써 음성정보기술의 보급 및 확산에 크게 기여하고 있다. 이에 W3C에서는 Voice Browser에 대한 표준화를 현재 진행 중에 있으며 Vocie Browser WG에서 Voice Browser를 위한 SIF(Speech Interface Framework)를 제안하였다. 제안된 SIF에서 Voice Browser가 음성인식을 실행하기 위해서는 많은 자원의 소요와 부하가 생길 수 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 음성인식 웹 서비스를 기존의 SIF에 추가한 새로운 형태의 SIF를 제안하고자 한다. 음성인식은 원격 시스템에서 수행하고 그 결과를 Voice Browser가 사용할 수 있도록 음성인식 웹서비스 환경을 구축하였다. 그리고, XML-SRGS 포멧의 grammar를 음성인식기가 사용하는 EBNF 포멧의 grammar로 변환시키는 변환기를 구현하였다.

  • PDF

Comparison of Integration Methods of Speech and Lip Information in the Bi-modal Speech Recognition (바이모달 음성인식의 음성정보와 입술정보 결합방법 비교)

  • 박병구;김진영;최승호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.4
    • /
    • pp.31-37
    • /
    • 1999
  • A bimodal speech recognition using visual and audio information has been proposed and researched to improve the performance of ASR(Automatic Speech Recognition) system in noisy environments. The integration method of two modalities can be usually classified into an early integration and a late integration. The early integration method includes a method using a fixed weight of lip parameters and a method using a variable weight according to speech SNR information. The 4 late integration methods are a method using audio and visual information independently, a method using speech optimal path, a method using lip optimal path and a way using speech SNR information. Among these 6 methods, the method using the fixed weight of lip parameter showed a better recognition rate.

  • PDF

Noise Reduction in Speech Recognition Using Virtual Studio Technology (음성 인식에서 가상 스튜디오 기술을 이용한 잡음 제거 방법)

  • Kim, Dong Hyun;Yoo, Keun Chang;Lim, Jun Su;Baek, Se In;Lee, Yong Kyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.21-24
    • /
    • 2018
  • 최근 음성 인식 기술의 발전으로 음성 인식에 관한 연구가 활발히 진행되고 있다. 음성 인식 기술중에서도 외부의 잡음을 제거하여 음성 인식의 정확도를 높이는 연구의 필요성이 대두되고 있다. 본 논문에서는 음성 인식에서 가상 스튜디오 기술을 사용하여 잡음을 제거하는 방법을 제안한다. 음성 인식의 전처리 단계에서 잡음 소거 기능을 가진 VST 플러그 인을 사용하여 외부의 잡음을 제거한다. 제안한 방법을 통해 음성인식의 전처리 과정에서 정제되지 않은 음성 데이터로 인해 발생하는 오류를 방지하고 음성 인식의 인식률을 높일 것으로 기대한다.