• Title/Summary/Keyword: 음성인식률

Search Result 549, Processing Time 0.028 seconds

A Comparative Study of Recognition Rate According to the Variance of Speech Bandwidth (대역폭 변화에 따른 음성 인식률 비교연구)

  • Sohn, Il-Hyun;Doh, Sam-Joo;Koo, Myoung-Wan
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.193-199
    • /
    • 1992
  • 이 논문에서는 123개 단어의 한국어 음성에 대하여 음성의 대역폭 변화에 따른 인식률을 비교하였다. 인식률 비교실험을 위해 hidden Markov model과 음소와 유사한 131개의 한국어 subword 유니트를 사용한 화자독립 격리단어 인식 시스팀을 사용하였다. 이 실험은 대역폭이 각각 0 - 4.5kHz 및 0.3 - 3.3kHz인 두가지 종류의 음성 데이타베이스를 사용하였다. 훈련과정에서 corrective training의 반복회수를 2로 하고 state transition duration 정보를 사용하였을 때, 0 - 4.5kHz 와 0.3 - 3.3kHz 대역폭에 대해 각각 98.8 % 및 98.2 % 의 최고 인식률을 얻었다. 이로부터 전화대역폭에서도 음성인식률은 크게 저하되지 않음을 알 수 있다.

  • PDF

Development and Enhancement of Automatic Caption Generation System based on Speech-to-Text for the Hearing Impaired (청각장애인을 위한 음성-자막 자동 변환 시스템 개발 및 음성 인식률 고도화)

  • Choi, Mi-Ae;Kim, Seung-Hyun;Jo, Min-Ae;Park, Dong-young;Kim, Yong-Ho;Yoon, Jong-hoo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.465-468
    • /
    • 2020
  • 인터넷 미디어, OTT, VOD 등 신규미디어가 비장애인의 정보제공 매체로 널리 확대되나, 자막 서비스를 제공하지 않아 청각장애인의 정보 격차가 더욱 심화되고 있다. 청각장애인의 미디어 접근성 제고를 위해 음성인식 서버 및 스마트 폰·태블릿 앱 간 연계를 통해 음성을 인식하여 자동으로 자막을 생성하고 표시하는 음성-자막 자동 변환 시스템을 개발하였고 음성인식률을 높이기 위해 뉴스/시사/다큐 장르 영상 콘텐츠의 음성에 대해 학습용 데이터를 제작하여 음성인식 성능을 고도화 시켰다. 본 논문에서는 청각장애인을 위한 음성-자막 자동 변환시스템 구성과 음성인식률 비교 평가 결과를 보여준다.

  • PDF

Emotion Recognition Using Output Data of Image and Speech (영상과 음성의 출력 데이터를 이용한 감정인식)

  • Oh, Jae-Heung;Jeong, Keun-Ho;Joo, Young-Hoon;Park, Chang-Hyun;Sim, Kwee-Bo
    • Proceedings of the KIEE Conference
    • /
    • 2003.07d
    • /
    • pp.2097-2099
    • /
    • 2003
  • 본 논문에서는 영상과 음성의 데이터를 이용한 사람의 감정을 인식하는 방법을 제안한다. 제안된 방법은 영상과 음성의 인식률에 기반 한다. 영상이나 음성 중 하나의 출력 데이터만을 이용한 경우에는 잘못된 인식에 따른 결과를 해결하기가 힘들다. 이를 보완하기 위해서 영상과 음성의 출력을 이하여 인식률이 높은 감정 상태에 가중치를 줌으로써 잘못된 인식의 결과를 줄일 수 있는 방법을 제안한다. 이를 위해서는 각각의 감정 상태에 대한 영상과 음성의 인식률이 추출되어져 있어야 하며, 추출된 인식률을 기반으로 가중치를 계산하는 방법을 제시한다.

  • PDF

The Continuous Speech Recognition with Limited word (제한된 단어를 갖는 우리말 연속 음성 인식)

  • 김석동
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.87-90
    • /
    • 1998
  • 이 논문에서 우리는 대규모 어휘를 갖는 연속 음성 인식을 위한 방법을 제시한다. 우리말은 영어와 구조적으로 달라서 대용량 어휘를 갖는 연속 음성을 인식하기 위한 언어모델을 만들기가 매우 어렵다. 언어 모델을 우리말 문장에 적용하기 위해 신문의 사설을 3-gram을 이용하여 처리하였다. 우리의 인식 시스템을 평가하기 위하여 시스템 공학 연구소에서 제공한 낭독 음성을 대상으로 인식률을 계산하였다. 589개의 문장을 대상으로 총 20명이 발음한 3,156개의 문장에 대하여 남자 92.2%, 여자 87.9%의 인식률을 얻었다. 발음사전은 낭독음성과 신문 사설에서 추출한 10K 크기이며 uniphone의 음성모델을 사용하였다.

  • PDF

The Implementation of Windows 95 Control System with Speech Recognition (음성인식을 이용한 Windows 95 제어 시스템의 구현)

  • 남동선
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.43-46
    • /
    • 1998
  • 본 논문은 컴퓨터 사용에 미숙한 초보자나 키보드나 마우스를 사용할 수 없는 신체적인 조건을 가진 장애인 또는 PC사용에 미숙한 사용자들을 위해 기존의 인터페이스에 추가적으로 음성을 사용하여 더 효율적인 작업 환경을 만들기 위한 음성을 이용한 Window95 환경에서의 음성 인식 시스템 구현에 관한 것이다. 인터페이스 구현을 위해 사용되는 인식 알고리즘으로는 연결어 인식에 사용되는 OSDP[1] 알고리즘을 단독어 인식에 적용하여 사용하였다. 특징 벡터는 화자 독립적인 특성을 지닌 Perceptual Linear Predictive(PLP)[2] 13차 계수를 사용하였다. 인식 대상 어휘는 윈도우 사용자에게 자주 사용되는 60개의 명령어로 설정하였다. 인식된 후 그 결과는 구현된 시스템의 명령 실행 모듈로 전달되어 윈도우 상에서 실제 수행된다. 구현된 시스템에서는 노트북 내장 마이크를 사용하여 음성을 검출하였고 이를 위한 음성 구간 검출 알고리즘을 사용하였다. 기준 패턴은 20대 남성화자 9인이 2회 발성한 데이터를 이용하였고, 화자 독립으로 온라인 인식률은 91.71%이고, 오프라인 인식률은 96.4%의 인식률을 얻었다.

  • PDF

Analysis and Recognition of Korean Fricatives and Affricates (한국어 마찰음 및 파찰음의 분석과 인식)

  • 정석재;정현열;이무영
    • The Journal of the Acoustical Society of Korea
    • /
    • v.10 no.5
    • /
    • pp.27-35
    • /
    • 1991
  • 음소를 인식의 기본 단위로 하는 소규모 음성 인식 시스템을 구현하기 위한 기초 연구로서 마 찰음(/ㅅ, ㅆ, ㅎ/) 과 파찰음(/ㅈ, ㅉ, ㅊ/) 에 대하여 지속시간, 평균패턴, 분산비를 이용하여 각 음소 의 특징을 분석하고 각 음소군 내에서의 식별에 유효한 parameter들을 추출하여 인식 실험을 실시하 였다. 지속시간의 분포, 평균패턴의 분포, 분산비의 분포를 이용하여 분석한 결과 6차원 정도의 cepstrum 계수만으로 마찰음 및 파찰음의 식별이 가능하고, 시간 방향의 정보는 음성의 시단으로부터 14 frame 정도의 특징을 인식 파라미터로 할 경우가 최적임을 알 수 있었다. 이를 이용한 인식실험 결과에서는 조음방법별로 분류된 음소군내의 각 음소에 대한 인식실험의 인식률 보다는 발음방법별 인식실험시의 인식률이 높게 나타나 동일 음소군 내에서의 각 음소에 대한 식별이 더 어려움을 알 수 있었고, 특징 파라미터의 길이를 음성의 시단으로부터 14 frame 정도로 했을 때 조음방법별 인식률은 평균 81.1%, 발음방법별 인식률은 평균 97.9%로 최고의 인식률을 나타내었다. 특징 파라미터의 길이 를 14 frame 이상으로 증가시켜도 인식률은 큰 변화가 없어 분석 결과를 잘 설명하고 있음을 알 수 있었다.

  • PDF

음성인식을 위한 은닉마코프모형 연구

  • 손건태;정상화;박민욱
    • Communications for Statistical Applications and Methods
    • /
    • v.5 no.1
    • /
    • pp.155-165
    • /
    • 1998
  • 음성자동인식을 위한 통계적 방법으로 은닉마코프모형이 널리 사용되고 있다. 이산형 은닉마코프모형보다 인식률이 우수한 연속형 은닉마코프모형을 고려하였으며, 인식을 위한 비터비(Viterbi) 알고리즘을 병렬화시켜 인식속도를 빠르게 하는 인식 알고리즘을 제안하였다. 제안된 방법으로 실험을 통하여 인식률과 인식속도 개선률(speed-up)을 살펴보았다.

  • PDF

Performance Evaluation of Large Vocabulary Continuous Speech Recognition System (대어휘 연속음성 인식 시스템의 성능평가)

  • Kim Joo-Gon;Chung Hyun-Yeol
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.99-102
    • /
    • 2002
  • 본 논문에서는 한국어 대어휘 연속음성 인식 시스템의 성능향상을 위하여 Multi-Pass 탐색 방법을 도입하고, 그 유효성을 확인하고자 한다. 연속음성 인식실험을 위하여, 최근 실험용으로 널리 사용되고 있는 HTK와 Multi-Pass 탐색 방법을 이용한 음성인식 시스템의 비교 실험을 수행한다. 대어휘 연속음성 인식 시스템에 사용한 언어 모델은 ARPA 표준 형식의 단어 N-gram 언어모델로, 1-pass에서는 2-gram 언어모델을, 2-pass 에서는 역방향 3-gram 언어모델을 이용하여 Multi-Pass 탐색 방법으로 인식을 수행한다. 본 논문에서는 Multi-Pass 탐색 방법을 한국어 연속음성인식에 적합하게 구성한 후, 다양한 한국어 음성 데이터 베이스를 이용하여 인식실험을 수행하였다. 그 결과, 전화망을 통하여 수집된 잡음이 포함된 증권거래용 연속음성 데이터 베이스를 이용한 연속음성 인식실험에서 HTK가 $59.50\%$, Multi-Pass 탐색 방법을 이용한 시스템은 $73.31\%$의 인식성능을 나타내어 HTK를 이용한 연속음성 인식률 보다 약 $13\%$의 인식률 향상을 나타내었다.

  • PDF

Connected Digit Recognition Using Phonetical Features (음성학적 특징을 이용한 연속 숫자음인식)

  • 김민정
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06d
    • /
    • pp.72-75
    • /
    • 1998
  • 본 논문에서는 숫자음 인식시스템의 인식률 향상을 위한 연구로서 4연속 숫자음을 대상으로 연음 현상 및 경음화 현상등과 같은 음성학적 특징을 고려하여 숫자음에 강건한 모델을 작성하는 방법을 제안하고 인식실험을 통하여 그 유효성을 확인하고자 한다. 이를 위하여 음성자료로서는 국어공학센터(KLE)에서 채록한 4연속 숫자음을 사용하며 인식의 기본단위로서 음향학적 특징을 고려한 19개의 연속분포 HMM을 유사음소 단위(Phoneme Like Units ; PLUS) 로 사용한다. 또한 , 인식실험에 있어서는 기존의 방법으로 모델을 작성한 경우와 연음 현상과 경음화 현상 등과 같은 음성학적 특징을 고려하여 모델을 작성한 경우에 대해서 유한상태 오토마타(finite State Automata ; FSA)에 의한 구문제어를 통한 OPDP(One Pass Dynamic Programming)법으로 인식실험을 수행하여 그 결과를 비교 검토하였다. 그 결과, 기존이 방법의 경우 64.6%, 음성학적 특징을 고려한 경우 68.6%의 인식률을 보여, 음성학적 특징을 고려한 경우가 4.0% 향상된 인식률을 얻어 제안한 방법의 유효성을 확인하였다.

  • PDF

A Study on the Speech Recognition Reliability of Traffic Information ARS (교통정보 안내전화 음성인식 신뢰성에 대한 연구)

  • Han, Dae-Cheol;Moon, Hak-Yong;Ryu, Seung-Ki
    • Proceedings of the KIEE Conference
    • /
    • 2011.07a
    • /
    • pp.1246-1247
    • /
    • 2011
  • 지능형교통시스템(ITS) 구축 사업을 통해 수집된 소통정보, 대중교통정보 등의 교통관련 정보를 제공하기 위한 방법으로 교통정보 안내전화(ARS)를 적용하여 도로 이용자에게 교통정보를 제공하고 있다. 도로 이용자에게 보다 편리한 교통정보 서비스를 제공하기 위한 일환으로 교통정보 안내전화(ARS)에 음성인식을 적용하고 있다. 그러나 초기 ARS에 음성인식을 적용한 결과 음성인식 성공률은 상당히 높은 것으로 나타났으나, 이용자가 증가하여 샘플링 수가 증가함에 따라 음성 인식 성공률은 점차 저하되고 있는 실정이다. 이를 해결하기 위한 방안으로 충분한 샘플링을 확보하여 주기적이고 지속적인 음성인식에 대한 튜닝을 실시하여 음성인식에 대한 성공률을 향상 시킬 필요가 있다.

  • PDF