• Title/Summary/Keyword: 자동음성시스템

Search Result 264, Processing Time 0.028 seconds

Conformer-based Elderly Speech Recognition using Feature Fusion Module (피쳐 퓨전 모듈을 이용한 콘포머 기반의 노인 음성 인식)

  • Minsik Lee;Jihie Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.39-43
    • /
    • 2023
  • 자동 음성 인식(Automatic Speech Recognition, ASR)은 컴퓨터가 인간의 음성을 텍스트로 변환하는 기술이다. 자동 음성 인식 시스템은 다양한 응용 분야에서 사용되며, 음성 명령 및 제어, 음성 검색, 텍스트 트랜스크립션, 자동 음성 번역 등 다양한 작업을 목적으로 한다. 자동 음성 인식의 노력에도 불구하고 노인 음성 인식(Elderly Speech Recognition, ESR)에 대한 어려움은 줄어들지 않고 있다. 본 연구는 노인 음성 인식에 콘포머(Conformer)와 피쳐 퓨전 모듈(Features Fusion Module, FFM)기반 노인 음성 인식 모델을 제안한다. 학습, 평가는 VOTE400(Voide Of The Elderly 400 Hours) 데이터셋으로 한다. 본 연구는 그동안 잘 이뤄지지 않았던 콘포머와 퓨전피쳐를 사용해 노인 음성 인식을 위한 딥러닝 모델을 제시하였다는데 큰 의미가 있다. 또한 콘포머 모델보다 높은 수준의 정확도를 보임으로써 노인 음성 인식을 위한 딥러닝 모델 연구에 기여했다.

  • PDF

An Implementation of the Automatic Switching System using Speech Recognition (음성 인식을 이용한 자동 교환 시스템 구현)

  • 함정표;김현아;박익현
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.935-938
    • /
    • 2000
  • 본 논문에서는 음성 인식을 이용하여 전화를 교환해주는 자동 교환 시스템을 구현하고, 성능을 평가하였다. 구현된 시스템에는 필수적인 음성인식 이외에도 DSP 진단 기능, 인식 대상 어휘의 추가 및 변경기능, 음성 수집 기능 등이 구현 되었다. SCHMM (Semi-Continuous Hidden Markov Model)을 이용한 전화망에서의 화자 독립 고립 단어 가변 어휘 인식을 대상으로 하였으며, 실시간 구현을 위하여 Texas Instrument 사의 TMS320C32를 사용하였다〔6〕. 인식 어휘는 부서명 및 인명이고 1300여 단어일 때, 인식 성능은 91.5%이다.

  • PDF

Implementation of the Automatic Segmentation and Labeling System (자동 음성분할 및 레이블링 시스템의 구현)

  • Sung, Jong-Mo;Kim, Hyung-Soon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.16 no.5
    • /
    • pp.50-59
    • /
    • 1997
  • In this paper, we implement an automatic speech segmentation and labeling system which marks phone boundaries automatically for constructing the Korean speech database. We specify and implement the system based on conventional speech segmentation and labeling techniques, and also develop the graphic user interface(GUI) on Hangul $Motif^{TM}$ environment for the users to examine the automatic alignment boundaries and to refine them easily. The developed system is applied to 16kHz sampled speech, and the labeling unit is composed of 46 phoneme-like units(PLUs) and silence. The system uses both of the phonetic and orthographic transcription as input methods of linguistic information. For pattern-matching method, hidden Markov models(HMM) is employed. Each phoneme model is trained using the manually segmented 445 phonetically balanced word (PBW) database. In order to evaluate the performance of the system, we test it using another database consisting of sentence-type speech. According to our experiment, 74.7% of phoneme boundaries are within 20ms of the true boundary and 92.8% are within 40ms.

  • PDF

The phoneme segmentatioi with MLP-based postprocessor on speech synthesis corpora (합성용 운율 DB 구축에서의 MLP 기반 후처리가 포함된 음소분할)

  • 박은영
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.344-349
    • /
    • 1998
  • 음성/언어학적 및 음성의 과학적 연구를 위해서는 대량의 음소 단위 분절 레이블링된 데이터베이스 구축이 필수적이다. 따라서, 본 논문은 음성 합성용 DB 의 구축 및 합성 단위 자동 생성 연구의 일환으로 자동 음소 분할기의 경계오류를 보상할 목적으로 MLP 기반 호처리기가 포함된 음소 분할 방식을 제안한다. 최근 자동 음소 분할기의 성능 향상으로 자동 분절 결과를 이용하여 음성 합성용 운율 DB를 작성하고 있으나, 여전히 경계오류를 수정하지 않고서는 합성 단위로 직접 사용하기 어렵다. 이로 인해 보다 개선된 자동 분절 기술이 요구된다. 따라서, 본 논문에서는 음성에 내제된 음향적 특징을 다층 신경회로망으로 학습하고, 자동 분절기 오류의 통계 특성을 이용하여 자동 분절 경계 수정에 용이한 방식을 제안한다. 고립단어로 발성된 합성 데이터베이스에서, 제안된 후처리기를 도입 후, 기존 자동 분절 시스템이 분할율에 비해 약 25% 의 향상된 성능을 보였으며, 절대 오류는 약 39%가 향상되었다.

  • PDF

ETRI신기술-확장 합성단위 기반 한국어 음성합성기 기술

  • Electronics and Telecommunications Research Institute
    • Electronics and Telecommunications Trends
    • /
    • v.14 no.3 s.57
    • /
    • pp.127-128
    • /
    • 1999
  • 확장 합성단위 기반 한국어 음성합성장치는 통상의 문자로 쓰여진 텍스트를 인간이 소리내어 읽듯이 기계에 의해 자동적으로 음성을 합성하는 시스템이다. 이 시스템은 1995년부터 수행하고 있는 "다중 매체 환경 하에서의 대화체 음성번역 통신 기술개발" 사업의 연구 결과물 중 하나로 1997년도에 개발되어 학습형 자동합성단위 생성기 및 영역의존 음성합성기 기술을 전수할 예정이다.

  • PDF

An Implementation of Voice Mail System for Personal Electronic Secretary (개인용 전자비서 시스템을 위한 음성사서함의 구현)

  • 유형근;김순협
    • The Journal of the Acoustical Society of Korea
    • /
    • v.12 no.6
    • /
    • pp.62-69
    • /
    • 1993
  • 본 논문은 개인용 전자 비서 시스템을 위한 음성사서함의 구현에 관한 것이다. 기존의 음성사서함 서비스는 단순한 메시지 축적서비스에 불과하다. 제안된 전자 비서 시스템을 위한 음성사서함은 음성 정보를 관련 데이터 베이스와 연계하여 개인정보관리시스템에 활용할 수 있도록 한 것이다. 본 논문에서는 음성의 저장과 합성에 ADPCM과 LPC 음성 부호화 방식을 적용하였고, 음악합성에는 FM 음원을 사용하였다. 개인용 컴퓨터에 확장카드 형태로 제작된 제안된 시스템의 서비스 기능은 녹음, 편집, 저장 및 재생기능, 자동발신 및 메시지 전달기능, 동보기능, 자동수신 및 부재중 안내기능, 시보안내 및 음악연주 기능, 전화번호 및 스케쥴 관리등으로 구성되었다.

  • PDF

The Postprocessor of Automatic Segmentation for Synthesis Unit Generation (합성단위 자동생성을 위한 자동 음소 분할기 후처리에 대한 연구)

  • 박은영;김상훈;정재호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.7
    • /
    • pp.50-56
    • /
    • 1998
  • 본 논문은 자동 음소 분할기의 음소 경계 오류를 보상하기 위한 후처리 (Postprocessing)에 관한 연구이다. 이는 현재 음성 합성을 위한 음성/언어학적 연구, 운율 모델링, 합성단위 자동 생성 연구 등에 대량의 음소 단위 분절과 음소 레이블링된 데이터의 필요성에 따른 연구의 일환이다. 특히 수작업에 의한 분절 및 레이블링은 일관성의 유지가 어렵고 긴 시간이 소요되므로 자동 분절 기술이 더욱 중요시 되고 있다. 따라서, 본 논문은 자동 분절 경계의 오류 범위를 줄일 수 있는 후처리기를 제안하여 자동 분절 결과를 직접 합성 단위로 사용할 수 있고 대량의 합성용 운율 데이터 베이스 구축에 유용함을 기술한다. 제안된 후처리기는 수작업으로 조정된 데이터의 특징 벡터를 다층 신경회로망 (MLP:Multi-layer perceptron)을 통해 학습을 한 후, ETRI(Electronics and Telecommunication Research Institute)에서 개발된 음성 언어 번역 시스템을 이용한 자동 분절 결과와 후처리기인 MLP를 이용하여 새로운 음소 경계를 추출한다. 고립단어로 발성된 합성 데이터베이스에서 후처리기로 보정된 분절 결과는 음성 언어 번역 시스템의 분할율보 다 약 25%의 향상된 성능을 보였으며, 절대 오류(|Hand label position-Auto label position |)는 약 39%가 향상되었다. 이는 MLP를 이용한 후처리기로 자동 분절 오류의 범위를 줄 일 수 있고, 대량의 합성용 운율 데이터 베이스 구축 및 합성 단위의 자동생성에 이용될 수 있음을 보이는 것이다.

  • PDF

A Korean Large Vocabulary Speech Recognition System for Automatic Telephone Number Query Service (자동 전화번호 안내를 위한 한국어 대용량 음성 인식 시스템)

  • 구준모;김형순;은종관
    • The Journal of the Acoustical Society of Korea
    • /
    • v.11 no.1E
    • /
    • pp.86-97
    • /
    • 1992
  • 인식어휘수가 1160단어이며 자동 전화번호 안내에 사용될 수 있는 한국어 대용량 음성 인식 시 스템에 관하여 소개하였다. 이 시스템은 네 개의 부시스템으로 구성되어 있다. 첫 번째는 HMM 방식으 로 입력음성중의 단어를 인식하는 처리부에서 인식할 어휘를 제한하므로써 인식시간을 감축시켜 주는 인식 시간 감축부이다. 이 부시스템은 언어학적 정보뿐만 아니라 음향학적 정보도 이용한다. 마지막은 음성인식 시스템의 파라미터를 새로운 화자의 음성에 신속하게 적응시켜 주는 화자적응부이다. 마지막 부시스템은 VQ 적응방식과 스펙트럼 mapping 방식에 근거한 HMM 파라미터 적응방식을 이용한다. 또 한, 본 논문에서는 대용량 음성인식 시스템의 성능을 향상시키기 위한 최근의 연구결과들에 관하여 살 펴보았다. 이 연구들은 화자 독립 음성인식을 위한 음향학적 처리부와 인식 시간 감축부의 성능향상에 초점이 맞추어져 있다. 마지막으로 화자적응을 위한 새로운 연구결과라도 기술하였다.

  • PDF

A Development of Automatic Safety Navigation Support Service Providing System for Medium and Small Ships based on Speech Synthesis (중소형 선박을 위한 음성합성 기반 자동 안전항해 지원 서비스 제공 시스템 개발)

  • Hwang, Hun-Gyu;Kim, Bae-Sung;Woo, Yum-Tae
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.25 no.4
    • /
    • pp.595-602
    • /
    • 2021
  • Marine accidents are mostly caused by medium and small ships, and are continuously increasing. In this paper, we propose an architecture of the speech synthesis based automatic safety navigation support service providing system for small ships that equiped onboard systems compared with vessels. The main purpose of the system is to prevent marine accidents by providing synthesized voice safety messages to nearby ships. The safety navigation support service is operated by connecting GPS and AIS to synthesize voice safety messages, automatically broadcast through VHF. Therefore, we developed a data processing module, a staged risk analysis module, a voice synthesis safety message generation module, and a VHF broadcasting equipment control module, which are components of the system. In addition, we conducted laboratory-level and sea-trial demonstration tests using the developed the system, which verified usefulness of the proposed service.

Design of auto voice warning system using bluetooth and ultrasonic sensor (블루투스와 초음파 센서를 이용한 자동음성 경보 시스템 설계)

  • Park, Joon-Hoon;Kim, Jin-Min;Park, Min-Kyu
    • Proceedings of the KIEE Conference
    • /
    • 2008.10b
    • /
    • pp.377-378
    • /
    • 2008
  • 본 논문은 시각 장애인들의 보행 시 앞을 볼 수 없는 점을 바탕으로 시각을 음성으로 대체하여 장애 물체가 발생하였을 경우 안전을 위하여 위험 요소를 사전에 경보하여 알려주도록 구현하였다. 시각 장애인들이 보행 시 장애 물체가 나타났을 경우 이를 입체 변위 센서인 초음파 센서로 장애물의 위치를 측정하고 측정된 거리 데이터를 근거리 무선통신인 블루투스를 동하여 송 수신하여 사용자인 시각 장애인에게 소형 스피커를 통하여 음성으로 알려주고 경고함으로써 위험 요소를 사전에 대처할 수 있도록 설계를 하였다. 초음파 입체 변위 센서를 이용하여 측정된 거리를 실시간 자동 거리 측정이 가능하도록 시스템을 구현하고 이 데이터를 근거리 무선 통신으로 송 수신하며 수신 모듈이 데이터를 음성으로 전환하여 실시간 자동 경보 시스템을 구축함으로써 보행 장애 위험물 감지가 보다 효율적으로 이루어지고 디지털화되게 시스템을 개선하였다.

  • PDF