• 제목/요약/키워드: ASR system

검색결과 108건 처리시간 0.026초

AI-based language tutoring systems with end-to-end automatic speech recognition and proficiency evaluation

  • Byung Ok Kang;Hyung-Bae Jeon;Yun Kyung Lee
    • ETRI Journal
    • /
    • 제46권1호
    • /
    • pp.48-58
    • /
    • 2024
  • This paper presents the development of language tutoring systems for nonnative speakers by leveraging advanced end-to-end automatic speech recognition (ASR) and proficiency evaluation. Given the frequent errors in non-native speech, high-performance spontaneous speech recognition must be applied. Our systems accurately evaluate pronunciation and speaking fluency and provide feedback on errors by relying on precise transcriptions. End-to-end ASR is implemented and enhanced by using diverse non-native speaker speech data for model training. For performance enhancement, we combine semisupervised and transfer learning techniques using labeled and unlabeled speech data. Automatic proficiency evaluation is performed by a model trained to maximize the statistical correlation between the fluency score manually determined by a human expert and a calculated fluency score. We developed an English tutoring system for Korean elementary students called EBS AI Peng-Talk and a Korean tutoring system for foreigners called KSI Korean AI Tutor. Both systems were deployed by South Korean government agencies.

국제 음소 기술에 의한 언어에 독립적인 발음사전 생성에 관한 연구 (A Study on the Language Independent Dictionary Creation Using International Phoneticizing Engine Technology)

  • 신좌철;우인성;강흥순;황인수;김석동
    • The Journal of the Acoustical Society of Korea
    • /
    • 제26권1E호
    • /
    • pp.1-7
    • /
    • 2007
  • One result of the trend towards globalization is an increased number of projects that focus on natural language processing. Automatic speech recognition (ASR) technologies, for example, hold great promise in facilitating global communications and collaborations. Unfortunately, to date, most research projects focus on single widely spoken languages. Therefore, the cost to adapt a particular ASR tool for use with other languages is often prohibitive. This work takes a more general approach. We propose an International Phoneticizing Engine (IPE) that interprets input files supplied in our Phonetic Language Identity (PLI) format to build a dictionary. IPE is language independent and rule based. It operates by decomposing the dictionary creation process into a set of well-defined steps. These steps reduce rule conflicts, allow for rule creation by people without linguistics training, and optimize run-time efficiency. Dictionaries created by the IPE can be used with the Sphinx speech recognition system. IPE defines an easy-to-use systematic approach that can lead to internationalization of automatic speech recognition systems.

비원어민 교수자 음성모델을 이용한 자동발음평가 시스템 (An automatic pronunciation evaluation system using non-native teacher's speech model)

  • 박혜빈;김동헌;정진우
    • 한국인터넷방송통신학회논문지
    • /
    • 제16권2호
    • /
    • pp.131-136
    • /
    • 2016
  • 외국어 학습에서 발음학습은 가장 중요한 부분 중 하나이다. 발음학습 과정은 학습자의 발음에 대해 정확한 평가와 잘못된 발음이 있을 경우 적절한 피드백을 주어 이를 개선시키는 작업을 포함한다. 숙련된 평가자의 평가는 비용에서, 비숙련 원어민들의 평가는 일관성에서 문제가 있기 때문에 이를 보완할 수 있는 자동발음평가 시스템에 대한 연구가 진행되고 있으며 자동음성인식 기술의 활용이 각광받고 있다. 본 연구에서는 자동음성인식 기술과 비원어민 교수자의 음성 모델을 기반으로 단어 수준에서 학습자의 발음 정확성과 유창성을 평가하는 시스템을 구축하였고, 이를 통해 학습자들이 자신의 발음을 정확히 평가받고 평가결과에 따라 적절한 피드백을 받을 수 있도록 하였다. 또한 시스템의 성능평가를 통해 발음 정확성과 유창성에 대한 자동평가결과가 전반적으로 학습자의 실제 영어실력을 정확히 구분한다는 것을 확인하였다.

FPGA-Based Hardware Accelerator for Feature Extraction in Automatic Speech Recognition

  • Choo, Chang;Chang, Young-Uk;Moon, Il-Young
    • Journal of information and communication convergence engineering
    • /
    • 제13권3호
    • /
    • pp.145-151
    • /
    • 2015
  • We describe in this paper a hardware-based improvement scheme of a real-time automatic speech recognition (ASR) system with respect to speed by designing a parallel feature extraction algorithm on a Field-Programmable Gate Array (FPGA). A computationally intensive block in the algorithm is identified implemented in hardware logic on the FPGA. One such block is mel-frequency cepstrum coefficient (MFCC) algorithm used for feature extraction process. We demonstrate that the FPGA platform may perform efficient feature extraction computation in the speech recognition system as compared to the generalpurpose CPU including the ARM processor. The Xilinx Zynq-7000 System on Chip (SoC) platform is used for the MFCC implementation. From this implementation described in this paper, we confirmed that the FPGA platform is approximately 500× faster than a sequential CPU implementation and 60× faster than a sequential ARM implementation. We thus verified that a parallelized and optimized MFCC architecture on the FPGA platform may significantly improve the execution time of an ASR system, compared to the CPU and ARM platforms.

5톤/일 shaft형 pilot plant에서 자동차 폐차 잔재의 가스화 용융 특성 (Gasification melting characteristics of Automobile shredder residue in 5t/d shaft pilot plant)

  • 노선아;김우현;윤진한;홍병권
    • 한국신재생에너지학회:학술대회논문집
    • /
    • 한국신재생에너지학회 2010년도 추계학술대회 초록집
    • /
    • pp.160-160
    • /
    • 2010
  • ELVs (End-of-Vehicles) in Korea incrasease continusely because of increase of used car. Automobile Shredder Residue (ASR) is final product of ELVs (End-of-Vehicles) after recycling. Automobile Shredder Residue are composed of light and heavy fluffs and soil/dust. In this study, 5 ton/day pilot plant of shaft type has been designed and constructed and 15 times of test run were performed. For the stable operation, operation conditions such as the amount of fed ASR and cokes, air flow and temperature in the gasification melting system have been changed and the composition of the produced gas such as $H_2$, CO and $CH_4$ and air pollution compound including dioxin discharged from the stack have been analyzed.

  • PDF

히트펌프에서 탄화수소냉매 적용에 관한 실험적 연구 (An Experimental Study on Application of Hydrocarbon Refrigerants for Heat Pump)

  • 유성연;박동성;강태석;이제묘
    • 대한기계학회:학술대회논문집
    • /
    • 대한기계학회 2004년도 추계학술대회
    • /
    • pp.1264-1269
    • /
    • 2004
  • This research describes the application of hydrocarbon refrigerants for heat pump system which is needed for fish farm. Tested refrigerants are HCFC-22 and hydrocarbon refrigerants(CARE 50 and ASR-20). CARE 50 is mixture of R-290 and R-170, and ASR-20 is mixture of R-152a, R-290 and other additives. Heat pump consist of shell and tube heat exchanger, scroll compressor, expansion valve and accumulator. Manual expansion valve is used for testing of wide range evaporating temperature. Hydrocarbon refrigerants show a good performance as an alternative for HCFC-22 in the range of evaporating temperature from $-6^{\circ}C$ to $6^{\circ}C$.

  • PDF

Background of the automobile recycling law enactment in Japan

  • Togawa, Kenichi
    • 자원리싸이클링
    • /
    • 제14권3호
    • /
    • pp.3-5
    • /
    • 2005
  • 일본에서는 2002년 1월 5일 흔히 "자동차재활용법"이라고 알려진 '폐자동차 재활용에 관한 법률'이 시행되었다. 본 고에서는 이 법의 특징들과 제정된 배경 및 이 법이 향후 일본 자동차 산업에 미칠 수 있는 영향들을 살펴보고자 한다. 이 법에 따라서 현재 일본의 자동차 재활용 시스템은 2005년 1월 1일부터 새로운 형태로 바뀌었다.

문자소 기반의 한국어 음성인식 (Korean speech recognition based on grapheme)

  • 이문학;장준혁
    • 한국음향학회지
    • /
    • 제38권5호
    • /
    • pp.601-606
    • /
    • 2019
  • 본 논문에서는 한국어 음성인식기 음향모델의 출력단위로 문자소를 제안한다. 제안하는 음성인식 모델은 한글을 G2P(Grapheme to Phoneme)과정 없이 초성, 중성, 종성 단위의 문자소로 분해하여 음향모델의 출력단위로 사용하며, 특별한 발음 정보를 주지 않고도 딥러닝 기반의 음향모델이 한국어 발음규정을 충분히 학습해 낼 수 있음을 보인다. 또한 기존의 음소기반 음성인식 모델과의 성능을 비교 평가하여 DB가 충분한 상황에서 문자소 기반 모델이 상대적으로 뛰어난 성능을 가진다는 것을 보인다.

신호의 복원된 위상 공간을 이용한 오디오 상황 인지 (A new approach technique on Speech-to-Speech Translation)

  • ;이승룡
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.239-240
    • /
    • 2009
  • We live in a flat world in which globalization fosters communication, travel, and trade among more than 150 countries and thousands of languages. To surmount the barriers among these languages, translation is required; Speech-to-Speech translation will automate the process. Thanks to recent advances in Automatic Speech Recognition (ASR), Machine Translation (MT), and Text-to-Speech (TTS), one can now utilize a system to translate a speech of source language to a speech of target language and vice versa in affordable manner. The three phase process establishes that the source speech be transcribed into a (set of) text of the source language (ASR) before the source text is translated into the target text (MT). Finally, the target speech is synthesized from the target text (TTS).

소프트웨어 구현에 적합한 고속 스트림 암호 AA32 (Fast Stream Cipher AA32 for Software Implementation)

  • 김길호;박창수;김종남;조경연
    • 한국통신학회논문지
    • /
    • 제35권6B호
    • /
    • pp.954-961
    • /
    • 2010
  • 스트림 암호는 블록 암호보다 안전성은 떨어지지만 수행 속도가 빠른 것이 큰 장점이었다. 그러나 최근까지 블록 암호의 수행 속도를 개선한 알고리즘 개발로 지금은 AES의 경우 스트림 암호와 수행 속도 차가 거의 없게 되어, 안전하면서 빠른 스트림 암호 개발이 절실히 요구된다. 본 논문에서는 ASR(Arithmetic Shift Register)과 간단한 논리연산으로 구성된 32비트 출력의 고속 스트림 암호 AA32를 제안한다. 제안한 알고리즘은 소프트웨어 구현이 쉽게 디자인된 스트림 암호 알고리즘으로 128비트 키를 지원하고 있으며, 워드와 바이트 단위로 연산을 수행한다. AA32의 전체 구성은 선형 궤환 순서기(Linear Feedback Sequencer)로 ASR 151비트를 적용하였고, 축소함수는 비선형(Non-Linear) 연산을 위한 S-박스를 사용하지 않고 간단한 논리연산을 사용한 크게 두 부분으로 구성되어 있는 매우 간결한 구조의 스트림 암호이다. 제안한 스트림 암호 AA32는 SSC2, Salsa20 보다 수행 속도 테스트결과 빠른 결과를 보여주고 있으며, 안전성 또한 현대 암호 알고리즘이 필요로 하는 안전성을 만족하고 있다. 제안한 암호 알고리즘은 휴대폰과 같은 무선 인터넷 환경과 DRM(Digital Right Management) 등과 같은 실시간 처리가 필요한 분야와 제한된 환경인 무선 센서 네트워크(Wireless Sensor Network)에 사용 가능한 고속 스트림 암호 알고리즘이다.