• 제목/요약/키워드: ASR

검색결과 413건 처리시간 0.025초

Automatic proficiency assessment of Korean speech read aloud by non-natives using bidirectional LSTM-based speech recognition

  • Oh, Yoo Rhee;Park, Kiyoung;Jeon, Hyung-Bae;Park, Jeon Gue
    • ETRI Journal
    • /
    • 제42권5호
    • /
    • pp.761-772
    • /
    • 2020
  • This paper presents an automatic proficiency assessment method for a non-native Korean read utterance using bidirectional long short-term memory (BLSTM)-based acoustic models (AMs) and speech data augmentation techniques. Specifically, the proposed method considers two scenarios, with and without prompted text. The proposed method with the prompted text performs (a) a speech feature extraction step, (b) a forced-alignment step using a native AM and non-native AM, and (c) a linear regression-based proficiency scoring step for the five proficiency scores. Meanwhile, the proposed method without the prompted text additionally performs Korean speech recognition and a subword un-segmentation for the missing text. The experimental results indicate that the proposed method with prompted text improves the performance for all scores when compared to a method employing conventional AMs. In addition, the proposed method without the prompted text has a fluency score performance comparable to that of the method with prompted text.

Concrete bridge deck deterioration model using belief networks

  • Njardardottir, Hrodny;McCabe, Brenda;Thomas, Michael D.A.
    • Computers and Concrete
    • /
    • 제2권6호
    • /
    • pp.439-454
    • /
    • 2005
  • When deterioration of concrete is observed in a structure, it is highly desirable to determine the cause of such deterioration. Only by understanding the cause can an appropriate repair strategy be implemented to address both the cause and the symptom. In colder climates, bridge deck deterioration is often caused by chlorides from de-icing salts, which penetrate the concrete and depassivate the embedded reinforcement, causing corrosion. Bridge decks can also suffer from other deterioration mechanisms, such as alkali-silica reaction, freeze-thaw, and shrinkage. There is a need for a comprehensive and integrative system to help with the inspection and evaluation of concrete bridge deck deterioration before decisions are made on the best way to repair it. The purpose of this research was to develop a model to help with the diagnosis of concrete bridge deck deterioration that integrates the symptoms observed during an inspection, various deterioration mechanisms, and the probability of their occurrence given the available data. The model displays the diagnosis result as the probability that one of four deterioration mechanisms, namely shrinkage, corrosion of reinforcement, freeze-thaw and alkali-silica reaction, is at fault. Sensitivity analysis was performed to determine which probabilities in the model require refinement. Two case studies are included in this investigation.

단어열 패턴 매칭과 Recurrent Neural Network를 이용한 하이브리드 음성 인식 오류 수정 방법 (Hybrid ASR Error Correction Using Word Sequence Pattern and Recurrent Neural Network)

  • 최준휘;류성한;이규송;박선영;유환조;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.129-132
    • /
    • 2015
  • 본 논문에서는 단어열 패턴과 리커런트 신경망을 이용한 하이브리드 음성 인식 오류 수정 방법을 제안한다. 음성 인식 결과 문장에서 음성 인식 오류 단어가 발견되었을 경우에 첫째로 단어열 패턴과 그 패턴의 발음열 점수를 통해 1차적 수정을 하고 적절한 패턴을 찾지 못하였을 경우 음절단위로 구성된 Recurrent Neural Network를 통해 단어를 음절단위로 생성하여 2차적으로 오류를 수정한다. 해당 방법론을 한국어로 된 음성 인식 오류와 그 정답 문장으로 구성된 TV 가이드 영역 말뭉치를 바탕으로 성능을 평가하였고, 기존의 단순 단어열 패턴 기반의 음성 인식 오류 수정보다 성능이 향상되었음을 볼 수 있었다. 이 방법론은 음성 인식 오류와 정답의 말뭉치가 필요 없이 옳은 문장으로만 구성된 일반 말뭉치만으로 훈련이 가능하여, 음성 인식 엔진에 의존적이지 않는 강점이 있다.

  • PDF

언어모델 군집화와 동적 언어모델 보간을 통한 음성인식 성능 향상 (LM Clustering based Dynamic LM Interpolation for ASR N-best Rescoring)

  • 정의석;전형배;정호영;박전규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.240-245
    • /
    • 2015
  • 일반영역 음성인식은 n-gram 희소성 문제로 인해 대용량의 언어모델이 필요하다. 대용량 언어모델은 분산형 모델로 구현될 수 있고, 사용자 입력에 대한 동적 언어모델 보간 기술을 통해 음성인식 성능을 개선할 수 있다. 본 논문은 동적 언어모델 보간 기술에 대한 새로운 접근방법을 시도한다. 텍스트 군집화를 통해 주제별 언어모델을 생성한다. 여기서 주제는 사용자 입력 영역에 대응한다. 본 논문은 사용자 입력에 대하여 실시간으로 주제별 언어모델의 보간 가중치 값을 계산하는 접근 방법을 제시한다. 또한 언어모델의 보간 가중치 값 계산의 부담을 감소하기 위해 언어모델 군집화를 통해 대용량 언어모델 보간 접근 방법의 연산 부담을 해소하기 위한 시도를 한다. 주제별 언어모델에 기반하고 언어모델 군집화를 통한 동적 언어모델 보간 기술의 실험 결과 음성인식 오류 감소율 6.89%를 달성했다. 또한 언어모델 군집화 기술은 음성인식 정확도를 0.09% 저하시켰을 때 실행 시간을 17.6% 개선시키는 실험결과를 보였다.

  • PDF

바이모달 음성인식기의 시각 특징 추출을 위한 색상 분석자 SVM을 이용한 입술 위치 검출 (Lip Detection using Color Distribution and Support Vector Machine for Visual Feature Extraction of Bimodal Speech Recognition System)

  • 정지년;양현승
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.403-410
    • /
    • 2004
  • 바이모달 음성인식기는 잡음 환경하 음성인식 성능을 향상하기 위해 고안되었다. 바이모달 음 성인식기에 있어 영상을 통한 시각 특징 추출은 매우 중요한 역할을 하며 이를 위한 입술 위치 검출은 시각 특징 추출을 위한 중요한 선결 과제이다 본 논문은 색상분포와 SVM을 이용하여 시각 특징 추출을 위한 입술 위치 검출 방법을 제안하였다. 제안된 방법은 얼굴색/입술 색상 분포를 학습하여 이로부터 입술의 초기 위치를 빠르게 찾아내고 SVM을 이용하여 입술의 정확한 위치를 찾음으로써 정확하고 빠르게 입술의 위치를 찾도록 하였으며 실험을 통해 바이모달 인식기에 적용하기에 적합함을 알 수 있었다.

위성항법시스템 기반 한국형 군용 정밀착륙체계 국내개발 방향 및 기술타당성 분석 (Feasibility Study on Domestic Development of a Precision-Landing System for Korean Military Based on GNSS)

  • 이기훈;안종선;이영재
    • 한국군사과학기술학회지
    • /
    • 제16권6호
    • /
    • pp.762-770
    • /
    • 2013
  • Korean military is currently using and operating a precision approach and landing system, called RAPCON (ASR/PAR), which is imported from overseas. However, drawbacks of this system are operational and cost problems that come along, e.g. straightness of the radio waves, limited ability of narrow searching, lack of interoperability, and high cost of installation and maintenance. Moreover, as the civilian air traffic control uses a similar system compared to the military, the so called DME/VOR/ILS, disturbance between these two systems triggered the consideration of GNSS as alternative system. In this paper, we conduct a research on trends in the field of precise approach and landing systems based on GNSS, analyze weaknesses of GNSS(jamming, fault) and consider possible solutions. Furthermore, we propose the precise approach and landing system based on GNSS to be used by the Korean military as we found it to be also suitable for military purposes. Finally, we examine the benefits of a domestic development with different focuses(development/cost of mass production/operational advantages and potential for increased performance).

Speech Query Recognition for Tamil Language Using Wavelet and Wavelet Packets

  • Iswarya, P.;Radha, V.
    • Journal of Information Processing Systems
    • /
    • 제13권5호
    • /
    • pp.1135-1148
    • /
    • 2017
  • Speech recognition is one of the fascinating fields in the area of Computer science. Accuracy of speech recognition system may reduce due to the presence of noise present in speech signal. Therefore noise removal is an essential step in Automatic Speech Recognition (ASR) system and this paper proposes a new technique called combined thresholding for noise removal. Feature extraction is process of converting acoustic signal into most valuable set of parameters. This paper also concentrates on improving Mel Frequency Cepstral Coefficients (MFCC) features by introducing Discrete Wavelet Packet Transform (DWPT) in the place of Discrete Fourier Transformation (DFT) block to provide an efficient signal analysis. The feature vector is varied in size, for choosing the correct length of feature vector Self Organizing Map (SOM) is used. As a single classifier does not provide enough accuracy, so this research proposes an Ensemble Support Vector Machine (ESVM) classifier where the fixed length feature vector from SOM is given as input, termed as ESVM_SOM. The experimental results showed that the proposed methods provide better results than the existing methods.

텔레메틱스 단말용 음성 인식을 위한 음성향상 알고리듬 및 칩 구현 (Implementation of Chip and Algorithm of a Speech Enhancement for an Automatic Speech Recognition Applied to Telematics Device)

  • 김형국
    • 한국ITS학회 논문지
    • /
    • 제7권5호
    • /
    • pp.90-96
    • /
    • 2008
  • 본 논문은 텔레메틱스 단말용 음성인식을 위한 음성향상 단일 칩 알고리듬을 제시한다. 제안된 방법은 잡음제거와 에코제거의 두 단계로 구성되어 있으며, 첫 단계로 크로스 스펙트럼 추정에 기반한 적응필터를 통해 에코를 제거하고, 두번째 단계로 Generalized Gamma분포기반의 LSA 음성추정 방식 추정을 통해 외부 배경잡음을 제거하여 음성의 음질을 향상시킨다. 적은 계산량이 요구되는 제안된 알고리즘을 토대로 구현된 단일 칩의 성능은 다양한 잡음환경에서 신호 대잡음비율과 음성인식 평가에서 기존의 방법보다 향상된 결과를 나타내었다.

  • PDF

염수대수층 내 담수 주입 변화에 따른 지하 담수체 거동에 대한 수치모의 (Numerical Study on Behavior of Underground Freshwater Body with Variation of Freshwater Injection in a Coastal Aquifer)

  • 정우창
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2015년도 학술발표회
    • /
    • pp.249-249
    • /
    • 2015
  • ASR(Aquifer Storage Recharge) 또는 ASTR(Aquifer Storage Transfer Recharge)과 같은 직접적인 지하수 인공함양기법은 대수층을 활용하여 수자원을 공급하고 관리하기 위한 적극적인 방안으로 고려될 수 있다. 이 중 ASTR 기법은 대규모 충적층이 발달한 강변 또는 하구에서 저류지 수생식물의 정화작용과 층적층의 물리/화학/생물학적 여과 기능을 활용하여 양질의 상수원수를 확보할 수 있는 기법이며, 수질이 나쁜 하천수를 직접 취수하여 정수처리하는 것에 비해 정수비용이 상대적으로 적게 들어 투자대비 경제적인 상수원수 확보기술이라 할 수 있다. 본 연구에서는 하구에 염수 대수층이 위치해 있다고 가정하였으며, 이러한 염수 대수층 내에 담수 주입 변화에 따른 지하 담수체의 거동을 4가지 시나리오에 따라 모의 및 분석을 통해 조사하였다. 염수 대수층 내에서 8개의 주입정과 1개의 양수정이 설치되어 있다고 가정하였으며, 주입정은 동심원 상에 등간격으로 위치해 있으며, 양수정은 동심원 중에 위치해 있다고 가정하였다. 본 연구에서 구성된 시나리오로 첫 번째는 주입정 8개 모두에서 동시에 주입되며, 1개의 양수정을 통해 양수되는 것이며, 두 번째는 7개의 주입정에 주입 그리고 1개의 주입정 폐쇄, 세 번째는 6개 주입정에 주입 및 양수정과 서로 마주보는 2개 주입정 폐쇄, 그리고 마지막으로 6개 주입정에 주입 및 서로 이웃한 2개 주입정 폐쇄이다.

  • PDF

Effectiveness of mineral additives in mitigating alkali-silica reaction in mortar

  • Nayir, Safa;Erdogdu, Sakir;Kurbetci, Sirin
    • Computers and Concrete
    • /
    • 제20권6호
    • /
    • pp.705-710
    • /
    • 2017
  • The effectiveness of mineral additives in suppressing alkali-silica reactivity has been studied in this work. Experimentation has been performed in accordance with the procedures prescribed in ASTM C 1567. In the scope of the investigation, a quarry aggregate which was reactive according to ASTM C 1260 was tested. In the experimental program, prismatic mortar specimens measuring $25{\times}25{\times}285mm$ were produced. Ten sets of production, three specimens for each set, were made. Length changes were measured at the end of 3, 7, 14 and 28 days and then expansions in percentage have been calculated. Fly ash, silica fume, and metakaolin have been used as cement replacement in different ratios for the testing of the alkali-silicate reactivity of the aggregate. In the mixes performed, the replacement ratios were 20%, 40%, and 60% for the fly ash, and 5%, 10%, and 15% for the silica fume, and 5%, 10%, and 15% for the metakaolin. Mixes without mineral additives were also produced for comparison. The beneficial effect in suppressing alkali-silica reactivity is highly noticeable as the replacement ratios of the mineral additives increase regardless of the type of the mineral additive used. Being more concise, the optimum concentrations of using silica fume and metakaolin in mortar in suppressing ASR is 10%, respectively, while it is 20% for fly ash.