• 제목/요약/키워드: Recognition sequence

검색결과 478건 처리시간 0.026초

Error Correction for Korean Speech Recognition using a LSTM-based Sequence-to-Sequence Model

  • Jin, Hye-won;Lee, A-Hyeon;Chae, Ye-Jin;Park, Su-Hyun;Kang, Yu-Jin;Lee, Soowon
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권10호
    • /
    • pp.1-7
    • /
    • 2021
  • 현재 대부분의 음성인식 오류 교정에 관한 연구는 영어를 기준으로 연구되어 한국어 음성인식에 대한 연구는 미비한 실정이다. 하지만 영어 음성인식에 비해 한국어 음성인식은 한국어의 언어적인 특성으로 인해 된소리, 연음 등의 발음이 있어, 비교적 많은 오류를 보이므로 한국어 음성인식에 대한 연구가 필요하다. 또한, 기존의 한국어 음성인식 연구는 주로 편집 거리 알고리즘과 음절 복원 규칙을 사용하기 때문에, 된소리와 연음의 오류 유형을 교정하기 어렵다. 본 연구에서는 된소리, 연음 등 발음으로 인한 한국어 음성인식 오류를 교정하기 위하여 LSTM을 기반으로 한 인공 신경망 모델 Sequence-to-Sequence와 Bahdanau Attention을 결합하는 문맥 기반 음성인식 후처리 모델을 제안한다. 실험 결과, 해당 모델을 사용함으로써 음성인식 성능은 된소리의 경우 64%에서 77%, 연음의 경우 74%에서 90%, 평균 69%에서 84%로 인식률이 향상되었다. 이를 바탕으로 음성인식을 기반으로 한 실제 응용 프로그램에도 본 연구에서 제안한 모델을 적용할 수 있다고 사료된다.

Reference String Recognition based on Word Sequence Tagging and Post-processing: Evaluation with English and German Datasets

  • Kang, In-Su
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권5호
    • /
    • pp.1-7
    • /
    • 2018
  • Reference string recognition is to extract individual reference strings from a reference section of an academic article, which consists of a sequence of reference lines. This task has been attacked by heuristic-based, clustering-based, classification-based approaches, exploiting lexical and layout characteristics of reference lines. Most classification-based methods have used sequence labeling to assign labels to either a sequence of tokens within reference lines, or a sequence of reference lines. Unlike the previous token-level sequence labeling approach, this study attempts to assign different labels to the beginning, intermediate and terminating tokens of a reference string. After that, post-processing is applied to identify reference strings by predicting their beginning and/or terminating tokens. Experimental evaluation using English and German reference string recognition datasets shows that the proposed method obtains above 94% in the macro-averaged F1.

HMM을 이용한 지휘 동작의 인식 (Recognition of Conducting Motion using HMM)

  • 문형득;구자영
    • 한국컴퓨터정보학회논문지
    • /
    • 제9권1호
    • /
    • pp.25-30
    • /
    • 2004
  • 본 논문은 지휘자의 지휘 동작으로부터 일련의 영상들을 추출하여 지휘자가 지휘하는 박자를 인식하는 방법을 제안하고 있다 색상판별에 의해서 손의 위치를 감지하였으며 양자화를 통해서 그 위치를 기호화함으로써 지휘 동작을 일련의 기호로 표현하였다. 변형을 포함하는 기호열의 인식에 좋은 결과를 보이는 HMM(Hidden Markov Model)을 사용함으로써 표현된 기호열을 지휘박자로 인식하도록 하는 시스템을 구성하였다.

  • PDF

Shape Sequence 기술자를 이용한 게이트 인식 (Gait Recognition Using Shape Sequence Descriptor)

  • 정승도
    • 한국산학기술학회논문지
    • /
    • 제12권5호
    • /
    • pp.2339-2345
    • /
    • 2011
  • 게이트 인식은 원 거리에서 획득한 사람의 걸음걸이 영상 시퀀스를 이용하여 개개인의 특징을 파악하여 해당 시퀀스가 누구인지를 파악하고자 하는 방법이다. 지문 인식이나 홍채 인식과 같은 기존의 생체 인식 방법은 정확도는 매우 높으나 사용자로 하여금 정보 제공을 위해 직접적인 접촉이나 근접 촬영 등 불편한 행위가 수반되는 단점이 있다. 게이트 인식은 원거리 영상으로 인식을 시도할 수 있기 때문에 새로운 생체 인식 방법으로 많은 연구가 진행되고 있다. 게이트 인식을 위해서는 한 장의 영상이 아니라 연속적인 걸음걸이 시퀀스로부터 개개인을 구별할 수 있는 특징을 추출하여야 한다. 따라서 본 논문에서는 객체의 움직임 시퀀스에 대한 특징을 기술할 수 있는 shape sequence 기술자를 이용한 게이트 인식 방법을 제안하고, 다양한 실험을 통해 사람을 구별할 수 있는 인식 기법으로서의 가능성을 제시한다.

Improvement of Recognition Performance for Limabeam Algorithm by using MLLR Adaptation

  • Nguyen, Dinh Cuong;Choi, Suk-Nam;Chung, Hyun-Yeol
    • 대한임베디드공학회논문지
    • /
    • 제8권4호
    • /
    • pp.219-225
    • /
    • 2013
  • This paper presents a method using Maximum-Likelihood Linear Regression (MLLR) adaptation to improve recognition performance of Limabeam algorithm for speech recognition using microphone array. From our investigation on Limabeam algorithm, we can see that the performance of filtering optimization depends strongly on the supporting optimal state sequence and this sequence is created by using Viterbi algorithm trained with HMM model. So we propose an approach using MLLR adaptation for the recognition of speech uttered in a new environment to obtain better optimal state sequence that support for the filtering parameters' optimal step. Experimental results show that the system embedded with MLLR adaptation presents the word correct recognition rate 2% higher than that of original calibrate Limabeam and also present 7% higher than that of Delay and Sum algorithm. The best recognition accuracy of 89.4% is obtained when we use 4 microphones with 5 utterances for adaptation.

다중 관측열을 토대로한 HMM에 의한 음성 인식에 관한 연구 (A study on the speech recognition by HMM based on multi-observation sequence)

  • 정의봉
    • 전자공학회논문지S
    • /
    • 제34S권4호
    • /
    • pp.57-65
    • /
    • 1997
  • The purpose of this paper is to propose the HMM (hidden markov model) based on multi-observation sequence for the isolated word recognition. The proosed model generates the codebook of MSVQ by dividing each word into several sections followed by dividing training data into several sections. Then, we are to obtain the sequential value of multi-observation per each section by weighting the vectors of distance form lower values to higher ones. Thereafter, this the sequential with high probability value while in recognition. 146 DDD area names are selected as the vocabularies for the target recognition, and 10LPC cepstrum coefficients are used as the feature parameters. Besides the speech recognition experiments by way of the proposed model, for the comparison with it, the experiments by DP, MSVQ, and genral HMM are made with the same data under the same condition. The experiment results have shown that HMM based on multi-observation sequence proposed in this paper is proved superior to any other methods such as the ones using DP, MSVQ and general HMM models in recognition rate and time.

  • PDF

비디오 영상 기반의 얼굴 검색 (Face Detection based on Video Sequence)

  • 안효창;이상범
    • 반도체디스플레이기술학회지
    • /
    • 제7권3호
    • /
    • pp.45-49
    • /
    • 2008
  • Face detection and tracking technology on video sequence has developed indebted to commercialization of teleconference, telecommunication, front stage of surveillance system using face recognition, and video-phone applications. Complex background, color distortion by luminance effect and condition of luminance has hindered face recognition system. In this paper, we have proceeded to research of face recognition on video sequence. We extracted facial area using luminance and chrominance component on $YC_bC_r$ color space. After extracting facial area, we have developed the face recognition system applied to our improved algorithm that combined PCA and LDA. Our proposed algorithm has shown 92% recognition rate which is more accurate performance than previous methods that are applied to PCA, or combined PCA and LDA.

  • PDF

반음절기반의 한국어 연속숫자음인식과 그 후처리에 대한 연구 (A Study on Korean Connected Digit Recognizer Based on Semi-syllable and Post-processing)

  • 정재부;정훈;정익주
    • 음성과학
    • /
    • 제8권4호
    • /
    • pp.1-15
    • /
    • 2001
  • This paper describes the effect of new recognition unit, a unit based on semisyllable, and its post processing method. A recognition unit based on semi-syllable expresses Korean connected digit's coarticulation effect. An existing method using semi-syllable limits next models, derived from current recognized models, to make complete connected digit sequence. However, this paper uses a new method to make complete connected digit sequence. The new post-processing method recognizes isolated digit words which include digits sequence from the digit combinations being able to occur from current recognized semi-syllable sequence. This method gives an improved accuracy rate than that of existing method. This new post processing provides two advantages. 1) It corrects current mis-recognized semi-syllable unit. 2) When people say each digit, they say it without regard to saying duration.

  • PDF

음성 인식을 위한 sequence-to-sequence 심층 신경망의 이중 attention 기법 (Double-attention mechanism of sequence-to-sequence deep neural networks for automatic speech recognition)

  • 육동석;임단;유인철
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.476-482
    • /
    • 2020
  • 입력열과 출력열의 길이가 다른 경우 attention 기법을 이용한 sequence-to-sequence 심층 신경망이 우수한 성능을 보인다. 그러나, 출력열의 길이에 비해서 입력열의 길이가 너무 긴 경우, 그리고 하나의 출력값에 해당하는 입력열의 특성이 변화하는 경우, 하나의 문맥 벡터(context vector)를 사용하는 기존의 attention 방법은 적당하지 않을 수 있다. 본 논문에서는 이러한 문제를 해결하기 위해서 입력열의 왼쪽 부분과 오른쪽 부분을 각각 개별적으로 처리할 수 있는 두 개의 문맥 벡터를 사용하는 이중 attention 기법을 제안한다. 제안한 방법의 효율성은 TIMIT 데이터를 사용한 음성 인식 실험을 통하여 검증하였다.

3차원 모델을 이용한 입모양 인식 알고리즘에 관한 연구 (A study on the lip shape recognition algorithm using 3-D Model)

  • 김동수;남기환;한준희;배철수;나상동
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 1998년도 추계종합학술대회
    • /
    • pp.181-185
    • /
    • 1998
  • 최근 통신 시스템의 연구와 발전 방향은 목소리의 음성 정보와 말하는 얼굴 영상의 화상 정보를 함께 적용하므로서 음성 정보만을 제공하는 경우보다 높은 인식율을 제공한다. 따라서 본 연구는 청각장애자들의 언어 대체수단 중 하나인 구화(speechreading)에서 가장 시각적 변별력이 높은 독순(lipreading)을 PC에서 구현하고자 한다. 간 논문은 기존의 방법과 달리 말하는 영상 시퀀스에서 독순(lipreading)을 행하기 위해 3차원 모델을 사용하여 입의 벌어진 정도, 턱의 움직임, 입술의 돌출과 같은 3차원 특징 정보를 제공하였다. 이와 같은 특징 정보를 얻기 위해 3차원 형상 모델을 입력 동영상에 정합시키고 정합된 3차원모델에서 각 특징점의 변화량을 인식파라미터로 사용하였다. 그리고, 인식 단위로 동영상을 분리하는 방법은 3차원 특징점 변화량에서 얻어지는 강도의 기울기에 의한다. 인식은 다차원(multi-dimensional), 다단계 라벨링 방법을 사용하여 3차원 특징벡터를 입력으로 한 이산 HMM을 사용하였다.

  • PDF