• Title/Summary/Keyword: 인식 모델

Search Result 4,429, Processing Time 0.034 seconds

Korean speech recognition based on grapheme (문자소 기반의 한국어 음성인식)

  • Lee, Mun-hak;Chang, Joon-Hyuk
    • The Journal of the Acoustical Society of Korea
    • /
    • v.38 no.5
    • /
    • pp.601-606
    • /
    • 2019
  • This paper is a study on speech recognition in the Korean using grapheme unit (Cho-sumg [onset], Jung-sung [nucleus], Jong-sung [coda]). Here we make ASR (Automatic speech recognition) system without G2P (Grapheme to Phoneme) process and show that Deep learning based ASR systems can learn Korean pronunciation rules without G2P process. The proposed model is shown to reduce the word error rate in the presence of sufficient training data.

Named Entity Recognition based on ELECTRA with Dictionary Features and Dynamic Masking (사전 기반 자질과 동적 마스킹을 이용한 ELECTRA 기반 개체명 인식)

  • Kim, Jungwook;Whang, Taesun;Kim, Bongsu;Lee, Saebyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.509-513
    • /
    • 2021
  • 개체명 인식이란, 문장에서 인명, 지명, 기관명, 날짜, 시간 등의 고유한 의미의 단어를 찾아서 미리 정의된 레이블로 부착하는 것이다. 일부 단어는 문맥에 따라서 인명 혹은 기관 등 다양한 개체명을 가질 수 있다. 이로 인해, 개체명에 대한 중의성을 가지고 있는 단어는 개체명 인식 성능에 영향을 준다. 본 논문에서는 개체명에 대한 중의성을 최소화하기 위해 사전을 구축하여 ELECTRA 기반 모델에 적용하는 학습 방법을 제안한다. 또한, 개체명 인식 데이터의 일반화를 개선시키기 위해 동적 마스킹을 이용한 데이터 증강 기법을 적용하여 실험하였다. 실험 결과, 사전 기반 모델에서 92.81 %로 성능을 보였고 데이터 증강 기법을 적용한 모델은 93.17 %로 높은 성능을 보였다. 사전 기반 모델에서 추가적으로 데이터 증강 기법을 적용한 모델은 92.97 %의 성능을 보였다.

  • PDF

Illumination Robust Face Recognition using Ridge Regressive Bilinear Models (Ridge Regressive Bilinear Model을 이용한 조명 변화에 강인한 얼굴 인식)

  • Shin, Dong-Su;Kim, Dai-Jin;Bang, Sung-Yang
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.1
    • /
    • pp.70-78
    • /
    • 2007
  • The performance of face recognition is greatly affected by the illumination effect because intra-person variation under different lighting conditions can be much bigger than the inter-person variation. In this paper, we propose an illumination robust face recognition by separating identity factor and illumination factor using the symmetric bilinear models. The translation procedure in the bilinear model requires a repetitive computation of matrix inverse operation to reach the identity and illumination factors. Sometimes, this computation may result in a nonconvergent case when the observation has an noisy information. To alleviate this situation, we suggest a ridge regressive bilinear model that combines the ridge regression into the bilinear model. This combination provides some advantages: it makes the bilinear model more stable by shrinking the range of identity and illumination factors appropriately, and it improves the recognition performance by reducing the insignificant factors effectively. Experiment results show that the ridge regressive bilinear model outperforms significantly other existing methods such as the eigenface, quotient image, and the bilinear model in terms of the recognition rate under a variety of illuminations.

Decision Tree for Likely phoneme model schema support (유사 음소 모델 스키마 지원을 위한 결정 트리)

  • Oh, Sang-Yeob
    • Journal of Digital Convergence
    • /
    • v.11 no.10
    • /
    • pp.367-372
    • /
    • 2013
  • In Speech recognition system, there is a problem with phoneme in the model training and it cause a stored mode regeneration process which come into being appear time and more costs. In this paper, we propose the methode of likely phoneme model schema using decision tree clustering. Proposed system has a robust and correct sound model which system apply the decision tree clustering methode form generate model, therefore this system reduce the regeneration process and provide a retrieve the phoneme unit in probability model. Also, this proposed system provide a additional likely phoneme model and configured robust correct sound model. System performance as a result of represent vocabulary dependence recognition rate of 98.3%, vocabulary independence recognition rate of 98.4%.

An Accurate Stochastic Model for the Pen Trajectory-Based OCR (필기영상의 동적 정보 추출 및 인식을 위한 통계적 모형)

  • 신봉기
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.395-397
    • /
    • 2003
  • 온라인 필기 인식기의 필기 모델을 응용하여 오프라인 한글 필기의 필기 궤적을 추적하고 인식하는 방법을 제안한다. 사용한 온라인 모델은 HMM의 망으로 구성한 조합형 한글 필기 모델 BongNet이다. 그리고 시계열 신호의 길이에 대한 모델이 전혀 없는 표준 HMM 대신 동적인 연속 출력 nonstationary HMM 을 이용한 방법을 기술하였다. 획 추적 계산 과정에는 프레임 동기 알고리즘을 적용한다 HMM의 각 상태는 가능한 필기 궤적상의 위치에 대한 정보를 기록한다. 매 시각마다 최종 상태의 후보 중에서 모든 획을 완전히 지나는 경로가 있는지를 조사한다. 본 방법은 문자영상에서 온라인 시계열 코드를 만들어 가는 과정이며 코드와 동시에 인식결과를 출력한다.

  • PDF

Analysis of Elm Topology Optimization Criteria for Handwriting Recognition (필기 데이터 인식을 위한 HMM 구조 최적화 기준에 대한 분석)

  • 박미나;하진영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.571-573
    • /
    • 2002
  • 음성인식과 온라인 필기인식에서 우수한 성능을 보이는 은닉 마르코프(HMM)의 HMM의 구조는 휴리스틱 한 방법에 의해 결정되는 것이 일반적이기 때문에 최적의 모델을 선택하는데 어려움이 있다. 이에 본 논문에서는 HMM의 구조를 체계적인 방법으로 정함과 동시에 변별력의 단점을 개선 할 수 있는 방법으로 Anti-likelihood를 이용한 모델간의 변별력을 살펴보고 최적의 모델 선택 기준인 BIC와의 결합하여, 체계적이고 효율적인 최적 모델 선택이 가능한 방법론에 대해 연구하고 필기데이터에 대해 검증한 결과, 기존의 방법보다 파라미터의 수는 감소되고 인식률이 향상됨을 알 수 있다.

  • PDF

Performance Improvement of Continuous Digits Speech Recognition using the Transformed Successive State Splitting and Demi-syllable pair (반음절쌍과 변형된 연쇄 상태 분할을 이용한 연속 숫자음 인식의 성능 향상)

  • Kim Dong-Ok;Park No-Jin
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.9 no.8
    • /
    • pp.1625-1631
    • /
    • 2005
  • This paper describes an optimization of a language model and an acoustic model that improve the ability of speech recognition with Korean nit digit. Recognition errors of the language model are decreasing by analysis of the grammatical feature of korean unit digits, and then is made up of fsn-node with a disyllable. Acoustic model make use of demi-syllable pair to decrease recognition errors by inaccuracy division of a phone, a syllable because of a monosyllable, a short pronunciation and an articulation. we have used the k-means clustering algorithm with the transformed successive state splining in feature level for the efficient modelling of the feature of recognition unit . As a result of experimentations, $10.5\%$ recognition rate is raised in the case of the proposed language model. The demi-syllable pair with an acoustic model increased $12.5\%$ recognition rate and $1.5\%$ recognition rate is improved in transformed successive state splitting.

Improvement of Speech Recognition System Using the Trained Model of Speech Feature (음성특성 학습 모델을 이용한 음성인식 시스템의 성능 향상)

  • 송점동
    • The Journal of Information Technology
    • /
    • v.3 no.4
    • /
    • pp.1-12
    • /
    • 2000
  • We can devide the speech into high frequency speech and low frequency speech according to the feature of the speech, However so far the construction of the recognizer without concerning this feature causes low recognition rate relatively and the needs of an amount of data in the research on the speech recognition. In this paper, we propose the method that can devide this feature of speaker's speech using the Formant frequency, and the method that can recognize the speech after constructing the recognizer model reflecting the feature of the high and low frequency of the speaker's speech, For the experiment we constructed the recognizer model using 47 mono-phone of Korean and trained the recognizer model using 20 women's and men's speech respectively. We divided the feature of speech using the Formant frequency Table, that had been consisted of the Formant frequency, and the value of pitch, and then We performed recognition using the trained model according to the feature of speech The proposed system outperformed the existing method in the recognition rate, as the result.

  • PDF

Evaluation of Word Recognition System For Mobile Telephone (이동전화를 위한 단어 인식기의 성능평가)

  • Kim Min-Jung;Hwang Cheol-Jun;Chung Ho-Youl;Chung Hyun-Yeol
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.92-95
    • /
    • 1999
  • 본 논문에서는 음성에 의해 구동되는 이동천화를 구현하기 위한 기초 실험으로서, 이동전화상에서 많이 사용되는 단어 데이터를 직접 채록하여 단어 인식 실험을 수행하여 인식기의 성능을 평가하였다. 인식 실험에 사용된 단어 데이터베이스는 서울 화자 360명(남성화자 180명, 여성화자 180명), 41상도 화자 240명(남성화자 120명, 여성화자 120명)으로 구성된 600명의 발성을 이용하여 구성하였다. 발성 단어는 이동전화에 주로 사용되는 중요 기능과 제어 단어, 그리고 숫자음을 포함한 55개 단어로 구성되었으며, 각 화자가 3회씩 발성하였다. 데이터의 채집환경은 잡음이 다소 있는 사무실환경이며, 샘플링율은 8kHz였다. 인식의 기본단위는 48개의 유사음소단위(Phoneme Like Unit : PLU)를 사용하였으며, 정적 특징으로 멜켑스트럼과 동적 특징으로 회귀계수를 특징 파라미터로 사용하였다. 인식실험에서는 OPDP(One Pass Dynamic Programming)알고리즘을 사용하였다. 인식실험을 위한 모델은 각 지역에 따라 학습을 수행한 모델과, 지역에 상관없이 학습한 모델을 만들었으며, 기존의 16Htz의 초기 모델에 8kHz로 채집된 데이터를 적응화시키는 방법을 이용하여 학습을 수행하였다. 인식실험에 있어서는 각 지역별 모델과 지역에 관계없이 학습한 모델에 대하여, 각 지역별로, 그리고 지역에 관계없이 평가용 데이터로 인식실험을 수행하였다 인식실험 결과, $90\%$이상의 비교적 높은 인식률을 얻어 인식시스템 성능의 유효성을 확인할 수 있었다.

  • PDF

Deep Learning Model Selection Platform for Object Detection (사물인식을 위한 딥러닝 모델 선정 플랫폼)

  • Lee, Hansol;Kim, Younggwan;Hong, Jiman
    • Smart Media Journal
    • /
    • v.8 no.2
    • /
    • pp.66-73
    • /
    • 2019
  • Recently, object recognition technology using computer vision has attracted attention as a technology to replace sensor-based object recognition technology. It is often difficult to commercialize sensor-based object recognition technology because such approach requires an expensive sensor. On the other hand, object recognition technology using computer vision may replace sensors with inexpensive cameras. Moreover, Real-time recognition is viable due to the growth of CNN, which is actively introduced into other fields such as IoT and autonomous vehicles. Because object recognition model applications demand expert knowledge on deep learning to select and learn the model, such method, however, is challenging for non-experts to use it. Therefore, in this paper, we analyze the structure of deep - learning - based object recognition models, and propose a platform that can automatically select a deep - running object recognition model based on a user 's desired condition. We also present the reason we need to select statistics-based object recognition model through conducted experiments on different models.