• 제목/요약/키워드: Korean digit recognition

검색결과 138건 처리시간 0.023초

PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터 추출 및 한국어 4연숫자 전화음성에 대한 인식실험 (Extraction of MFCC feature parameters based on the PCA-optimized filter bank and Korean connected 4-digit telephone speech recognition)

  • 정성윤;김민성;손종목;배건성
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.279-283
    • /
    • 2004
  • 음성신호의 스펙트럼으로부터 MFCC를 추출할 때, 일반적으로 필터뱅크의 처리과정에서 삼각형 형태의 필터를 사용한다. 그러나 더 나은 인식성능을 위해, 훈련 음성데이터의 스펙트럼에 PCA를 적용하여 필터뱅크의 필터형태를 최적화하는 PCA-optimized 필터뱅크 방법이 Lee et al. 에 의해 제안되었다. 본 논문에서는 대용량의 4연숫자 전화음성 DB를 사용하여PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터를 추출하고 인식실험을 수행한 후, 기존의 삼각형 형태의 필터를 사용하는 MFCC와 각 대역별 로그에너지로 가중시켜서 얻어지는 MFCC와의 인식성능을 비교하였다. 실험결과, PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터가 기존의 삼각형 형태의 필터뱅크 기반 MFCC에 비해 조금 향상된 인식률을 나타내었지만, 각 대역별 로그에너지로 가중치를 주어 얻어지는 MFCC보다는 인식률이 떨어졌다.

회귀예측 신경모델과 카오스 신경회로망을 결합한 고립 숫자음 인식 (Isolated Digit Recognition Combined with Recurrent Neural Prediction Models and Chaotic Neural Networks)

  • 김석현;여지환
    • 한국지능시스템학회논문지
    • /
    • 제8권6호
    • /
    • pp.129-135
    • /
    • 1998
  • 본 논문은 서러 다른 접근방식을 사용하는 카오스 회귀 신경예측모델과 다층 신경회로망이 결합하여 고립음의 인식률을 높이고자 하였다. 전반적으로 다층신경회로망은 MLP와 결합한 인식률은 1.2%에서 2.5% 이상이 개선 되었다. 이는 서로 인식하는 방법이 다르기 때문에 서로 상호 보완되고, 카오스의 다이내믹 성질이 인식률을 개선시켰음을 실험으로 밝혔다. MLP와 결합한 인식률은 카오스 다층신경망일 때가 가장 좋았다. 그러나 학습시 알고리즘이 단순하고, 신뢰도 면에서는 오히려 카오스 단층 신경망이 인식률은 0.5%정도 떨어지지만 더욱 좋다고 생각된다. 주로 MLP는 숫자음 “일”과 “오”에서 우수한 성적을 나타내었고, 카오스 예측 신경망은 숫자음 “영”, “삼”, “칠”에서 우수하였다.

  • PDF

단층 신경망과 이중 기각 방법을 이용한 문자인식 (Single-Layer Neural Networks with Double Rejection Mechanisms for Character Recognition)

  • 임준호;채수익
    • 전자공학회논문지B
    • /
    • 제32B권3호
    • /
    • pp.522-532
    • /
    • 1995
  • Multilayer neural networks with backpropagation learning algorithm are widely used for pattern classification problems. For many real applications, it is more important to reduce the misclassification rate than to increase the rate of successful classification. But multilayer perceptrons(MLP's) have drawbacks of slow learning speed and false convergence to local minima. In this paper, we propose a new method for character recognition problems with a single-layer network and double rejection mechanisms, which guarantees a very low misclassification rate. Comparing to the MLP's, it yields fast learning and requires a simple hardware architecture. We also introduce a new coding scheme to reduce the misclassification rate. We have prepared two databases: one with 135,000 digit patterns and the other with 117,000 letter patterns, and have applied the proposed method for printed character recognition, which shows that the method reduces the misclassification rate significantly without sacrificing the correct recognition rate.

  • PDF

CNN 기반 딥러닝을 이용한 임베디드 리눅스 양각 문자 인식 시스템 구현 (An Implementation of Embedded Linux System for Embossed Digit Recognition using CNN based Deep Learning)

  • 유연승;김정길;홍충표
    • 반도체디스플레이기술학회지
    • /
    • 제19권2호
    • /
    • pp.100-104
    • /
    • 2020
  • Over the past several years, deep learning has been widely used for feature extraction in image and video for various applications such as object classification and facial recognition. This paper introduces an implantation of embedded Linux system for embossed digits recognition using CNN based deep learning methods. For this purpose, we implemented a coin recognition system based on deep learning with the Keras open source library on Raspberry PI. The performance evaluation has been made with the success rate of coin classification using the images captured with ultra-wide angle camera on Raspberry PI. The simulation result shows 98% of the success rate on average.

반음절 문맥종속 모델을 이용한 한국어 4 연숫자음 인식에 관한 연구 (A Study on Korean 4-connected Digit Recognition Using Demi-syllable Context-dependent Models)

  • 이기영;최성호;이호영;배명진
    • 한국음향학회지
    • /
    • 제22권3호
    • /
    • pp.175-181
    • /
    • 2003
  • 한국어 숫자음은 단음절이며 연결된 숫자음 사이에 연음현상의 영향 때문에 한국어 연결 숫자음의 인식방법으로 반음절에 기반한 모델들이 제시되어 왔다. 기존에 제안된 반음절이나 반음절+반음절의 인식모델을 이용한 방법에서는 아직까지 우수한 인식성능을 보이지 못하고 있다. 본 논문에서는 확장된 문맥종속 반음절 모델을 이용한 한국어 4 연숫자음 인식방법을 제안한다. 실험에서 연결숫자음은 SiTEC의 4 연숫자음 데이터 베이스를 사용하였으며 학습과 인식방법으로는 HTK 3.0의 C-HMM을 이용하였다. 기존의 방법들과 인식율을 비교해 본 결과, 92%의 비교적 우수한 인식성능을 보였다.

한국어 연결숫자인식을 위한 숫자 모델링에 관한 연구 (A Study on Digit Modeling for Korean Connected Digit Recognition)

  • 김기성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.293-297
    • /
    • 1998
  • 전화망에서의 연결 숫자 인식 시스템의 개발에 대한 내용을 다루며, 이 시스템에서 다양한 숫자 모델링 방법들을 구현하고 비겨하였다. Word 모델의 경우 문맥독립 whole-word 모델을 구현하였으며, sub-word 모델로는 triphone 모델과 불파음화 자음을 모음에 포함시킨 modified triphone 모델을 구현하였다. 그리고 tree-based clustering 방법을 sub-word 모델과 문맥종속 whole-word 모델에 적용하였다. 이와 같은 숫자모델들에 대해 연속 HMM을 이용하여 화자독립 연결숫자 인식 실험을 수행한 결과, 문맥종속 단어 모델이 문맥독립 단어 모델보다 우수한 성능을 나타냈으며, triphone 모델과 modified triphone 모델은 유사한 성능을 나타냈다. 특히 tree-based clustering 방법을 적용한 문맥종속 단어 모델이 4연 숫자열에 대해 99.8%의 단어 dsltlr률 및 99.1%의 숫자열 인식률로서 가장 우수한 성능을 나타내었다.

  • PDF

한국어 숫자음에서의 음운변화를 고려한 연결숫자 인식의 성능향상 (Performance Improvement of Connected Digit Recognition by Considering Phoneme Variations in Korean Digit.)

  • 송명규;김형순
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.105-108
    • /
    • 2001
  • 한국어 숫자는 각 숫자가 단음절로 이루어져 있으며, 연속적으로 발음될 때 인접 숫자들의 상호조음현상에 의해 각 숫자의 고유 발음이 변화하고, 또한 그 숫자들의 경계도 모호해지는 문제점이 있다. 한편 연속적인 숫자의 발성을 기대하는 인식시스템에 반하여 일부 사용자는 숫자들을 고려시켜서 발성하기도 한다. 이는 연결숫자의 음운현상만을 고려한 인식 시스템에서는 성능저하의 한 원인이 된다 본 논문에서는 연결숫자의 인식성능 향상을 위해서 한국어 숫자들의 음운 변화를 고려하여 변이음군을 정하였으며, 사용자의 여러 가지 발성형태에 따른 다양한 음운 현상의 변화를 흡수 할 수 있도록 인식 네트웍을 구성하는 방식을 검토하였다. 전화망 4연숫자음을 이용한 화자독립 인식실험을 통해서 한국어 숫자에서 자주 오인식 되는 '이', '오', '일' 인식 성능이 각각 $4..2\%$, $4.2\%$, $2.9\%$씩 향상되었으며, 인식속도도 $33\%$의 개선이 있었다

  • PDF

KL 변환을 이용한 multilayer perceptron에 의한 한국어 연속 숫자음 인식 (Korean continuous digit speech recognition by multilayer perceptron using KL transformation)

  • 박정선;권장우;권정상;이응혁;홍승홍
    • 전자공학회논문지B
    • /
    • 제33B권8호
    • /
    • pp.105-113
    • /
    • 1996
  • In this paper, a new korean digita speech recognition technique was proposed using muktolayer perceptron (MLP). In spite of its weakness in dynamic signal recognition, MLP was adapted for this model, cecause korean syllable could give static features. It is so simle in its structure and fast in its computing that MLP was used to the suggested system. MLP's input vectors was transformed using karhunen-loeve transformation (KLT), which compress signal successfully without losin gits separateness, but its physical properties is changed. Because the suggested technique could extract static features while it is not affected from the changes of syllable lengths, it is effectively useful for korean numeric recognition system. Without decreasing classification rates, we can save the time and memory size for computation using KLT. The proposed feature extraction technique extracts same size of features form the tow same parts, front and end of a syllable. This technique makes frames, where features are extracted, using unique size of windows. It could be applied for continuous speech recognition that was not easy for the normal neural network recognition system.

  • PDF

개선된 경쟁학습을 이용한 음성인식 (A Study on the Speech Recognition using Advanced Competitive Learning)

  • 송준규;이동욱;김영태
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1997년도 추계학술대회 논문집 학회본부
    • /
    • pp.594-596
    • /
    • 1997
  • This paper presents the speaker-dependent Korean isolated digit recognition system using advanced competitive learning. Since competitive learning algorithms are easy and simple to implement, they are used in various fields. The proposed recognition algorithm consists of three procedures: comparing winning number of codebook vectors, selecting the representative vector out of codebook vectors, and generating a new codebook with the representative vectors. In this paper, we use a sound blaster 16 for obtaining speech data. Speech data are sampled by 16 bits and 11 kHz sampling rate.

  • PDF

가중 거리 개념이 도입된 HCNN을 이용한 화자 독립 숫자음 인식에 관한 연구 (Speaker-Independent Korean Digit Recognition Using HCNN with Weighted Distance Measure)

  • 김도석;이수영
    • 한국통신학회논문지
    • /
    • 제18권10호
    • /
    • pp.1422-1432
    • /
    • 1993
  • HCNN(Hidden Control Neural Network)은 신경회로망에 의한 비선형 예측과 HMM의 segmentation 기능을 접합시킨 신경회로망 모델로서, 시간에 따라 입출력 사상 함수를 변화시킴으로써 음성 신호를 잘 모델링할 수 있도록 되어 있다. 본 논물에서는 첫째, HCNN의 성능이 HMM보다 우수함을 보이고, 둘째로, HCNN에서의 예측 오차 측정에 적절한 거리 측도를 이용하기 위해 가중거리가 도입된 HCNN을 제안하여, 화자 독립 음성 인식에 있어 그 성능이 우수함을 보였다. 여기서 가중거리는 음성 특징 벡터 각 구성 성분의 분산도 차이를 고려한 거리이다. 화자 독립 숫자음 인식 실험 결과, 유클리드 저리를 이용한 HCNN에 대해 95%의 인식율을 얻었는데, 이는 HMM에 비해 1.28% 높은 결과로서, 확률적인 제한이 가해진 HMM에 비해 시스템의 동작인 모델링을 이용한 HCNN이 더 우수함을 알 수 있다. 또한 가중거리를 이용한 CNN에 대해서는 97.35%의 인식율을 얻었는데, 이는 유클리드 거리를 이용한HCNN에 비해 2.3%가 향상된 결과이다. 가중 거리를 도입한 HCHN의 경우에 더 높은 인식율을 얻은 이유는, 오인식이 많이 되는 화자의 인식율을 높임으로써 화자간의 인식율차가 감소하게 되기 때문임을 알 수 있었고, 따라서 화자 독립 음성인식에 가중거리를 도입한 HCNN이 보다 적합합을 알 수 있다.

  • PDF