• 제목/요약/키워드: Connected Digit Speech Recognition

검색결과 30건 처리시간 0.038초

한국어 연결 숫자음 인식을 일한 최대 사후 Eigenvoice에 근거한 자기적응 기법 (Self-Adaptation Algorithm Based on Maximum A Posteriori Eigenvoice for Korean Connected Digit Recognition)

  • 김동국;전형배
    • 한국음향학회지
    • /
    • 제23권8호
    • /
    • pp.590-596
    • /
    • 2004
  • 본 논문에서는 한국어 연결 숫자음 인식을 위한 최대 사후 eigenvoice을 사용한 자기적응 기법을 제안한다. 제안된 최대 사후 eigenvoice 기법은 eigenvoice 계수에 대한 확률 밀도 함수를 가정함으로 구성된다. 제안된 알고리즘은 기존 eigenvoice 추정 과정에 선 분포 모델을 포함하는 일반적인 해를 제공하는 구조를 갖는다. 인식할 한 문장만을 사용하는 자기 적응 시스템을 위해 매우 강인한 특성을 갖는 최대 사후 eigenvoice 적응 기법을 사용하였다. 한국어 연결 숫자음에 대한 일련의 자기 적응 실험결과 제안된 알고리즘의 성능은 매우 적은 량의 적응 데이터에 대해 기존 eigenvoice 알고리즘에 비해 우수한 성능을 나타냈었다.

Telephone Speech Recognition with Data-Driven Selective Temporal Filtering based on Principal Component Analysis

  • Jung Sun Gyun;Son Jong Mok;Bae Keun Sung
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 학술대회지
    • /
    • pp.764-767
    • /
    • 2004
  • The performance of a speech recognition system is generally degraded in telephone environment because of distortions caused by background noise and various channel characteristics. In this paper, data-driven temporal filters are investigated to improve the performance of a specific recognition task such as telephone speech. Three different temporal filtering methods are presented with recognition results for Korean connected-digit telephone speech. Filter coefficients are derived from the cepstral domain feature vectors using the principal component analysis.

  • PDF

숫자음 분석과 인식에 관한 연구 (A Study on Spoken Digits Analysis and Recognition)

  • 김득수;황철준
    • 한국산업정보학회논문지
    • /
    • 제6권3호
    • /
    • pp.107-114
    • /
    • 2001
  • 본 논문에서는 한국어의 음성학적 규칙을 적용한 연속 숫자음 인식에 관하여 연구한다. 연속 숫자음의 인식률은 일반적으로 음성인식 시스템 중에서 낮은 인식률을 나타낸다. 따라서 숫자음에 대하여 강건한 모델을 작성하기 위하여 음성 특징 파라미터와 음성학적 규칙을 적용하고 실험을 통하여 그 유효성을 확인하고자 한다. 이를 위하여 음성자료로는 국어공학센터(KLE)에서 채록한 4연속 숫자음을 사용하며 인식의 기본단위로서는 음성학적 규칙을 적용한 19개의 연속분포 HMM을 유사음소 단위(PLUs)로 사용한다. 또한, 인식실험에 있어서는 일반적인 멜 켑스트럽과 회귀계수를 이용한 경우와 음성학적 규칙과 특징을 확장하여 모델을 작성한 경우에 대해서 유한상태 오토마타(Finite State Automata ; FSA)에 의한 구문제어를 통한 OPDP(One Pass Dynamic Programming) 법으로 인식실험을 수행하여 그 결과를 비교 검토하였다. 그 결과, 멜 켑스트럼만을 사용한 경우 55.4%, 멜 켑스트럼과 회귀계수를 사용한 경우에는 64.6%, 특징 파라미터를 확장한 경우 74.3%, 음성학적 특징까지 고려한 경우 75.4%로 기존의 경우보다 높은 인식률을 보였다. 따라서, 음성 특징 파라미터를 확장하고 음성학적 규칙까지 함께 적용한 경우 비교적 높은 인식률을 보여 제안된 방법이 연속 숫자음 인식에 유효함을 확인하였다.

  • PDF

한국어 음성 분할을 위한 특징 검출에 관한 연구 (A Study on the Feature Extraction for the Segmentation of Korean Speech)

  • 이극;황희융
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1987년도 정기총회 및 창립40주년기념 학술대회 학회본부
    • /
    • pp.338-340
    • /
    • 1987
  • The speech recognition system usually consists of two modules, segmentation module and identification module. So, the performance of the system heavily depends on the segmentation accuracy and the segmentation unit. This paper is concerned with the agreeable features for segmentation in syllables. Total energy and two band width energy. (LE:4000-5000Hz and HE:900-3100Hz) are suitable cues for segmentation. And we testify it through the experiment using connected digit.

  • PDF

심볼을 이용한 한국어 숫자음의 광역 음소군 분류에 관한 연구 (A study of broad board classification of korean digits using symbol processing)

  • 이봉규;이극;황희융
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1989년도 하계종합학술대회 논문집
    • /
    • pp.481-485
    • /
    • 1989
  • The object of this parer is on the design of an broad board classifier for connected. Korean digit. Many approaches have been applied in speech recognition systems: parametric vector quantization, dynamic programming and hiden Markov model. In the 80's the neural network method, which is expected to solve complex speech recognition problems, came bach. We have chosen the rule based system for our model. The phoneme-groups that we wish to classify are vowel_like, plosive_like fricative_like, and stop_like.The data used are 1380 connected digits spoken by three untrained male speakers. We have seen 91.5% classification rate.

  • PDF

PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터 추출 및 한국어 4연숫자 전화음성에 대한 인식실험 (Extraction of MFCC feature parameters based on the PCA-optimized filter bank and Korean connected 4-digit telephone speech recognition)

  • 정성윤;김민성;손종목;배건성
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.279-283
    • /
    • 2004
  • 음성신호의 스펙트럼으로부터 MFCC를 추출할 때, 일반적으로 필터뱅크의 처리과정에서 삼각형 형태의 필터를 사용한다. 그러나 더 나은 인식성능을 위해, 훈련 음성데이터의 스펙트럼에 PCA를 적용하여 필터뱅크의 필터형태를 최적화하는 PCA-optimized 필터뱅크 방법이 Lee et al. 에 의해 제안되었다. 본 논문에서는 대용량의 4연숫자 전화음성 DB를 사용하여PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터를 추출하고 인식실험을 수행한 후, 기존의 삼각형 형태의 필터를 사용하는 MFCC와 각 대역별 로그에너지로 가중시켜서 얻어지는 MFCC와의 인식성능을 비교하였다. 실험결과, PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터가 기존의 삼각형 형태의 필터뱅크 기반 MFCC에 비해 조금 향상된 인식률을 나타내었지만, 각 대역별 로그에너지로 가중치를 주어 얻어지는 MFCC보다는 인식률이 떨어졌다.

주파수 부대역의 켑스트럼 해상도 최적화에 의한 특징추출 (Feature Extraction by Optimizing the Cepstral Resolution of Frequency Sub-bands)

  • 지상문;조훈영;오영환
    • 한국음향학회지
    • /
    • 제22권1호
    • /
    • pp.35-41
    • /
    • 2003
  • 일반적인 음성인식 방법에서는 주파수 전대역에서 추출한 특징벡터를 사용하므로, 각 주파수 부대역은 최종인식 결과에 동등하게 기여한다. 본 논문에서는 주파수 부대역별로 독립적인 특징을 추출하고, 음성인식에 효과적이 되도록 부대역의 켑스트럼 해상도를 조절하는 방법을 제안한다. 주파수 부대역별로 독립적인 특징을 추출하는 멀티밴드 음성인식접근을 사용하여 부대역 특징벡터의 차원을 변화시킨다. 최적의 벡터 차원 조합을 찾기 위하여 음성인식률과 군집화 품질을 사용한다. TIDIGITS 연결 숫자음을 사용한 실험결과에서, 제안한 방법은 전대역 특징추출에 비해 적은 계산량으로도 숫자열 인식률은 99.12%, 백분율 정확도 (percent correct)는 99.775%, 백분율 정밀도 (percent accuracy)는 99.705%를 얻었으며, 이는 전대역 특징벡터에 비해 상대적 오류율을 각각 38%, 32%, 37% 감소시킨 결과이다.

전화망에서의 한국어 연속숫자음 인식 실험 (The Recognition Experiment of Korean Connected Digit in the Telephone Network)

  • 강점자;김갑기
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.167-170
    • /
    • 2002
  • 본 논문에서는 전화망 환경에서의 한국어 숫자음 인식을 위한 특징 파라미터 추출, 음향 모델링 방식을 결정하기 위하여 HTK 툴을 사용한 4 연숫자음 인식실험 결과를 기술한다. 또한, 실험 결과를 토대로 빈번하게 발생하는 숫자음에 대해서 오류율을 분석하였다. 숫자 모델로는 left context biword 모델과 triword 모델을 사용하였으며, 상태수와 mixture 수를 바꾸어 인식 실험을 수행한 결과, triword 모델이 biword 모델보다 인식율이 높은 것으로 나타났으며, substitution 에러율은 " 이<->" 에서 가장 높은 에러가 발생하는 결과를 얻을 수 있다.

  • PDF

연속 숫자음 전화음성의 인식 성능 향상에 관한 연구 (A Study on the Performance Improvement of Connected Digit Telephone Speech Recognition)

  • 김민성;정성윤;손종목;배건성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.143-146
    • /
    • 2002
  • 전화음성의 경우 전화 회선의 채널 대역폭 제한과 통화로 형성시 달라지는 채널의 특성으로 인하여 마이크 음성에 비하여 인식 성능이 많이 저하된다. 본 연구에서는 연속 숫자음 전화음성의 인식율 향상을 위해 채널 왜곡 보상 기법들을 적용하고, HTK 기반의 인식 실험을 통해 보상 기법에 따른 인식 성능을 비교하였다. 채널 왜곡 보상 기법으로 CMN, RASTA, RTCN 등을 적용하고, 각 보상 기법에 따라 HMM의 state 수, mixture 수를 바꾸어 가며 인식 실험한 결과를 제시한다.

  • PDF

전화망 환경에서 한국어 숫자음 인식을 위한 잡음처리 (Noise Reduction for Korean Connected Digit Recognition through Telephone Channel)

  • 김규홍;김회린
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.211-214
    • /
    • 2003
  • 일반적으로 음성 인식에서의 성능은 잡음의 영향으로 인하여 저하된다. 전화망을 통한 한국어 연속 숫자음 인식은 음성인식 분야에 있어서 어려운 영역에 속하는데, 이는 조음 현상으로 인한 인식률 저하되는 점과 전화망 채널의 영향으로 인하여 스펙트럼 포락이 왜곡되며 음성신호의 대역폭이 제한되기 때문이다. 본 논문에서는 잡음의 영향을 줄이기 위하여, 2WF(2-stage Wiener Filter) 와 SWP (SNR-dependent Waveform Processing) 그리고 CMN(Cepstrum Mean Normalization)을 사용하였다. 2WF는 음성 신호의 포만트 구조를 적게 왜곡시키면서 전체적인 가산잡음 뿐만 아니라 동적 가산잡음도 줄여준다. SWP는 음성파형에서 SNR값이 상대적으로 큰 부분을 강조하여 전체적인 SNR을 향상시킬 수 있다. 또한, CMN은 특징벡터로부터 채널잡음의 영향을 정규화하여 음성 인식 성능을 향상시킨다. 이러한 방법들을 전화망 한국어 연속 숫자음 DB를 이용하여 실험한 결과, 음성신호의 왜곡을 최소화하면서 잡음의 영향을 줄여 전화망에서의 숫자음 인식 성능을 향상시킬 수 있었다.

  • PDF