• 제목/요약/키워드: Korean digit recognition

검색결과 138건 처리시간 0.03초

연속음 처리를 위한 프랙탈 차원 방법 고찰 (Fractal Dimension Method for Connected-digit Recognition)

  • 김태식
    • 음성과학
    • /
    • 제10권2호
    • /
    • pp.45-55
    • /
    • 2003
  • Strange attractor can be used as a presentation method for signal processing. Fractal dimension is well known method that extract features from attractor. Even though the method provides powerful capabilities for speech processing, there is drawback which should be solved in advance. Normally, the size of the raw signal should be long enough for processing if we use the fractal dimension method. However, in the area of connected-digits problem, normally, syllable or semi-syllable based processing is applied. In this case, there is no evidence that we have sufficient data or not to extract characteristics of attractor. This paper discusses the relationship between the size of the signal data and the calculation result of fractal dimension, and also discusses the efficient way to be applied to connected-digit recognition.

  • PDF

숫자음 분석과 인식에 관한 연구 (A Study on Spoken Digits Analysis and Recognition)

  • 김득수;황철준
    • 한국산업정보학회논문지
    • /
    • 제6권3호
    • /
    • pp.107-114
    • /
    • 2001
  • 본 논문에서는 한국어의 음성학적 규칙을 적용한 연속 숫자음 인식에 관하여 연구한다. 연속 숫자음의 인식률은 일반적으로 음성인식 시스템 중에서 낮은 인식률을 나타낸다. 따라서 숫자음에 대하여 강건한 모델을 작성하기 위하여 음성 특징 파라미터와 음성학적 규칙을 적용하고 실험을 통하여 그 유효성을 확인하고자 한다. 이를 위하여 음성자료로는 국어공학센터(KLE)에서 채록한 4연속 숫자음을 사용하며 인식의 기본단위로서는 음성학적 규칙을 적용한 19개의 연속분포 HMM을 유사음소 단위(PLUs)로 사용한다. 또한, 인식실험에 있어서는 일반적인 멜 켑스트럽과 회귀계수를 이용한 경우와 음성학적 규칙과 특징을 확장하여 모델을 작성한 경우에 대해서 유한상태 오토마타(Finite State Automata ; FSA)에 의한 구문제어를 통한 OPDP(One Pass Dynamic Programming) 법으로 인식실험을 수행하여 그 결과를 비교 검토하였다. 그 결과, 멜 켑스트럼만을 사용한 경우 55.4%, 멜 켑스트럼과 회귀계수를 사용한 경우에는 64.6%, 특징 파라미터를 확장한 경우 74.3%, 음성학적 특징까지 고려한 경우 75.4%로 기존의 경우보다 높은 인식률을 보였다. 따라서, 음성 특징 파라미터를 확장하고 음성학적 규칙까지 함께 적용한 경우 비교적 높은 인식률을 보여 제안된 방법이 연속 숫자음 인식에 유효함을 확인하였다.

  • PDF

Mellin 변환을 이용한 격리 단어 인식 (An Isolated Word Recognition Using the Mellin Transform)

  • 김진만;이상욱;고세문
    • 대한전자공학회논문지
    • /
    • 제24권5호
    • /
    • pp.905-913
    • /
    • 1987
  • This paper presents a speaker dependent isolated digit recognition algorithm using the Mellin transform. Since the Mellin transform converts a scale information into a phase information, attempts have been made to utilize this scale invariance property of the Mellin transform in order to alleviate a time-normalization procedure required for a speech recognition. It has been found that good results can be obtained by taking the Mellin transform to the features such as a ZCR, log energy, normalized autocorrelation coefficients, first predictor coefficient and normalized prediction error. We employed a difference function for evaluating a similarity between two patterns. When the proposed algorithm was tested on Korean digit words, a recognition rate of 83.3% was obtained. The recognition accuracy is not compatible with the other technique such as LPC distance however, it is believed that the Mellin transform can effectively perform the time-normalization processing for the speech recognition.

  • PDF

한국어 연결 숫자음 인식을 일한 최대 사후 Eigenvoice에 근거한 자기적응 기법 (Self-Adaptation Algorithm Based on Maximum A Posteriori Eigenvoice for Korean Connected Digit Recognition)

  • 김동국;전형배
    • 한국음향학회지
    • /
    • 제23권8호
    • /
    • pp.590-596
    • /
    • 2004
  • 본 논문에서는 한국어 연결 숫자음 인식을 위한 최대 사후 eigenvoice을 사용한 자기적응 기법을 제안한다. 제안된 최대 사후 eigenvoice 기법은 eigenvoice 계수에 대한 확률 밀도 함수를 가정함으로 구성된다. 제안된 알고리즘은 기존 eigenvoice 추정 과정에 선 분포 모델을 포함하는 일반적인 해를 제공하는 구조를 갖는다. 인식할 한 문장만을 사용하는 자기 적응 시스템을 위해 매우 강인한 특성을 갖는 최대 사후 eigenvoice 적응 기법을 사용하였다. 한국어 연결 숫자음에 대한 일련의 자기 적응 실험결과 제안된 알고리즘의 성능은 매우 적은 량의 적응 데이터에 대해 기존 eigenvoice 알고리즘에 비해 우수한 성능을 나타냈었다.

KORAN DIGIT RECOGNITION IN NOISE ENVIRONMENT USING SPECTRAL MAPPING TRAINING

  • Ki Young Lee
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 FIFTH WESTERN PACIFIC REGIONAL ACOUSTICS CONFERENCE SEOUL KOREA
    • /
    • pp.1015-1020
    • /
    • 1994
  • This paper presents the Korean digit recognition method under noise environment using the spectral mapping training based on static supervised adaptation algorithm. In the presented recognition method, as a result of spectral mapping from one space of noisy speech spectrum to another space of speech spectrum without noise, spectral distortion of noisy speech is improved, and the recognition rate is higher than that of the conventional method using VQ and DTW without noise processing, and even when SNR level is 0 dB, the recognition rate is 10 times of that using the conventional method. It has been confirmed that the spectral mapping training has an ability to improve the recognition performance for speech in noise environment.

  • PDF

훈련데이터 기반의 temporal filter를 적용한 4연숫자 전화음성 인식 (Recognition of Korean Connected Digit Telephone Speech Using the Training Data Based Temporal Filter)

  • 정성윤;배건성
    • 대한음성학회지:말소리
    • /
    • 제53호
    • /
    • pp.93-102
    • /
    • 2005
  • The performance of a speech recognition system is generally degraded in telephone environment because of distortions caused by background noise and various channel characteristics. In this paper, data-driven temporal filters are investigated to improve the performance of a specific recognition task such as telephone speech. Three different temporal filtering methods are presented with recognition results for Korean connected-digit telephone speech. Filter coefficients are derived from the cepstral domain feature vectors using the principal component analysis. According to experimental results, the proposed temporal filtering method has shown slightly better performance than the previous ones.

  • PDF

만성 정신분열병 환자들의 인지 기능과 정서 인식 능력의 관련성 (The Relationship between Neurocognitive Functioning and Emotional Recognition in Chronic Schizophrenic Patients)

  • 황혜리;황태연;이우경;한은선
    • 생물정신의학
    • /
    • 제11권2호
    • /
    • pp.155-164
    • /
    • 2004
  • Objective:The present study examined the association between basic neurocognitive functions and emotional recognition in chronic schizophrenia. Furthermore, to Investigate cognitive variable related to emotion recognition in Schizophrenia. Methods:Forty eight patients from the Yongin Psychiatric Rehabilitation Center were evaluated for neurocognitive function, and Emotional Recognition Test which has four subscales finding emotional clue, discriminating emotions, understanding emotional context and emotional capacity. Measures of neurocognitive functioning were selected based on hypothesized relationships to perception of emotion. These measures included:1) Letter Number Sequencing Test, a measure of working memory;2) Word Fluency and Block Design, a measure of executive function;3) Hopkins Verbal Learning Test-Korean version, a measure of verbal memory;4) Digit Span, a measure of immediate memory;5) Span of Apprehension Task, a measure of early visual processing, visual scanning;6) Continuous Performance Test, a measure of sustained attention functioning. Correlation analyses between specific neurocognitive measures and emotional recognition test were made. To examine the degree to which neurocognitive performance predicting emotional recognition, hierarchical regression analyses were also made. Results:Working memory, and verbal memory were closely related with emotional discrimination. Working memory, Span of Apprehension and Digit Span were closely related with contextual recognition. Among cognitive measures, Span of Apprehension, Working memory, Digit Span were most important variables in predicting emotional capacity. Conclusion:These results are relevant considering that emotional information processing depends, in part, on the abilities to scan the context and to use immediate working memory. These results indicated that mul- tifaceted cognitive training program added with Emotional Recognition Task(Cognitive Behavioral Rehabilitation Therapy added with Emotional Management Program) are promising.

  • PDF

Auditory Recognition of Digit-in-Noise under Unaided and Aided Conditions in Moderate and Severe Sensorineural Hearing Loss

  • Aghasoleimani, Mina;Jalilvand, Hamid;Mahdavi, Mohammad Ebrahim;Ahmadi, Roghayeh
    • Journal of Audiology & Otology
    • /
    • 제25권2호
    • /
    • pp.72-79
    • /
    • 2021
  • Background and Objectives: The speech-in-noise test is typically performed using an audiometer. The results of the digit-in-noise recognition (DIN) test may be influenced by the flat frequency response of free-field audiometry and frequency of the hearing aid fit based on fitting rationale. This study aims to investigate the DIN test in unaided and aided conditions. Subjects and Methods: Thirty four adults with moderate and severe sensorineural hearing loss (SNHL) participated in the study. The signal-to-noise ratio (SNR) for 50% of the DIN test was obtained in the following two conditions: 1) the unaided condition, performed using an audiometer in a free field; and 2) aided condition, performed using a hearing aid with an unvented individual earmold that was fitted based on NAL-NL2. Results: There was a statistically significant elevation in the mean SNR for the severe SNHL group in both test conditions when compared with that of the moderate SNHL group. In both groups, the SNR for the aided condition was significantly lower than that of the unaided condition. Conclusions: Speech recognition in hearing-impaired patients can be realized by fitting hearing aids based on evidence-based fitting rationale rather than by measuring it using free-field audiometry measurement that is utilized in a routine clinic setup.

필터뱅크를 이용한 한국어 숫자음 인식 다이얼링 시스템 (Korean Digit Speech Recognition Dialing System using Filter Bank)

  • 박기영;최형기;김종교
    • 대한전자공학회논문지TE
    • /
    • 제37권5호
    • /
    • pp.62-70
    • /
    • 2000
  • 본 논문은 한국어 숫자음 인식을 HMM과 DTW 프로그램을 사용한 필터 뱅크로 수행하였다. 스펙트럼 분석은 주로 성도의 모양에 의한 음성 신호 특징을 나타낸다. 그리고 음성의 스펙트럼 특징은 일반적으로 정의된 주파수 범위에서 적절하게 집중된 스펙트럼, 즉 필터뱅크를 통과해 나가는 것에 의해 얻을 수 있다. 또한 8 개의 밴드 패스 필터는 인간 귀의 지각적인 청취력에 의해 나누었다. 정의된 주파수 범위는 320-330, 450-460, 640-650, 840-850, 900-1000, 1100-1200, 2000-2100, 3900-4000㎐이고, 샘플링 주파수는 8㎑ 이다. 그리고 프레임 폭은 20㎳, 주기는 10㎳이다. 실험 결과는 한국어 숫자음 음성인식에 대해 필터 뱅크를 사용하는 경우 HMM보다 DTW의 인식율이 더 높은 인식율이 나오는 것을 확인 할 수가 있었다. 필터 뱅크를 이용한 한국어 숫자음 인식율은 24차 밴드패스필터에서 93.3%, 16차 밴드패스필터에서, 89.1%, 8차 밴드 패스필터의 하드웨어 음성 다이얼링 시스템에서 88.9%의 인식율을 나타내었다.

  • PDF

음향학적 파라메터를 이용한 한국어 연결숫자인식의 성능개선 (Performance Improvement of Korean Connected Digit Recognition Based on Acoustic Parameters)

  • 김승희;김형순
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.58-62
    • /
    • 1999
  • 본 연구에서는 한국어 연결숫자인식에 있어서 모델간의 변별력을 향상시키기 위하여 음향학적 파라메터(Acoustic Parameter)를 사용하는 것을 제안한다. 제안된 방법은 음성학적 지식에 근거하여 적절한 주파수 대역별 에너지의 비의 로그값을 추가적인 특징 파라메터로 사용한다. 실험결과, 제안된 방법을 사용함으로써 기본 인식시스템에 비해 오류율이 최고 46% 정도 감소됨을 확인할 수 있었다. 그리고 채널보상 기술을 함께 적용함으로써 69% 정도의 오류율 감소를 얻었다.

  • PDF