• Title/Summary/Keyword: 음성인식 후처리

Search Result 131, Processing Time 0.028 seconds

소아의 음성장애 및 치료 : 사례연구

  • 정옥란
    • Journal of the Korean Society of Laryngology, Phoniatrics and Logopedics
    • /
    • v.7 no.1
    • /
    • pp.128-131
    • /
    • 1996
  • 소아들의 음성장애의 대부분은 음성과 기능에 의한 성대의 오용 및 남용으로부터 기인한다. 그러나 음성장애에 대한 인식의 부족으로 인하여 소아의 음성장애 발견율은 극히 낮은 수준에 머므르고 있다. 치료에 있어서도 행동의 통제가 그다지 쉽지 않기 때문에 많은 어려움이 따른다. 본 연구는 소아의 음성장애의 발생경위와 문제의 설명과 차팅에 의한 남용의 감소에 초점을 둔 치료사례이다. 5세 아동의 심한 음성장애로 의뢰되어졌다. 음성증후는 목쉰소리, 기식화된 소리, 일시적인 발성일탈(phonation break) 등이 두드러졌다. 이비인후과 전문의의 스트로보스코프(stroboscope) 검진결과 초기 양측성 성대결절이 성대 앞쪽으로부터 1/3 지점에서 발견되었으며 비지피치(Visi-Pitch)로 측정된 퍼터베이션(perturbation 수치가 16.8이었다. 사례사 조사 과정에서 아동이 활동적이며 자주 고함을 지르고 자동차놀이를 주로하며 많은 시간을 보낸다는 것이 밝혀졌다. 중재 프로그램은 우선 문제를 설명하고 인식시키는 것과 고함을 지르거나 자동차놀이를 하면서 자동차 소음을 흉내내는 등의 음성남용 회수를 감소시키는 것에 초점을 두었다 17회의 치료로 성대결절이 감소되었고 퍼터베이션은 3.8로 저하되었으며 아동 스스로 음성남용을 통제할 수 있다는 임상적 판단하에 치료를 종결하였다. 1개월 후 추후 검사에서 남용적인 습관이 여전히 나타나지 않았으며 음성상태도 양호하였다. 소아 음성장애의 치료는 소아가 이해할 수 있는 용어로 문제의 인식을 확실히 시키고 행동을 체계적으로 통제할 수 있는 치료프로그램을 실행시키는 임상가의 자질이 대단히 중요하다. 그러나 그에 못지 않게, 많은 시간을 아동과 함께 보내는 부모나 교사의 협력이 치료의 성패를 좌우할 수 있다.조구와 처리구간에 차이가 없었다. 그러나 유지방 함량의 경우 대조구가 3.22%, 처리구가 3.37%로 처리구가 0.15% point 증가했으나 유의차는 없었다. Fan + sprinkler가 설치된 시설에서 사육된 젖소에서 생산된 우유내 체세포수는 대조구에 비해 26.63%가 감소되었으나 유의차는 발견할 수 없었다. 이상의 시험 결과에서 볼 때 fan + sprinkler를 이용한 방서 방법은 고온 stress를 완화시켜 유생산성의 증가에 기여할 수 있는 하나의 방법이라고 본다.을 알 수가 있었다.없다. 본 논문의 대상은 바로 이러한 합성 동사성명사의 논항구조와 동사성명사에 의해 하위범주화된 논항들의 문법적 실현양상이다..그 결과 심리적 특성과 사용자 수용 특성은 아바타 수용도에 부분적으로 영향을 미친다는 것 결과가 나타났다.웨어 프로세스 평가와 개선 모델의 개발을 위한 기초적인 자료를 제공할 것으로 예상된다 또한, 본 연구 결과는, 우리나라 소프트웨어 조직들이 실제로 무엇을 필요로 하는지를 밝힘으로써, 우리나라의 소프트웨어 산업을 육성하기 위한 실효성 있는 정책 입안을 위한 기초 자료를 제공할 것으로 예상된다.다.를 검증하려고 한다. 협력체계 확립, ${\circled}3$ 전문인력 확보 및 인력구성 조정, 그리고 ${\circled}4$ 방문보건사업의 강화 등이다., 대사(代謝)와 관계(關係)있음을 시사(示唆)해 주고 있다.ble nutrient (TDN) was highest in booting stage (59.7%); however no significant difference was found among other stages. The concentrations of Ca and P were not

  • PDF

News Data Analysis Using Acoustic Model Output of Continuous Speech Recognition (연속음성인식의 음향모델 출력을 이용한 뉴스 데이터 분석)

  • Lee, Kyong-Rok
    • The Journal of the Korea Contents Association
    • /
    • v.6 no.10
    • /
    • pp.9-16
    • /
    • 2006
  • In this paper, the acoustic model output of CSR(Continuous Speech Recognition) was used to analyze news data News database used in this experiment was consisted of 2,093 articles. Due to the low efficiency of language model, conventional Korean CSR is not appropriate to the analysis of news data. This problem could be handled successfully by introducing post-processing work of recognition result of acoustic model. The acoustic model more robust than language model in Korean environment. The result of post-processing work was made into KIF(Keyword information file). When threshold of acoustic model's output level was 100, 86.9% of whole target morpheme was included in post-processing result. At the same condition, applying length information based normalization, 81.25% of whole target morpheme was recognized. The purpose of normalization was to compensate long-length morpheme. According to experiment result, 75.13% of whole target morpheme was recognized KIF(314MB) had been produced from original news data(5,040MB). The decrease rate of absolute information met was approximately 93.8%.

  • PDF

Extraction of MFCC feature parameters based on the PCA-optimized filter bank and Korean connected 4-digit telephone speech recognition (PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터 추출 및 한국어 4연숫자 전화음성에 대한 인식실험)

  • 정성윤;김민성;손종목;배건성
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.41 no.6
    • /
    • pp.279-283
    • /
    • 2004
  • In general, triangular shape filters are used in the filter bank when we extract MFCC feature parameters from the spectrum of the speech signal. A different approach, which uses specific filter shapes in the filter bank that are optimized to the spectrum of training speech data, is proposed by Lee et al. to improve the recognition rate. A principal component analysis method is used to get the optimized filter coefficients. Using a large amount of 4-digit telephone speech database, in this paper, we get the MFCCs based on the PCA-optimized filter bank and compare the recognition performance with conventional MFCCs and direct weighted filter bank based MFCCs. Experimental results have shown that the MFCC based on the PCA-optimized filter bank give slight improvement in recognition rate compared to the conventional MFCCs but fail to achieve better performance than the MFCCs based on the direct weighted filter bank analysis. Experimental results are discussed with our findings.

A Log-Energy Feature Normalization Method Using ARMA Filter (ARMA 필터를 이용한 로그 에너지 특징의 정규화 방법)

  • Shen, Guang-Hu;Jung, Ho-Youl;Chung, Hyun-Yeol
    • Journal of Korea Multimedia Society
    • /
    • v.11 no.10
    • /
    • pp.1325-1337
    • /
    • 2008
  • The difference of environments between training and recognition is the major reason of degradation of speech recognition. To solve this mismatch of environments, various noise processing methods have been studied. Among them, ERN(log-Energy dynamic Range Normalization) and SEN(Silence Energy Normalization) for normalization of log energy features show better performance than others. However, these methods have a problem that they can hardly achieve normalization for the relatively higher values of log energy features and the environmental mismatch caused by this problem becomes bigger especially in low SNR environments. To solve these problems, we propose applying ARMA filter as post-processing for smoothing log energy features by calculating the moving average in auto-regression scheme. From the recognition results conducted on Aurora 2.0 DB, the proposed method shows improved recognition results comparing with conventional methods.

  • PDF

A Generation System of English Pronunciation for the medical domain (의료분야를 위한 영어 발음열 생성 시스템)

  • Kim, A-Lum;Jeong, Kyung Seok;Park, Hyuk Ro
    • Annual Conference of KIPS
    • /
    • 2004.05a
    • /
    • pp.793-796
    • /
    • 2004
  • 본 논문은 의료분야의 음성 인식 시스템의 발음모델의 성능 향상에 필요한 올바른 영어 단어 발음열을 얻고자 한다. 본 시스템의 텍스트는 의료 전문 용어인 영어와 한글의 조합으로 되어있어, 한국어 G2P 성능뿐만 아니라 영어 G2P의 성능도 중요한 문제가 되고 있다. 또한 본 시스템의 의료 음성 데이터가 한국 화자로써, 표기열이 영어식 발음 폰셋으로 변환되면 효율적이지 못하다. 이를 위해, 영어 G2P의 결과를 한국 화자에 적합하게 변환해주는 방법론이 필요하게 된다. 따라서 본 논문에서 제안하는 방법은 음성 텍스트에서 영어만 추출한 후, 영어 G2P 프로그램(addttp, NIST)을 이용해 발음열을 구한다. 그리고 한국 화자의 실제 음성을 통해 얻은 정답 발음열을 구하여 서로 비교한다. 비교를 위해 각 발음열의 한 폰씩 정렬을 수행한 후, 삽입, 삭제, 대치 에러가 이러나는 쌍과 좌우 바이그램 정보를 추출한다. 마지막으로, 좌우 바이그램 정보에서 best1의 에러 패턴을 통해 모든 단어에 적용한다. 이 때, 최종적으로 실보다 득이 되는 에러패턴만을 추출, 적용한다. 실험에서는 26여개의 에러 패턴을 찾을 수 있어, 8%의 올바른 발음열을 추가적으로 얻는데 성공하였다.

  • PDF

Service Robot for the Game of Paper, Stone and Scissors Based on Image Processing (영상 처리 기반의 가위 바위 보 게임 로봇)

  • Ahn, Ho-Seok;Sa, In-Kyu;Baek, Young-Min;Ahn, Youn-Seok;Choi, Jin-Young
    • Proceedings of the KIEE Conference
    • /
    • 2008.10b
    • /
    • pp.327-328
    • /
    • 2008
  • 로봇과 상호 작용하기 위한 수단으로 손동작 인식 시스템이 많이 사용되고 있으며, 본 논문에서는 손에 부가적인 장치를 장착하지 않은 상태에서 영상 처리를 이용하여 손동작을 인식하는 시스템을 구현하였다. 먼저 로봇은 영상 입력 장치로써 웹캠을 사용하고, 손 영상을 스킨 컬러를 바탕으로 영상 처리를 하여 추출해내고, 그 이미지를 분석하여 그 모양이 가위인지 바위인지 보인지 인식한다. 가위 바위 보 게임을 위하여 로봇이 손동작을 표현할 수 있도록 손가락이 네 개인 손을 설계 및 구현하였다. 이때, 기존의 와이어 방식이 아닌 제어를 이용한 손가락을 설계하였고, 각각의 손가락이 독립적으로 제어될 수 있기 때문에 가위 바위 보의 손동작을 표현할 수 있다. 그리고 음성 인식을 이용하여 사람과 동시에 가위 바위 보 중 하나를 결정한 후 표현하기 때문에 가위 바위 보 게임이 가능하다. 뿐만 아니라 로봇이 승패도 알 수 있다.

  • PDF

A study on the Method of the Keyword Spotting Recognition in the Continuous speech using Neural Network (신경 회로망을 이용한 연속 음성에서의 keyword spotting 인식 방식에 관한 연구)

  • Yang, Jin-Woo;Kim, Soon-Hyob
    • The Journal of the Acoustical Society of Korea
    • /
    • v.15 no.4
    • /
    • pp.43-49
    • /
    • 1996
  • This research proposes a system for speaker independent Korean continuous speech recognition with 247 DDD area names using keyword spotting technique. The applied recognition algorithm is the Dynamic Programming Neural Network(DPNN) based on the integration of DP and multi-layer perceptron as model that solves time axis distortion and spectral pattern variation in the speech. To improve performance, we classify word model into keyword model and non-keyword model. We make an experiment on postprocessing procedure for the evaluation of system performance. Experiment results are as follows. The recognition rate of the isolated word is 93.45% in speaker dependent case. The recognition rate of the isolated word is 84.05% in speaker independent case. The recognition rate of simple dialogic sentence in keyword spotting experiment is 77.34% as speaker dependent, and 70.63% as speaker independent.

  • PDF

Large Vocabulary Continuous Speech Recognition Based on Language Model Network (언어 모델 네트워크에 기반한 대어휘 연속 음성 인식)

  • 안동훈;정민화
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.6
    • /
    • pp.543-551
    • /
    • 2002
  • In this paper, we present an efficient decoding method that performs in real time for 20k word continuous speech recognition task. Basic search method is a one-pass Viterbi decoder on the search space constructed from the novel language model network. With the consistent search space representation derived from various language models by the LM network, we incorporate basic pruning strategies, from which tokens alive constitute a dynamic search space. To facilitate post-processing, it produces a word graph and a N-best list subsequently. The decoder is tested on the database of 20k words and evaluated with respect to accuracy and RTF.

Context sentiment analysis based on Speech Tone (발화 음성을 기반으로 한 감정분석 시스템)

  • Jung, Jun-Hyeok;Park, Soo-Duck;Kim, Min-Seung;Park, So-Hyun;Han, Sang-Gon;Cho, Woo-Hyun
    • Annual Conference of KIPS
    • /
    • 2017.11a
    • /
    • pp.1037-1040
    • /
    • 2017
  • 현재 머신러닝과 딥러닝의 기술이 빠른 속도로 발전하면서 수많은 인공지능 음성 비서가 출시되고 있지만, 발화자의 문장 내 존재하는 단어만 분석하여 결과를 반환할 뿐, 비언어적 요소는 인식할 수 없기 때문에 결과의 구조적인 한계가 존재한다. 따라서 본 연구에서는 인간의 의사소통 내 존재하는 비언어적 요소인 말의 빠르기, 성조의 변화 등을 수치 데이터로 변환한 후, "플루칙의 감정 쳇바퀴"를 기초로 지도학습 시키고, 이후 입력되는 음성 데이터를 사전 기계학습 된 데이터를 기초로 kNN 알고리즘을 이용하여 분석한다.

Robust Blind Source Separation to Noisy Environment For Speech Recognition in Car (차량용 음성인식을 위한 주변잡음에 강건한 브라인드 음원분리)

  • Kim, Hyun-Tae;Park, Jang-Sik
    • The Journal of the Korea Contents Association
    • /
    • v.6 no.12
    • /
    • pp.89-95
    • /
    • 2006
  • The performance of blind source separation(BSS) using independent component analysis (ICA) declines significantly in a reverberant environment. A post-processing method proposed in this paper was designed to remove the residual component precisely. The proposed method used modified NLMS(normalized least mean square) filter in frequency domain, to estimate cross-talk path that causes residual cross-talk components. Residual cross-talk components in one channel is correspond to direct components in another channel. Therefore, we can estimate cross-talk path using another channel input signals from adaptive filter. Step size is normalized by input signal power in conventional NLMS filter, but it is normalized by sum of input signal power and error signal power in modified NLMS filter. By using this method, we can prevent misadjustment of filter weights. The estimated residual cross-talk components are subtracted by non-stationary spectral subtraction. The computer simulation results using speech signals show that the proposed method improves the noise reduction ratio(NRR) by approximately 3dB on conventional FDICA.

  • PDF