• 제목/요약/키워드: continuous speech

검색결과 314건 처리시간 0.031초

발음열 자동 변환을 이용한 한국어 음운 변화 규칙의 통계적 분석 (Statistical Analysis of Korean Phonological Rules Using a Automatic Phonetic Transcription)

  • 이경님;정민화
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.81-85
    • /
    • 2002
  • We present a statistical analysis of Korean phonological variations using automatic generation of phonetic transcription. We have constructed the automatic generation system of Korean pronunciation variants by applying rules modeling obligatory and optional phonemic changes and allophonic changes. These rules are derived from knowledge-based morphophonological analysis and government standard pronunciation rules. This system is optimized for continuous speech recognition by generating phonetic transcriptions for training and constructing a pronunciation dictionary for recognition. In this paper, we describe Korean phonological variations by analyzing the statistics of phonemic change rule applications for the 60,000 sentences in the Samsung PBS(Phonetic Balanced Sentence) Speech DB. Our results show that the most frequently happening obligatory phonemic variations are in the order of liaison, tensification, aspirationalization, and nasalization of obstruent, and that the most frequently happening optional phonemic variations are in the order of initial consonant h-deletion, insertion of final consonant with the same place of articulation as the next consonants, and deletion of final consonant with the same place of articulation as the next consonants. These statistics can be used for improving the performance of speech recognition systems.

  • PDF

고립단어 인식을 위한 빠른 전처리기의 구현 (Implementation of A Fast Preprocessor for Isolated Word Recognition)

  • 안영목
    • 한국음향학회지
    • /
    • 제16권1호
    • /
    • pp.96-99
    • /
    • 1997
  • 본 논문에서는 고립단어 인식을 위한 빠른 전처리기를 소개한다. 제안하는 전처리기는 적은 계산량으로 후보 단어를 추출한다. 본 전처리기에서는 계산량을 줄이기 위해서 벡터 양자화 대신에 특징 정렬 알고리즘을 사용하였다. 이 전처리기의 유효성을 보이기 위해서 준연속 은닉 마코프 모델을 기반으로 한 음성 인식기와 벡터 양자화를 기반으로 한 전처리기에 대해서 화자독립 고립단어 인식에 대한 성능을 비교했다. 실험에 사용한 음성 데이터는 남성 호자 40명이 발성한 244 단어이며, 40명의 화자 중에서 20명은 전처리기의 훈련용으로 사용했으며 나머지 20명은 평가용으로 사용하였다. 실험의 결과, 음성 데이터에 대해서 90%의 감축을 조건에서 제안한 전처리기는 99.9%의 정확성을 보였다.

  • PDF

한국어 음성인식 플랫폼 개발현황 (Status Report on the Korean Speech Recognition Platform)

  • 권오욱;권석봉;장규철;윤성락;김용래;장광동;김희린;유창동;김봉완;이용주
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.215-218
    • /
    • 2005
  • This paper reports the current status of development of the Korean speech recognition platform (ECHOS). We implement new modules including ETSI feature extraction, backward search with trigram, and utterance verification. The ETSI feature extraction module is implemented by converting the public software to an object-oriented program. We show that trigram language modeling in the backward search pass reduces the word error rate from 23.5% to 22% on a large vocabulary continuous speech recognition task. We confirm the utterance verification module by examining word graphs with confidence score.

  • PDF

PRAAT 소프트웨어: 교사 목소리 분석을 위한 맞춤법 상호작용 도구 (PRAAT Software: A Spech Interaction Tool to Analyze Teacher Voices)

  • 엘라 키드
    • 융합정보논문지
    • /
    • 제9권9호
    • /
    • pp.158-165
    • /
    • 2019
  • 본 논문은 음성 소프트웨어 기술의 사용을 통해 영어의 내부 영역 내에서 음성 상호 작용의 영향을 검토한다. 기본주파수(F0)는 국적, 연령, 성별을 기준으로 원어민(연령 30-55세) 음성 효과를 분석해 얻었다. 이 연구에서 밝혀진 바에 따르면, 백인 영국 여성(33세)과 백인 미국인 남성(55세)이 가장 많은 대화형 연설을 했다는 것이다. 기여 요인은 학생들이 언어 습득 연구를 통해 다양한 언어 스타일을 경험한 것이다. 이 연구의 결과는 평균 이상의 연속적인 말이 학생의 참여와 상호작용에 가장 중요하다는 데 동의한 $Traunm{\ddot{u}}eller$ & Eriksson(1995) 및 이전 연구와 양립할 수 있다.

발산거리 기반의 신경망에 의한 가우시안 확률 밀도 함수의 군집화 (Guassian pdfs Clustering Using a Divergence Measure-based Neural Network)

  • 박동철;권오현
    • 한국통신학회논문지
    • /
    • 제29권5C호
    • /
    • pp.627-631
    • /
    • 2004
  • 음성인식 모델상의 GPDFs(Gaussian Probability Density Functions)을 효율적으로 군집화 할 수 있는 알고리즘이 제안되었다. 제안된 알고리즘은 데이터 사이의 거리 척도로 발산 거리를 사용하는 새로운 형태의 CNN(Centroid Neural Network)으로, 제한된 자원을 가지는 H/W환경의 음성인식에서 메모리 사용량을 축소하는 응용에 대한 실험 결과, 음성인식 모델인 CDHMM(Continuous Density Hidden Markov Model)에서 기존의 Dk-means(Divergence-based k-means)알고리즘을 이용한 방법과 비교하여 인식 성능의 유지와 함께 약 31.3%의 GPDFs를 더 축소할 수 있었고, 군집화 알고리즘을 적용하지 자은 전체 GPDFs를 사용한 경우와 비교해서 인식 성능의 유지와 함께 약 61.8%의 GPDFs를 압축할 수 있었으며, SNR 10㏈ 잡음 데이터에 대한 성능평가에서도 인식 성능이 유지될 수 있었다.

한국어 연속음성 인식을 위한 단어 결합 모델링에 관한 연구 (A Study on Word Juncture Modeling for Continuous Speech Recognition of Korean Language)

  • 최인정;은종관
    • 한국음향학회지
    • /
    • 제13권5호
    • /
    • pp.24-31
    • /
    • 1994
  • 본 논문에서는 단어 조음결합의 음성학적 모델을 이용한 한국어 연속음성 인식에 관해 연구한다. 조음결합 현상에 의한 성능 감소를 줄이기 위해 단어내에서의 전이뿐만 아니라 단어간의 전이를 모델링하는 context-dependent (CD)단위를 사용한다. 모든 경우에서 각 단어의 첫 음소는 앞에 올 수 있는 모든 단어의 마지막 음소에 의해 지정되며, 각 단어의 마지막 음소도 유사한 방법으로 지정된다. Hidden Markov model (HMM) 파라미터들의 강인성을 개선하기 위해 공분산 행렬을 평활화한다. 또한 음성 단위들 사이의 분별력을 높이기 위해 position-dependent 단위를 사용한다. 실험 결과들은 개선된 조음결합 모델을 사용함으로서 intra-word 단위만을 사용하는 기본 인식 시스템에 비해 성능을 상당히 개선할 수 있음을 보여 주었다.

  • PDF

Speaker-Dependent Emotion Recognition For Audio Document Indexing

  • Hung LE Xuan;QUENOT Georges;CASTELLI Eric
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.92-96
    • /
    • 2004
  • The researches of the emotions are currently great interest in speech processing as well as in human-machine interaction domain. In the recent years, more and more of researches relating to emotion synthesis or emotion recognition are developed for the different purposes. Each approach uses its methods and its various parameters measured on the speech signal. In this paper, we proposed using a short-time parameter: MFCC coefficients (Mel­Frequency Cepstrum Coefficients) and a simple but efficient classifying method: Vector Quantification (VQ) for speaker-dependent emotion recognition. Many other features: energy, pitch, zero crossing, phonetic rate, LPC... and their derivatives are also tested and combined with MFCC coefficients in order to find the best combination. The other models: GMM and HMM (Discrete and Continuous Hidden Markov Model) are studied as well in the hope that the usage of continuous distribution and the temporal behaviour of this set of features will improve the quality of emotion recognition. The maximum accuracy recognizing five different emotions exceeds $88\%$ by using only MFCC coefficients with VQ model. This is a simple but efficient approach, the result is even much better than those obtained with the same database in human evaluation by listening and judging without returning permission nor comparison between sentences [8]; And this result is positively comparable with the other approaches.

  • PDF

호텔예약을 위한 음성번역시스템 (A Speech Translation System for Hotel Reservation)

  • 구명완;김재인;박상규;김우성;장두성;홍영국;장경애;김응인;강용범
    • 한국음향학회지
    • /
    • 제15권4호
    • /
    • pp.24-31
    • /
    • 1996
  • 이 논문에서는 호텔예약을 위한 음성번역시스템(KT-STS:Korea Telecom Speech Translation System)에 대해 기술한다. KT-STS는 한국손님이 일본의 호텔을 예약하고자 할 때 사용할 수 있는 시스템으로 한국어 음성을 인식하여 일본어로 번역을 해주는 시스템이다. 이 시스템은 한국어 음성인식부, 한일 기계번역부, 그리고 한국어 음성합성부로 구성되어 있다. 한국어 음성인식부는 HMM(Hidden Markov Model)에 근거한 화자독립, 300 단어급 연속음성인식시스템이다. 언어모델은 바이그램(bigram)을 전향 언어모델로, 의존문법을 후향 언어모델로 사용한다. 기계번역부에서는 의존문법과 직적 번역 방식을 사용하였다. 음성합성부에서 합성단위로 반음소를 사용하며 합성방식은 주기파형분해 및 재배치 방식을 이용한다. KT-STS는 TMS320C30 DSP 보드를 장착한 SPARC20 위크스테이션 상에서 거의 실시간으로 동작한다. 음성인식 실험결과 94.68%의 단어인식률과 82.42%의 문장인식률을 얻었으며, 한일 번역기만의 번역 성공률은 100%였다. 우리는 이 시스템과 일본 KDD에서 개발한 시스템을 전용선으로 연결하여 한일간 자동통역 국제시연을 가진 바 있다.

  • PDF

FIR-STREAK 디지털 필터를 사용한 피치추출 방법에 관한 연구 (A Study on Pitch Extraction Method using FIR-STREAK Digital Filter)

  • 이시우
    • 한국정보처리학회논문지
    • /
    • 제6권1호
    • /
    • pp.247-252
    • /
    • 1999
  • 낮은 Bit Rate의 음성부호화 방식을 구현하기 위해 필요한 파라메터로서 피치정보가 있다. 연속음성에서 정규화 된 피치정보를 추출하는 방법에서는 음성의 시작이나 끝부분, 무성음 혹은 무성자음과 유성음이 같이 존재하는 프레임, 프레임 경계부에서 피치추출 오류가 발생한다. 이러한 오류를 억제하기 위하여 본 연구에서는 FIR-STREAK 필터의 출력 잔차신호에서 피치정보를 얻는 개별 피치추출법을 제안하였다. 이 방법은 피치정보를 정규화하지 않고 연속적으로 변위하는 피치간격을 적절하게 나타낼 수 있다. 실험결과, 개별 피치추출법은 음성의 시작이나 끝부분, 무성음 혹은 무성자음과 유성음이 같이 존재하는 프레임, 프레임 경계부에서도 유효한 피치정보를 얻을 수 있음을 알 수 있었다. 이 방법은 음성부호화방식, 음성분석, 음성합성, 음성인식등에 응용할 수 있을 것으로 기대된다.

  • PDF

한국어 반음절단위 규칙합성의 개선을 위한 포만트천이의 변경규칙 (An Alteration Rule of Formant Transition for Improvement of Korean Demisyllable Based Synthesis by Rule)

  • 이기영;최창석
    • 한국음향학회지
    • /
    • 제15권4호
    • /
    • pp.98-104
    • /
    • 1996
  • 본 연구에서는 반음절단위 규칙합성에서 연속음성을 합성할 때 조음결합에 의한 천이구간이 없는 반음절의 연결로 접속되어 부자연스러운 합성음이 되는 것을 개선하기 위하여 연쇄모음의 천이구간을 보상하는 방법으로 포만트천이의 변경규칙을 제안하였다. 반음절 단위만으로는 포만트천이가 발생하는 부분을 채울 수 없기 때문에 반음절단위의 음성데이타와 모음의 반음절 단위의 정상부위로부터 세그멘트한 정상모음 42개를 추가하여 데이터베이스를 구축하였으며 포만트를 변경하는 방법으로 포만트합성에서의 공진회로를 이용하였다. 제안한 방법의 타당성을 확인하기 위하여 음성합성시 연쇄모음 부분에 포만트천이의 변경규칙을 적용하여 원음성 및 변경규칙을 적용하지 않은 반음절단위 음성합성방식에 의한 합성음성의 스펙트로그램과 비교하고 MOS 테스트를 실시한 결과 보다 자연스러운 합성음성을 얻을 수 있음을 확인하였다.

  • PDF