• 제목/요약/키워드: 음성인식알고리즘

검색결과 447건 처리시간 0.025초

대용량 연속음성 인식을 위한 효율적인 탐색 알고리즘 (Efficient Search Algorithms for Continuous Speech Recognition)

  • 박형민
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.75-78
    • /
    • 1998
  • 이 논문에서는 대용량 연속음성 인식에서 인식 속도를 향상시키기 위한 방법들에 대해서 연구하였다. 음성인식에 있어서 많은 양의 계산을 요하는 부분은 관측 확률의 계산과 탐색에 필요한 계산이다. 탐색에 필요한 계산을 줄이기 위하여 빔 탐색법과 phoneme look-ahead기법을 통해 탐색 공간을 줄였으며, 관측 확률을 계산하는데 소요되는 시간을 줄이기 위하여 입력 특징 벡터와 이웃 관계에 있는 가우시안 성분들만 정확한 계산을 하는 VQ에 의한 계산량 감축 방법과 tree-structured pdf 방법을 구현하였다. 3천개의 어휘와 2천여개의 트라이폰 모델로 구성된 연속 음성인식 시스템에서 보통의 Viterbi 빔 탐색법을 적용한 경우에 실시간의 2.73배의 인식 속도로 93.39%의 단어 인식률을 얻을 수 있는데 phoneme look-ahead 기법과 tree-structured pdf 방법을 추가 적용함으로써 비슷한 인식 성능에서 1.55배의 인식 속도를 얻을 수 있었다.

  • PDF

Hidden Markov Network 음성인식 시스템의 성능평가에 관한 연구 (A Study on Performance Evaluation of Hidden Markov Network Speech Recognition System)

  • 오세진;김광동;노덕규;위석오;송민규;정현열
    • 융합신호처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.30-39
    • /
    • 2003
  • 본 논문에서는 한국어 음성 데이터를 대상으로 HM-Net(Hidden Markov Network) 음성인식 시스템의 성능평가를 수행하였다. 음향모델 작성은 음성인식에서 널리 사용되고 있는 통계적인 모델링 방법인 HMM(Hidden Markov Model)을 개량한 HM-Net을 도입하였다. HM-Net은 기존의 SSS(Successive State Splitting) 알고리즘을 개량한 PDT(Phonetic Decision Tree)-SSS 알고리즘에 의해 문맥방향과 시간방향의 상태분할을 수행하여 생성되는데, 특히 문맥방향 상태분할의 경우 학습 음성데이터에 출현하지 않는 문맥정보를 효과적으로 표현하기 위해 음소결정트리를 채용하고 있으며, 시간방향 상태분할의 경우 학습 음성데이터에서 각 음소별 지속시간 정보를 효과적으로 표현하기 위한 상태분할을 수행하며, 마지막으로 파라미터의 공유를 통해 triphone 형태의 최적인 모델 네트워크를 작성하게 된다. 인식에 사용된 알고리즘은 음소 및 단어인식의 경우에는 One-Pass Viterbi 빔 탐색을 사용하며 트리 구조 형태의 사전과 phone/word-pair 문법을 채용하고 있다. 연속음성인식의 경우에는 단어 bigram과 단어 trigram 언어모델과 목구조 형태의 사전을 채용한 Multi-Pass 빔 탐색을 사용하고 있다. 전체적으로 본 논문에서는 다양한 조건에서 HM-Net 음성인식 시스템의 성능평가를 수행하였으며, 지금까지 소개된 음성인식 시스템과 비교하여 매우 우수한 인식성능을 보임을 실험을 통해 확인할 수 있었다.

  • PDF

해외 음성 DB 구축 동향 (Activities of Speech DB construction out of Countries)

  • 이용주
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.253-260
    • /
    • 1995
  • 음성정보처리 연구에 공통으로 이용 가능한 대량의 각종 음성 데이터를 수집, 편집, 배포하는 dfl은 연구 개발자의 입장에서는 분석, 합성, 인식등의 알고리즘 개발 평가에 이용 가능하며, 음성인식, 합성 시스템의 사용자 입장에서는 각종 시스템의 성능을 객관적으로 평가할 수 있다는 면에서 매우 중요하다. 본 논문에서는 국내 음성 DB 의 효율적인 구축을 위한 방안 도출에 참고하기 위하여 해외 각국의 구축 동향을 기관별, 형태별, 분야별로 구체적으로 정리하여 소개한다.

  • PDF

잡음억제 신경회로망에 의한 스펙트럼의 추정 기법

  • 최재승
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.597-599
    • /
    • 2012
  • 음성인식 및 음성신호처리 분야에서 신경회로망은 음성인식의 카테고리 분류에 주로 이용되고 있다는 점에 착안하여, 본 논문에서는 신경회로망의 입력신호로 음성의 진폭 스펙트럼 및 위상 스펙트럼을 사용한 잡음억제를 위한 신경회로망을 제안한다. 본 논문에서 제안한 알고리즘은 고속 푸리에 변환(Fast Fourier Transform, FFT)에 의한 진폭 스펙트럼 및 위상 스펙트럼을 사용한 잡음억제 신경회로망을 이용하여 각 프레임에서 FFT 스펙트럼을 추정한다.

  • PDF

한국어 음성인식 시스템에서 음소 경계 검출을 위한 Branch 알고리즘 (Branch Algorithm for Phoneme Segmentation in Korean Speech Recognition System)

  • 서영완;한승진;장흥종;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.357-359
    • /
    • 2000
  • 음소 단위로 구축된 음성 데이터는 음성인식, 합성 및 분석 등의 분야에서 매우 중요하다. 일반적으로 음소는 유성음과 무성음으로 구분되어 진다. 이러한 유성음과 무성음은 많은 특징적 차이가 있지만, 기존의 음소 경계추출 알고리즘은 이를 고려하지 않고 시간 축을 기준으로 이전 프레임과 매개변수 (스펙트럼) 비교만을 통하여 음소의 경계를 결정한다. 본 논문에서는 음소 경계 추출을 위하여 유성음과 무성음의 특징적 차이를 고려한 블록기반의 Branch 알고리즘을 설계하였다. Branch 알고리즘을 사용하기 위한 스펙트럼 비교 방법은 MFCC(Mel-Frequency Cepstrum Coefficient)를 기반으로 한 거리 측정법을 사용하였고, 유성음과 무성음의 구분은 포만트 주파수를 이용하였다. 실험 결과 3~4음절 고립단어를 대상으로 약 78%의 정확도를 얻을수 있었다.

  • PDF

앙상블 기법을 이용한 잡음 환경에서의 화자인식 방법에 관한 연구 (A Study on Noise-Robust Speaker Recognition Methods Based on Ensemble of Decision Scores)

  • 양준영;장준혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.457-459
    • /
    • 2018
  • 화자인식 기술은 주어진 임의의 두 발화로부터 발화자의 일치 여부를 판단하여 등록된 화자의 목록으로부터 임의로 입력된 발화의 발화자를 식별하는 기술이다. 그러나, 배경잡음이나 반향이 존재하는 경우에는 음성신호가 왜곡되어 화자인식 성능이 저하될 수 있기 때문에 별도의 음성신호 전처리 알고리즘을 함께 사용할 수 있다. 본 논문에서는 배경잡음이 존재하는 환경에서 다수의 마이크로폰을 통해 수집한 음성신호에 대해 화자인식을 수행하는 방법으로써 parametric multi-channel Wiener filter (PMWF)를 이용한 화자일치 점수 앙상블 기법을 제안한다. 입력신호의 신호대잡음비를 기준으로 점수 결합 시 사용되는 결합계수를 정하고, Wiener filter 로 잡음을 제거하여 얻은 점수와 minimum variance distortionless response (MVDR) 빔포머를 통해 잡음을 제거하여 얻은 정수를 가중결합하는 방식으로 동일오류율을 측정한 결과, 각 전처리 알고리즘을 독립적으로 사용하여 점수를 계산한 경우보다 우수한 성능을 보임을 확인할 수 있었다.

LPC 켑스트럼 및 FFT 스펙트럼에 의한 성별 인식 알고리즘

  • 최재승;정병구
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.63-65
    • /
    • 2012
  • 본 논문에서는 입력된 음성이 남성화자인지 여성화자인지를 구분하는 FFT 스펙트럼 및 LPC 켑스트럼 입력에 의한 성별인식 알고리즘을 제안한다. 본 논문에서는 특히 남성화자와 여성화자의 특징벡터를 비교 분석하여, 이러한 남녀의 음향학적인 특징벡터의 차이점을 이용하여 신경회로망에 의한 성별 인식에 대한 실험을 수행한다. 특히 12차의 LPC 켑스트럼 및 8차의 저역 FFT 스펙트럼의 특징벡터를 사용한 경우에, 남성화자 및 여성화자에 대해서 양호한 남녀 성별인식률이 구해졌다.

  • PDF

지그비 크로스 보청기에서의 자기음성 억제 알고리즘 연구 (A Study on the Self-voice Suppression Algorithm in a ZigBee CROS Hearing Aid)

  • 임원진;고영환;전유용;길세기;윤광섭;이상민
    • 전기전자학회논문지
    • /
    • 제13권3호
    • /
    • pp.62-71
    • /
    • 2009
  • 본 연구에서는 편측성 난청인을 위한 저전력 무선통신인 지그비를 이용해 청력이 나쁜 쪽 귀의 소리를 청력이 좋은 쪽 귀로 전송해주는 무선 크로스 보청기를 설계하였다. 일반적으로 크로스 보청기에서는 자기목소리가 크게 려 상대방 음성인식에 영향을 줄 수 있다. 이를 방지하고자 본 연구에서는 자기음성억제 알고리즘을 제안한다. 자기음성억제 알고리즘의 성능평가를 확인하기 위하여 어음명료도검사를 하였다. 실험데이터는 1m 거리의 상대음성인 1음절단어 세트와 자기음성을 함께 녹음한 것을 사용하였다. 그 결과, 어음명료도검사에서 자기음성억제 알고리즘 적용 시 SDT값이 약 11%가량 증가였다. 즉, 자기음성억제 알고리즘이 동시 대화 시 상대방 음성인식 향상에 도움이 된다는 결과를 얻었다.

  • PDF

한국어 음성인식 성능향상을 위한 문맥의존 음향모델에 관한 연구 (A Study-on Context-Dependent Acoustic Models to Improve the Performance of the Korea Speech Recognition)

  • 황철준;오세진;김범국;정호열;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권4호
    • /
    • pp.9-15
    • /
    • 2001
  • 본 연구에서는 한국어 음성인식 성능향상을 위한 문맥의존 음향 모델을 개선하기 위하여 한국어 음성학적 지식과 결정트리를 접목한 음소결정트리 기반 상태분할 알고리즘으로 한국어에 적합한 문맥의존 음향 모델에 관해 고찰한다. HMM (Hidden Markov Model)의 각 상태를 네트워크로 연결하여 문맥의존 음향모델로 표현하는 HM-Net(Hidden Markov Network)이 있는데 이는 SSS(Successive State Splitting) 알고리즘으로 작성한다. 이 방법은 음향 모델의 상태공유관계와 모델의구조를 결정하는데 효율적이지만 모델을 학습할때 문맥환경에 따라 출현하지 않는 문맥이 존재하는 문제점이 있다 본 연구에서는 이러한 문제점을 해결하기 위해 2진 결정트리와 SSS 알고리즘의 장점을 결합하여 문맥방향 상태분할을 수행할 때 각 노드에서 한국어 음성학적 지식으로 구성된 음소 질의어에 따라 상태분할 하는 방법으로서 PDT-SSS(Phonetic Decision Tree-based SSS) 알고리즘을 적용한다. 적용한 방법으로 작성한 문맥의존 음향 모델의 유효성을 확인하기 위해 국어공학센터 (KLE)m이 452 단어와 항공편 예약관련 200문장(YNU 200)에 대해 화자독립 음소, 단어 및 연속음성인식 실험을 수행하였다. 인식실험결과, 문맥 의존 음향모델에 대한 화자독립 음소, 단어 및 연속음성 인식실험에서 기존의 단일 HMM 모델보다 향상된 인식률을 보여, 한국어에 적합한 문맥의존 음향 모델을 작성하는데 한국어 음성학적 지식과 음소결정트리 기반 상태분할 알고리즘이 유효함을 확인하였다.

  • PDF

은닉 마코프 모델 확률 보정을 이용한 음성 인식 성능 향상 (Performance Improvement in Speech Recognition by Weighting HMM Likelihood)

  • 권태희;고한석
    • 한국음향학회지
    • /
    • 제22권2호
    • /
    • pp.145-152
    • /
    • 2003
  • 본 논문에서는 인식 단위로서의 개개의 은닉 마코프 모델 (HMM: Hidden Markvo Model)에 대응하는 가중치를 도입하여 HMM출력 스코어는 HMM출력 확률과 HMM 가중치의 곱으로 표현된다고 가정하고 기존의 최소 분류 오류 훈련 방법과 유사하게 HMM 가중치를 반복적으로 훈련하는 방법을 제안하였다. 제안된 방법은 오인식 척도에 대해 차분 (delta) 계수를 정의하고 이를 이용하여 HMM 가중치를 반복하여 훈련하는 방법이다. 이러한 방법은 HMM 가중치의 합을 HMM 개수의 총합으로 제한함으로써 기존의 파라미터 추정 방법과 비터비 (Viterbi) 알고리즘에 큰 변화 없이 음성 인식에 효과적으로 적용될 수 있다. 제안된 방법은 기존의 분할 (segmental) 최소 분류 오류훈련 방법과 비교하여 추정하는 파라미터의 개수가 감소되었으며 훈련 모델의 최적 상태열을 이용한 경도 계산 과정이 포함되지 않음으로써 계산량을 효과적으로 단축할 수 있다. HMM가중치를 이용한 HMM기반의 음성 인식기의 성능 평가를 위해서 단독 숫자음 인식 실험을 실시하였다. 실험적 결과들은 HMM 확률 보정을 이용한 음성 인식 시스템이 베이스라인 시스템보다 음성 인식 성능이 더 우수함을 보여준다. 제안된 방법은 기존의 최소 분류 오류 훈련 방법에 비하여 구현하기 간편한 반면에 더욱 우수한 음성 인식 성능 향상을 보여준다.