• 제목/요약/키워드: 음향학적 특징개선

검색결과 12건 처리시간 0.027초

음향학적 모델에 의한 스펙트럼 필터 알고리즘 (Spectrum Filter Algorithm based on Acoustic Model)

  • 최재승
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 추계학술대회
    • /
    • pp.770-772
    • /
    • 2016
  • 본 논문에서는 음성신호처리 시스템에 유용하게 사용되는 음성신호의 특징 파라미터를 출력하는 스펙트럼 필터모델을 사용하여, 배경잡음 환경 하에서 음성신호 중의 잡음을 제거하는 알고리즘을 제안한다. 따라서 본 논문에서는 배경잡음을 제거할 때 고려해야 할 인간의 청각특성이 포함된 음성의 진폭 스펙트럼에 의한 청각필터의 특성을 도입한다. 본 논문의 실험에서 사용한 성능평가의 방법으로는 음절 명료도의 테스트에 적합한 주관적인 평가인 주파수 영역에서의 스펙트럼 왜곡률(Spectral Distortion, SD)을 사용하여 실험결과를 비교하고 고찰한다.

  • PDF

음향학적 파라메터를 이용한 한국어 연결숫자인식의 성능개선 (Performance Improvement of korean Connected Digit Recognition Based on Acoustic Parameters)

  • 김승희;김형순
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.44-47
    • /
    • 1999
  • 본 논문에서는 한국어 연결숫자인식에 있어서 모델간의 변별력 향상을 통해 인식률을 높이기 위하여 음향학적 파라메터(Acousticparameter)를 사용하는 짓을 제안한다. 제안된 방법은 음성학적 지식에 근거하여 적절한 주파수 대역별 에너지의 비의 로그값을 추가적인 특징파라메터로 사용한다. 실험결과, 제안된 방법을 사용함으로써 기본 인식시스템에 비해 오류율이 최고 $46\%$ 정도 감소됨을 확인할 수 있었다. 그리고 채널보상 기술을 함께 적용함으로써 $69\%$ 정도의 오류율 감소를 얻었다.

  • PDF

음향학적 파라메터를 이용한 한국어 연결숫자인식의 성능개선 (Performance Improvement of Korean Connected Digit Recognition Based on Acoustic Parameters)

  • 김승희;김형순
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.58-62
    • /
    • 1999
  • 본 연구에서는 한국어 연결숫자인식에 있어서 모델간의 변별력을 향상시키기 위하여 음향학적 파라메터(Acoustic Parameter)를 사용하는 것을 제안한다. 제안된 방법은 음성학적 지식에 근거하여 적절한 주파수 대역별 에너지의 비의 로그값을 추가적인 특징 파라메터로 사용한다. 실험결과, 제안된 방법을 사용함으로써 기본 인식시스템에 비해 오류율이 최고 46% 정도 감소됨을 확인할 수 있었다. 그리고 채널보상 기술을 함께 적용함으로써 69% 정도의 오류율 감소를 얻었다.

  • PDF

음향학적 및 언어적 탐색을 이용한 어휘 인식 최적화 (The Vocabulary Recognition Optimize using Acoustic and Lexical Search)

  • 안찬식;오상엽
    • 한국멀티미디어학회논문지
    • /
    • 제13권4호
    • /
    • pp.496-503
    • /
    • 2010
  • 어휘인식 시스템은 스탠드 얼론(Standalone)으로 개발되어 지고 있으며 휴대용 단말기에서 사용하였을 경우 메모리 공간의 제약과 오디오 압축으로 인해 인식률이 낮게 나타난다. 본 연구에서는 휴대용 단말기의 성능과 인식률 향상을 위하여 음향학적 탐색과 언어적 탐색을 분리하여 어휘 인식 속도를 개선한 시스템을 제안하였다. 음향학적 탐색은 휴대용 단말기에서 수행하고 보다 복잡한 언어적 탐색은 서버에서 처리하는 시스템으로 음성신호로부터 특징벡터를 추출하여 GMM을 이용한 음소인식을 수행하고, 인식된 음소 열을 서버로 전송하여 렉시컬 트리 탐색 알고리즘을 사용하여 언어적 탐색 단계에서 어휘 인식을 수행하였다. 시스템 성능 평가 결과 어휘 종속 인식률은 98.01%, 어휘 독립 인식률은 97.71%의 인식률을 나타냈으며 인식속도는 1.58초로 나타내었다.

C++ 언어와 Standard Library 를 이용한 음성인식기 개발 (Development of a Speech Recognition System uSing e++ Language and Standard library)

  • 황규웅
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.74-77
    • /
    • 1998
  • 우리는 C++를 이용하여 음성인식기를 구현하여 기존의 C를 이용한 경우에 비하여 30% 수준의 소스로 표현하였고 인식기의 공동개발, 확장 및 개선, 기술 전수 등이 용이하게 되었으며 이를 음성인식 엔진 및 음성인식 연구를 위한 툴로 사용할 수 있게 되었다. 이 인식기의 특징으로는 연속 음성 및 대화체 음성을 인식할 수 있으며 trigram 언어 모델을 사용하였고 문맥 종속 음소 모델링에서는 기존의 triphone 보다 넓은 문맥을 고려한 n-phone context modeling을 사용하였으며 모델의 선정에는 음성학적 지식을 기반으로 한 질문을 사용한 decision tree를 사용하여 훈련에 나타나지 않은 단어나 문맥인 경우라도 가장 가까운 모델을 선정할 수 있게 하였다. 또, tree lexicon을 사용하여 속도를 개선하였으며 state 단위의 모델 공유를 통해 제한된 데이터를 이용하여 더 많은 모델을 훈련할 수 있어 성능을 개선하였다. 상용화를 염두에 두고 pc에서 구현하였다.

  • PDF

합성용 운율 DB 구축에서의 MLP 기반 후처리가 포함된 음소분할 (The phoneme segmentatioi with MLP-based postprocessor on speech synthesis corpora)

  • 박은영
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.344-349
    • /
    • 1998
  • 음성/언어학적 및 음성의 과학적 연구를 위해서는 대량의 음소 단위 분절 레이블링된 데이터베이스 구축이 필수적이다. 따라서, 본 논문은 음성 합성용 DB 의 구축 및 합성 단위 자동 생성 연구의 일환으로 자동 음소 분할기의 경계오류를 보상할 목적으로 MLP 기반 호처리기가 포함된 음소 분할 방식을 제안한다. 최근 자동 음소 분할기의 성능 향상으로 자동 분절 결과를 이용하여 음성 합성용 운율 DB를 작성하고 있으나, 여전히 경계오류를 수정하지 않고서는 합성 단위로 직접 사용하기 어렵다. 이로 인해 보다 개선된 자동 분절 기술이 요구된다. 따라서, 본 논문에서는 음성에 내제된 음향적 특징을 다층 신경회로망으로 학습하고, 자동 분절기 오류의 통계 특성을 이용하여 자동 분절 경계 수정에 용이한 방식을 제안한다. 고립단어로 발성된 합성 데이터베이스에서, 제안된 후처리기를 도입 후, 기존 자동 분절 시스템이 분할율에 비해 약 25% 의 향상된 성능을 보였으며, 절대 오류는 약 39%가 향상되었다.

  • PDF

휴대 멀티미디어 단말용 음성인식 시스템 개발 (Development of Continuous Speech Recognition System for Multimedia Mobile Terminal Applications)

  • 김승희
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.59-62
    • /
    • 1998
  • 본 논문에서는 한국전자통신연구원의 Handy Combi 응용 도메인을 대상으로 한 화자독립 연속음성인식 시스템 개발에 관하여 기술한다. 불특정화자가 자연스럽게 발음한 연속음성을 인식하는 기술은 펜인식 등과 더불어 멀티모달 인터페이스의 핵심 요소로서, 이동 환경에서 사용자의 다양한 요구사항을 처리하는 지능형 에이전트에 구현을 위해 필수적으로 개발되어야 하는 기술이다. 본 논문에서는 연속확률분포를 가지는 Hidden Markov Model(HMM) 기반의 연속음성인식 시스템을 구현하였다. 개발된 시스템은 음성특징벡터로 MFCC를 사용하였으며, 음소 모델의 강인한 훈련을 위해 음성학적 지식에 기반을 둔 tree-based clustering 방식을 도입하였다. 인식단계에서는 인식속도를 개선시키기 위해 beam-search 기법을 적용하였다. 인식 실험 결과, 99.7%의 어절 인식률과 98.8%의 문장 인식률을 얻었으며, 최종적인 문장의 이해도는 99% 이상이었다.

  • PDF

신경학적 손상에 의한 언어장애인 음성 인식률 개선(H/W, S/W)에 관한 연구 (A Study on Improving Speech Recognition Rate (H/W, S/W) of Speech Impairment by Neurological Injury)

  • 이형근;김순협;양기웅
    • 한국정보통신학회논문지
    • /
    • 제23권11호
    • /
    • pp.1397-1406
    • /
    • 2019
  • 신경학적 손상에 의한 언어장애인/비장애인 간의 일상적인 휴대폰 통화시 신경학적 손상으로 인한 발음의 정확도와 언어장애인의 발음 특징이 결합되어 원활한 의사소통을 저해하는 경우가 많다. 이러한 문제점을 개선하기 위하여 제한하는 방법은 언어장애인 특성에 맞춘 단어의 모호성(out of vocabulary) 개선과, 언어 장애인 구강 특성에 따른 어려운 발성 부분을 인위적으로 보정해주는 유도선이 포함된 MEMS(Micro Electro-mechanical System) Microphone 장치 개선이다. S/W적 개선은 도치기능이 포함된 결정트리이며, 연속어 특성을 감안하여 개선된 matrix-vector rnn 방법을 제시하였다. H/W와 S/W 특성을 감안하여 유사 사전을 만들어 원활한 의사소통을 위한 말명료도 향상에 기여하였다.

음성인식에서 화자 내 정규화를 위한 진폭 변경 방법 (An Amplitude Warping Approach to Intra-Speaker Normalization for Speech Recognition)

  • 김동현;홍광석
    • 인터넷정보학회논문지
    • /
    • 제4권3호
    • /
    • pp.9-14
    • /
    • 2003
  • 기존의 성도 정규화 방법은 화자 간 정규화의 정확성을 개선하기 위한 매우 좋은 방법이다. 본 논문에서는 피치 변경 발성에 기반을 둔 새로운 화자 내 warping 인수 추정 방법을 제안한다. 화자 내 피치 변경 발성은 성문과 성도에 의해 발생되는 음성의 음향학적 차이 때문에 음성의 특징 공간 분포는 다르게 나타날 것이다. 발성의 변동은 frequency 성분과 amplitude 성분의 두가지 유형이 있다. 성도 정규화는 화자 간 정규화 방법들 중에서 주파수 정규화 방법이다. 여기에서는 화자 내 정규화를 위하여 진폭 변동을 정규화하는 방법을 제안한다. 참조 피치와 입력 피치의 역비례 계산에 의해서 진폭 warping 인수를 결정하는 것이 가능하다. 성능 평가를 위한 인식 실험 결과 숫자와 단어 인식에서 0.4%∼2.3% 정도의 인식 오류가 감소되었다.

  • PDF

연속음성 인식기를 위한 벡터양자화기 기반의 화자정규화 (Vector Quantizer Based Speaker Normalization for Continuos Speech Recognition)

  • 신옥근
    • 한국음향학회지
    • /
    • 제23권8호
    • /
    • pp.583-589
    • /
    • 2004
  • 포만트 등의 음향학적인 정보를 이용하지 않는 연속음성인식 (CSR)을 위한 벡터 양자화기 기반의 화자 정규화 방법을 제안한다. 이 방법은 앞서 제안한 간단한 숫자음 인식기를 위한 화자정규화 방법을 개선한 것으로, 코드북의 크기를 증가시켜 가면서 벡터양자화기를 반복적으로 학습시킴으로써 정규화된 코드북을 구한 다음, 치를 이용하여 시험용화자의 워핑계수를 추정한다. 코드북 생성과 워핑계수 추정을 위해 모음 음소의 집합과 자음과 모음을 포함한 모든 음소의 집합 등 두 가지 음소집합을 이용i,겨 실험하였으며, 추정한 워핑계수에 상응하는 구간선형 워핑함수를 이용하여 인식기의 학습과 시험에 사용될 특징벡터를 워핑하였다. TIMIT 코퍼스와 HTK toolkit을 이용한 음소인식 실험을 수행하여 제안하는 방법의 성능을 조사한 결과, 포만트를 이용한 워핑 방법과 비슷한 성능을 가짐을 확인하였다.