• 제목/요약/키워드: 음성인식 후처리

검색결과 131건 처리시간 0.056초

한국어 음성인식 후처리기를 위한 학습 데이터 자동 생성 방안 (Automatic Generation of Training Data for Korean Speech Recognition Post-Processor)

  • 구선민;박찬준;문현석;서재형;어수경;허윤아;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.465-469
    • /
    • 2022
  • 자동 음성 인식 (Automatic Speech Recognition) 기술이 발달함에 따라 자동 음성 인식 시스템의 성능을 높이기 위한 방법 중 하나로 자동 후처리기 연구(automatic post-processor)가 진행되어 왔다. 후처리기를 훈련시키기 위해서는 오류 유형이 포함되어 있는 병렬 말뭉치가 필요하다. 이를 만드는 간단한 방법 중 하나는 정답 문장에 오류를 삽입하여 오류 문장을 생성하여 pseudo 병렬 말뭉치를 만드는 것이다. 하지만 이는 실제적인 오류가 아닐 가능성이 존재한다. 이를 완화시키기 위하여 Back TranScription (BTS)을 이용하여 후처리기 모델 훈련을 위한 병렬 말뭉치를 생성하는 방법론이 존재한다. 그러나 해당 방법론으로 생성 할 경우 노이즈가 적을 수 있다는 관점이 존재하다. 이에 본 연구에서는 BTS 방법론과 인위적으로 노이즈 강도를 추가한 방법론 간의 성능을 비교한다. 이를 통해 BTS의 정량적 성능이 가장 높은 것을 확인했을 뿐만 아니라 정성적 분석을 통해 BTS 방법론을 활용하였을 때 실제 음성 인식 상황에서 발생할 수 있는 실제적인 오류를 더 많이 포함하여 병렬 말뭉치를 생성할 수 있음을 보여준다.

  • PDF

잡음 환경에서의 강인한 음성인식을 위한 문맥 정보와 음성인식 결과의 융합 (Merging Context Information and Recognition Result for Robust Speech Recognition in Noisy Environments)

  • 송원문;김은주;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.733-735
    • /
    • 2005
  • 최근 음성인식 분야 에서는 잡음 환경에서 좀 더 신뢰도 높은 음성 인식 결과물 얻기 위하여 인식 결과 도출 단계에서 여러 가지 정보를 융합 하는 방법이나 인식결과를 후처리 하여 새로운 결과를 얻어 내는 방법들이 연구 되고 있다. 본 논문에서는 개인 모바일 기기에서의 음성 인식 환경에서 사용자의 발화 패턴 정보를 가지는 문맥 정보를 활용함으로서 잡음 환경에서의 음성 정보 손실에 따른 인식률 하락을 보완하는 방법을 제안한다. 먼저 사용자의 기기 사용 로그나 발화 로그 정보로부터 특정 명령어들의 순차적 발화 패턴을 마이닝하여 문맥 정보를 구성한다. 이 후 음성 발화시에 인식기의 최종 인식 결과에 대한 신뢰도가 떨어진다고 판단될 때 앞서 얻어진 문맥 정보의 신뢰도를 인식기의 각 후보단어들의 인식률과 융합하여 새로운 인식 결과를 도출해 낸다. 이러한 과정에서 인식기 결과에 대한 신뢰성을 판단하는 기준을 실험을 통하여 결정 하였으며 신뢰성이 기준 이하일 경우의 융합 과정을 위하여 후보 단어 인식률과 문맥정보를 적절히 융합할 수 있는 방법을 제안한다.

  • PDF

한글 단어의 음성 인식 처리에 관한 연구 (A Study on Processing of Speech Recognition Korean Words)

  • 남기훈
    • 문화기술의 융합
    • /
    • 제5권4호
    • /
    • pp.407-412
    • /
    • 2019
  • 본 논문에서는 한글 단어 단위의 음성 인식 처리 기술을 제안한다. 음성 인식은 마이크와 같은 센서를 사용하여 얻은 음향학적 신호를 단어나 문장으로 변환시키는 기술이다. 대부분의 외국어들은 음성 인식에 있어서 어려움이 적은 편이다. 그에 반면, 한글의 모음과 받침 자음 구성이어서 음성 합성 시스템으로부터 얻은 문자를 그대로 사용하기에는 부적절하다. 기존 구조의 음성 인식 기술을 개선해야만 보다 정확하게 단어를 인식할 수 있다. 이러한 문제를 해결하기 위해 기존 방식의 음성 인식구조에 새로운 알고리즘을 추가하여 음성 인식률을 높이게 하였다. 먼저 입력된 단어를 전처리 과정을 수행한 후 결과를 토큰 처리한다. 레벤스테인 거리 알고리즘과 해싱 알고리즘에서 처리된 결과 값을 조합한 후 자음 비교 알고리즘을 거쳐 표준 단어를 출력한다. 최종 결과 단어를 표준화 테이블과 비교하여 존재하면 출력하고 존재하지 않으면 테이블에 등록하도록 하였다. 실험 환경은 스마트폰 응용 프로그램을 개발하여 사용하였다. 본 논문에서 제안된 구조는 기존 방식에 비해 인식률의 성능이 표준어는 2%, 방언은 7% 정도 향상되었음을 보였다.

음성인식 후처리를 위한 음가-표기 변환표 생성에 관한 연구 (A Study on Phonetic Value - Transcription Look-Up Table Generation for Postprocessing of Voice Recognition)

  • 김경징;최영규;이상범
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권5호
    • /
    • pp.585-594
    • /
    • 2002
  • 본 논문에서는 음성인식의 후처리를 위한 음가-표기 변환표의 생성과 구현에 관한 연구를 수행하였다. 음절 단위 음가를 인식하는 음성인식 시스템을 위한 후처리를 위하여 인식된 음가로 발음되는 표기 집합을 생성하는 표기 집합 생성기를 설계 구현하였다. 표준 발음법을 페트리넷으로 모델링하여 생성된 표기-음가 변환표를 기반으로 음가표기 변환표를 생성하였다. 음가-표기 변환표가 올바른 표기 집합을 생성함을 보이기 위하여 표기 집합 생성기를 설계 구현하고, 표준 발음법 예제와 발음법 사전에서 무작위로 추출된 단어에 대하여 실험한 결과 발성 이전의 표기가 포함된 올바른 표기 집합이 생성됨을 입증하였다.

  • PDF

대화형 개인 비서 시스템의 언어 인식 모듈(SLU)을 위한 미등록어(OOV) 처리 기술 (A Out-of-vocabulary Processing Technology for the Spoken Language Understanding Module of a Dialogue Based Private Secretary Software)

  • 이창수;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2014
  • 대화형 개인 비서 시스템은 사람의 음성을 통해 인식된 음성 인식 결과를 분석하여 사용자에게 제공할 정보가 무엇인지 파악한 후, 정보가 포함되어 있는 앱(app)을 실행시켜 사용자가 원하는 정보를 제공하는 시스템이다. 이러한 대화형 개인 비서 시스템의 가장 중요한 모듈 중 하나는 음성 대화 인식 모듈(SLU: Spoken Language Understanding)이며, 발화의 "의미 분석"을 수행하는 모듈이다. 본 논문은 음성 인식결과가 잘못되어 의미 분석이 실패하는 것을 방지하기 위하여 음성 인식 결과에서 잘못 인식된 명사, 개체명 단어를 보정 시켜주는 미등록어(OOV:Out-of-vocabulary) 처리 모듈을 제안한다. 제안하는 미등록어 처리 모듈은 미등록어 탐색 모듈과 미등록어 변환 모듈로 구성되며, 미등록어 탐색 모듈을 통해 사용자의 발화에서 미등록어를 분류하고, 미등록어 변환 모듈을 통해 미등록어를 사전에 존재하는 유사한 단어로 변환하는 방법을 제안한다. 제안한 방법을 적용하였을 때의 실험 결과, 전체 미등록어 중 최대 52.5%가 올바르게 수정되었으며, 음성 인식 결과를 그대로 사용했을 경우 "원본 문장"과 문장 단위 67.6%의 일치율을 보인 것에 반해 미등록어 처리 모듈을 적용했을 때 17.4% 개선된 최대 85%의 문장 단위 일치율을 보였다.

  • PDF

문맥 및 사용 패턴 정보를 이용한 음성인식의 성능 개선 (Performance Improvement of Speech Recognition Using Context and Usage Pattern Information)

  • 송원문;김명원
    • 정보처리학회논문지B
    • /
    • 제13B권5호
    • /
    • pp.553-560
    • /
    • 2006
  • 최근 음성인식에서는 잡음환경에서 좀 더 신뢰성 있는 결과를 얻기 위해 인식 결과 도출 단계에서 여러 가지 정보의 내용들을 융합하거나 이전 인식 결과의 후처리를 통하여 성능을 향상시키는 방법들이 연구되고 있다. 본 논문에서는 잡음 환경에서의 인식률 하락을 보완하기 위해 개인 모바일 기기를 위한 음성 명령어 인식에서 사용자의 사용패턴과 문맥 정보를 사용하는 방법을 제안한다. 기본 인식 결과를 보정하기 위해서 현재 명령어를 발화하기 이전에 사용자가 사용한 순차적 명령어 패턴을 사용하였다. 또한 문맥 정보를 위해서는 사용중인 기기의 현재 기능과 발화된 명령어간의 연관성을 사용하였다. 실험을 통해 제안한 방법이 기본 인식 시스템에서 발생한 오인식의 약 50%를 수정하였음을 보였으며 이로써 제안한 방법의 타당성을 검증하였다.

한국어 음성 인식 시스템을 위한 MEL-LPC 분석 방법과 LPC-MEL 분석 방법의 비교 (Comparison of MEL-LPC and LPC-MEL Analysis Method for the Korean Speech Recognition Systems.)

  • 김주곤;김범국;정호열;정현열
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.833-836
    • /
    • 2001
  • 본 논문에서는 한국어 음성인식 시스템의 성능 향상을 위해 청각 주파수 분해능을 가진 MEL-LPC Cepstrum을 음소단위의 HMM(Hidden Markov Model)을 기반으로 하는 인식 시스템에 적용하여 그 결과를 비교 검토하였다. 선형예측(LP) 분석 후에 후처리로서 주파수를 왜곡시킨 LPC-MEL 분석이 계산량이 적고 효과적이라 일반적으로 많이 사용되고 있으나 주파수 분해능은 많이 개선되지 않는다. 따라서 본 논문에서는 주파수 분해능을 개선하기 위해, 원 음성신호로부터 직접적으로 멜주파수로 왜곡시킨 후 선형 예측 분석을 수행하는 MEL-LPC 분석방법을 이용한 음소기반의 화자 독립 음성인식 시스템을 구성하여 기존의 LPC-MEL 분석방법과 비교실험을 통하여 MEL-LPC 분석방법의 유효성을 검토하였다. 실험에 사용한 음성 데이터베이스는 음소 및 단어 인식실험에서는 ETRI 445단어 DB, 연속 숫자음인식 실험에서는 KLE 4연속 숫자음 DB를 사용하였다. 화자 독립 음소인식 실험의 경우, 묵음을 제외한 47개의 유사 음소에 대하여 4상태 3출력의 Left-to-Right 모델을이용하였다. 단어 및 연속 숫자음 인식 실험의 경우, 유한상태 네트워크에 의한 OPDP법을 이용하였다. 화자 독립 음소, 단어 및 4연속 숫자음 인식 실험결과, 기존의 LPC-MEL Cepstrum을 사용한 경우보다 MEL-LPC Cepstum을 사용한 경우가 더 높은 인식률을 나타내어 한국어 음성인식 시스템에서 MEL-LPC 분석방법의 유효성을 확인할 수 있었다.

  • PDF

RUI용 음성신호기반의 감정분류를 위한 피치검출기에 관한 연구 (A study on pitch detection for RUI emotion classification based on voice)

  • 변성우;이석필
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.421-424
    • /
    • 2015
  • 컴퓨터 기술이 발전하고 컴퓨터 사용이 일반화 되면서 휴먼 인터페이스에 대한 많은 연구들이 진행되어 왔다. 휴먼 인터페이스에서 감정을 인식하는 기술은 컴퓨터와 사람간의 상호작용을 위해 중요한 기술이다. 감정을 인식하는 기술에서 분류 정확도를 높이기 위해 특징벡터를 정확하게 추출하는 것이 중요하다. 본 논문에서는 정확한 피치검출을 위하여 음성신호에서 음성 구간과 비 음성구간을 추출하였으며, Speech Processing 분야에서 사용되는 전 처리 기법인 저역 필터와 유성음 추출 기법, 후처리 기법인 Smoothing 기법을 사용하여 피치 검출을 수행하고 비교하였다. 그 결과, 전 처리 기법인 유성음 추출 기법과 후처리 기법인 Smoothing 기법은 피치 검출의 정확도를 높였고, 저역 필터를 사용한 경우는 피치 검출의 정확도가 떨어트렸다.

  • PDF

음성 개선 기반의 모델 보상 기법을 이용한 강인한 잡음 음성 인식 (A Noise Robust Speech Recognition Method Using Model Compensation Based on Speech Enhancement)

  • 신광호;정호열;정현열
    • 한국음향학회지
    • /
    • 제27권4호
    • /
    • pp.191-199
    • /
    • 2008
  • 본 논문에서는 잡음 환경하의 음성 인식을 위해 전처리 단계에서 Mel-warped Wiener Filtering (MWF) 기법을 이용하여 입력 음성을 개선하고 후처리 단계에서 PMC (Parallel Model Combination) 기법을 이용하여 인식 모델을 보상하는 MWF-PMC잡음 처리 기법을 제안한다. PMC 기법은 전처리 단계에서 개선된 음성의 묵음 구간으로부터 잔류 잡음을 취하여 깨끗한 음성을 이용하여 작성한 인식 모델을 보상함으로써 잡음 환경하의 음성 인식 성능을 향상시킬 수 있다. 인식 실험을 위한 음성 데이터는 국어공학연구소 (KLE)에서 작성한 PBW (Phoneme Balanced Words) 452 단어 음성 데이터를 8 kHz로 다운 샘플링한 후 Subway, Car 및 Exhibition 잡음을 5단계의 신호 대 잡음비 (SNR)를 0, 5, 10, 15, 2003로 부가하여 구성하였다. 인식 실험 결과, 본 논문에서 제안한 MWF-PMC 기법이 기존의 결합된 기법보다 전반적으로 향상된 인식 성능을 얻어 그 유효성을 확인할 수 있었다.

음소결정트리 상태분할을 이용한 한국어 연속음성인식에 관한 연구 (A Study on the Korean Continuous Speech Recognition using Phonetic Decision Tree-based State Splitting)

  • 오세진;황철준;김범국;정호열;정현열
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2001년도 하계 학술대회 논문집(KISPS SUMMER CONFERENCE 2001
    • /
    • pp.277-280
    • /
    • 2001
  • 본 연구에서는 연속음성인식 시스템의 성능개선을 위한 기초 연구로서 음소결정트리 상태분할과 한국어 음성학적 지식을 이용하여 문맥의존 음향모델의 작성방법을 검토하고. 한국어 연속음성인식에 적용을 소개한다. 음소결정트리 상태분할 알고리즘은 각 노드에서 한국어 음성학적 지식으로 구성된 음소 질의어 집합에 따라 2진 트리로 SSS(Successive State Splitting) 알고리즘에 의해 상태분할 하는 방법으로서 상태분할 후 각 상태를 네트워크로 연결한 구조를 HM-Net(Hidden Markow Network)이라 하며 문맥의존 음향모델로 표현된다. 작성한 문맥의존 음향모델의 유효성을 확인하기 위해 본 연구실의 항공편 예약 문장(YNU200)에 대해 연속음성인식 실험을 수행하였다. 인식실험 결과, 문맥의존 음향모델에 대한 화자독립 연속음성인식률이 기존의 단일 HMM 모델보다 평균적으로 1-pass의 경우 9.9%, 2-pass의 경우 4.1% 향상된 인식률을 보였다. 따라서 문맥의존 음향모델을 작성하는데 음소결정트리 상태분할과 한국어 음성학적 지식이 유효함을 확인하였다.

  • PDF