• 제목/요약/키워드: 음성인식 후처리기

검색결과 39건 처리시간 0.023초

구문형태소 단위를 이용한 음성 인식의 후처리 모델 (A Model for Post-processing of Speech Recognition Using Syntactic Unit of Morphemes)

  • 양승원;황이규
    • 한국산업정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.74-80
    • /
    • 2002
  • 한국어 연속 음성 인식결과의 성능향상을 위해서 자연어 처리 기술을 이용한 후처리 기법이 사용된다. 그러나 자연어 처리 기법이 대부분 띄어쓰기가 있는 정형화된 입력 문장에 대한 분석을 수행하여 왔기 때문에 형태소 분석기를 직접 음성인식 결과의 향상에 사용하는 데에는 어려운 점이 많다. 본 논문에서는 띄어쓰기를 고려하지 않는 기능어 기반의 최장일치 형태소 해석 방법인 구문 형태소 단위의 분석을 이용한 음정인식 결과의 향상 모델을 제안한다. 제안된 모델을 통해 연속음성 인식 결과에서 자주 발생하는 용언과 보조 용언 및 의존 명사 사이의 음운들 사이의 구조적 정보를 활용함으로써 음성 인식 결과의 성능을 향상시키는 방법에 대해 기술한다.

  • PDF

연속 음성 문자열에 대한 한국어 띄어쓰기 시스템 (Korean Spacing System for Continuous Speech Characters)

  • 김계성;이현주;김성규;최재혁;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.391-395
    • /
    • 1998
  • 대용량의 연속된 음성을 인식하는 데에는 형태소 사이의 음운변동과 언절과 어절 사이의 불일치 등으로 인한 어려움이 따른다. 그러므로 언어학적인 지식을 이용한 자연어 처리 기술과의 결합이 필수적이라 할 수 있다. 본 논문에서는 문장 단위의 연속 음성 문자열을 올바른 어절로 띄어주는 시스템을 제안한다. 먼저 띄어쓰기 발음열 사전을 이용하여 어절의 경계를 추정한다. 이 때 보다 정확한 띄어쓰기 위치를 추정하기 위하여 2음절 이상의 최장 조사 어미와 음절 분리가능빈도가 이용된다. 이렇게 해서 분리된 어절들은 음절 복원기를 거친 뒤, 형태소 분석을 행하여 올바른 어절인지를 검사한다. 분석에 실패한 어절은 띄어쓰기 오류 유형에 따라 교정을 한 후 형태소 분석을 재시도한다. 제안한 시스템을 테스트해 본 결과 96.8%의 정확도를 보였다. 본 시스템은 음운 변동 처리기와 함께 말소리를 음성 그대로 인식하는 인식기의 후처리로 이용할 수 있을 것이다.

  • PDF

다층회귀신경망을 이용한 음성인식 (Speech Recognitioin Using Multilayered Recurrent Neural Networks)

  • 어태경
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.267-271
    • /
    • 1998
  • 신경망에 의한 음절과 연속음성 인식시 동특성처리의 한방법으로 회귀신경망을 이용한다. 본 연구는 비회귀형 상위은닉층과 회귀형 하위은닉층을 가진 4층 구조의 다층회귀신경망으로 예측기를 반들어 나성화자 5명이 CV형 음절 14개, CVC형 음절 14개를 각각 5회씩 발음한 총 700개의 음성중 3회분인 420개 음성으로 학습한 후 나머지 2회분인 280개 음성으로 인식을 평가한다. 입력신호의 예측차수와 상, 하위 은닉층으 뉴런수를 변경시키면서 각각의 인식률을 조사해 본 결과 상위 은닉층의 뉴런이 10개이고 하위 은닉층의 뉴런이 10개와 15개 그리고 예측차수가 3,4차일 때 가장 양호한 인식기로 동작한다는 것을 알 수 있었다. 이 때 나타난 인식률은 Elman 망보다 다소 우세하다.

  • PDF

독립성분분석법을 이용한 음성인식기의 성능향상 (Performance Improvement of Speech Recognition Based on Independent Component Analysis)

  • 김창근;한학용;허강인
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2001년도 하계 학술대회 논문집(KISPS SUMMER CONFERENCE 2001
    • /
    • pp.285-288
    • /
    • 2001
  • 본 논문에서는 신호간의 의존성과 관련성이 최소가 되도록 분리하는 독립성분분석 법을 이용하여 입력음성에서 변동량이 많은 방향으로 주축을 찾아 그 정보를 이용하여 데이터의 중복성을 제거한 후 음성특징벡터를 추출하는 방법을 제안한다. 학습 하고자하는 음성인식기의 음성에서 독립성분분석법을 이용하여 특징벡터를 추출하고 HMM 을 사용하여 기존의 음성특징벡터로 사용되는 mel-cepstrum과 비교하여 학습, 인식실험을 수행하였으며 제안한 방법에서 음성인식성능의 향상을 확인할 수 있었다. 또한, 인식시 주변여건에 따라 잡음에 의한 인식성능 저하에도 유연히 대처할 수 있음을 앞 수 있었다.

  • PDF

RUI용 음성신호기반의 감정분류를 위한 피치검출기에 관한 연구 (A study on pitch detection for RUI emotion classification based on voice)

  • 변성우;이석필
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.421-424
    • /
    • 2015
  • 컴퓨터 기술이 발전하고 컴퓨터 사용이 일반화 되면서 휴먼 인터페이스에 대한 많은 연구들이 진행되어 왔다. 휴먼 인터페이스에서 감정을 인식하는 기술은 컴퓨터와 사람간의 상호작용을 위해 중요한 기술이다. 감정을 인식하는 기술에서 분류 정확도를 높이기 위해 특징벡터를 정확하게 추출하는 것이 중요하다. 본 논문에서는 정확한 피치검출을 위하여 음성신호에서 음성 구간과 비 음성구간을 추출하였으며, Speech Processing 분야에서 사용되는 전 처리 기법인 저역 필터와 유성음 추출 기법, 후처리 기법인 Smoothing 기법을 사용하여 피치 검출을 수행하고 비교하였다. 그 결과, 전 처리 기법인 유성음 추출 기법과 후처리 기법인 Smoothing 기법은 피치 검출의 정확도를 높였고, 저역 필터를 사용한 경우는 피치 검출의 정확도가 떨어트렸다.

  • PDF

음성 인식 후처리를 위한 띄어쓰기 오류의 교정 (Word Spacing Error Correction for the Postprocessing of Speech Recognition)

  • 임동희;강승식;장두성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.25-27
    • /
    • 2006
  • 음성인식 결과는 띄어쓰기 오류가 포함되어 있으며 이는 인식 결과에 대한 이후의 정보처리를 어렵게 하는 요인이 된다. 본 논문은 음성 인식 결과의 띄어쓰기 오류를 수정하기 위하여 품사 정보를 이용한 어절 재결합 기법을 기본 알고리즘으로 사용하고 추가로 음절 바이그램 및 4-gram 정보를 이용하는 띄어쓰기 오류 교정 방법을 제안하였다. 또한, 음성인식기의 출력으로 품사 정보가 부착된 경우와 미부착된 경우에 대한 비교 실험을 하였다. 품사 미부착된 경우에는 사전을 이용하여 품사 정보를 복원하였으며 N-gram 통계 정보를 적용했을 때 기본적인 어절 재결합 알고리즘만을 사용 경우보다 띄어쓰기 정확도가 향상되는 것을 확인하였다.

  • PDF

한국어 대화체 음성언어 번역시스템에서의 개념기반 번역시스템 (Concept-based Translation System in the Korean Spoken Language Translation System)

  • 최운천;한남용;김재훈
    • 한국정보처리학회논문지
    • /
    • 제4권8호
    • /
    • pp.2025-2037
    • /
    • 1997
  • 대화체 음성언어번역시스템의 일부인 개념기반 번역시스템은 음성인식의 결과를 이용하여 다른 언어로 번역해 주는 시스템이다. 본 논문은 여행계획 영역에 대해 한국어를 해석하여 영어, 일본어, 한국어로 번역해 주는 시스템에 대해 기술한 것이다. 개념기반 번역은 비정형 문장이 많은 대화체 문장을 처리하기 위해 형태소 분석 등의 구문정보를 이용하지 않고, 의미단위의 번역을 시도한 것으로 화자의 의도를 정확히 번역해 주는 것을 목표로 한다. 개념기반 번역은 280여개의 개념과 개념간의 계층구조에 의해, 인식결과를 개념구조로 변환한 후 다른 언어로 생성해 준다. 효율적인 한국어 처리를 위해 기준단어를 이용한 토큰분리기와 문법자동 수정기를 개발하였다. 그리고 자연스러운 생성문을 위해 각 언어에 대한 후처리기를 개발하였다.

  • PDF

Bi-LSTM 보조 신경망 모델을 결합한 생성형 한국어 Inverse Text Normalization 모델 (Generative Korean Inverse Text Normalization Model Combining a Bi-LSTM Auxiliary Model)

  • 조정제;신동수;조경빈;한영섭;전병기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.716-721
    • /
    • 2023
  • Inverse Text Normalization(ITN) 모델은 음성 인식(STT) 엔진의 중요한 후처리 영역 중 하나이며, STT 인식 결과의 가독성을 개선한다. 최근 ITN 모델에 심층신경망을 활용한 연구가 진행되고 있다. 심층 신경망을 사용하는 대부분의 선행연구는 문장 내 변환이 필요한 부분에 토큰 태깅을 진행하는 방식이다. 그러나 이는 Out-of-vocabulary(OOV) 이슈가 있으며, 학습 데이터 구축 시 토큰 단위의 섬세한 태깅 작업이 필요하다는 한계점이 존재한다. 더불어 선행 연구에서는 STT 인식 결과를 그대로 사용하는데, 이는 띄어쓰기가 중요한 한국어 ITN 처리에 변환 성능을 보장할 수 없다. 본 연구에서는 BART 기반 생성 모델로 생성형 ITN 모델을 구축하였고, Bi-LSTM 기반 보조 신경망 모델을 결합하여 STT 인식 결과에 대한 고유명사 처리, 띄어쓰기 교정 기능을 보완한 모델을 제안한다. 또한 보조 신경망을 통해 생성 모델 처리 여부를 판단하여 평균 추론 속도를 개선하였다. 실험을 통해 두 모델의 각 정량 성능 지표에서 우수한 성능을 확인하였고 결과적으로 본 연구에서 제안하는 두 모델의 결합된 방법론의 효과성을 제시하였다.

  • PDF

형태소 분석 기법을 이용한 음성 인식 후처리 (Postprocessing of A Speech Recognition using the Morphological Anlaysis Technique)

  • 박미성;김미진;김계성;김성규;이문희;최재혁;이상조
    • 전자공학회논문지C
    • /
    • 제36C권4호
    • /
    • pp.65-77
    • /
    • 1999
  • 연속 음성 인식 결과를 자연어 처리 기술과 접목시키기 위해 처리해야 할 두가지 문제점이 있다. 첫째는 말하는 단위와 문서의 띄어쓰기 단위가 일치하지 않는다는 것이고, 둘째는 발음시 형태소 내부 및 형태소 간에 음운 변동 현상이 생긴다는 것이다. 본 논문에서는 이 두가지 문제를 어절생성기와 음절복원기로 해결하고, 생성된 결과들을 형태소 분석하여 실패한 결과들은 교정기를 통해 교정하는 연속 음성 인식 후처리 시스템을 구현하였다. 제안한 시스템의 실험은 두 종류의 음성 말뭉치 ?, 교과서 음성 말뭉치와 사설 음성 말뭉치를 대항으로 수행하였다. 각 말뭉치에 대한 성공률은 각각 93.72%, 92.26% 였고, 이 실험으로 제안한 시스템은 음성 말뭉치의 종류에 민감하지 않는 안정된 시스템임을 알 수 있었다.

  • PDF

음의 유사도 비율 누적 방법을 이용한 발화검증 연구 (A Study on Utterance Verification Using Accumulation of Negative Log-likelihood Ratio)

  • 한명희;이호준;김순협
    • 한국음향학회지
    • /
    • 제22권3호
    • /
    • pp.194-201
    • /
    • 2003
  • 음성인식에서 신뢰도 측정이란 인식된 결과에 대한 신뢰 여부를 결정하는 것이다. 신뢰도는 프레임을 음소 및 단어 수준으로 통합하여 측정된다. 단어 인식의 경우, 신뢰도를 이용하여 인식 결과와 미등록 어휘를 검증한다. 따라서 이러한 후처리를 통해 이를 인식 결과로 승인하지 않음으로써 성능을 높일 수 있다. 본 논문에서는 기존의 신뢰도 측정 방법인 로그 유사도 비를 수정하여 신뢰도를 측정하였다. 제안된 방법은 프레임 수준에서 음소 수준으로 신뢰도를 통합할 때 로그 유사도 비가 음수인 것만을 누적하는 것이다. 단어 인식기의 인식 결과에 대한 검증 성능을 기존의 방법과 비교한 결과, CAR (Correct Acceptance Ratio)이 90%인 지점에서 FAR (False Acceptance Ratio)을 미등록 어휘에 대해서는 약 3.49%, 오인식에 대해서는 15.25% 감소시킬 수 있었다