• 제목/요약/키워드: 음성인식알고리즘

검색결과 449건 처리시간 0.031초

시각 장애우를 위한 YOLO와 OCR 알고리즘 기반의 유통기한 자동 알림 시스템 (Automatic Notification System of Expiration Date Based on YOLO and OCR algorithm for Blind Person)

  • 김민수;문미경;한창희
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.697-698
    • /
    • 2021
  • 본 논문에서는 시각 장애우의 식품 안전성 증진을 위해 광학 문자 인식 (optical character recognition, OCR) 및 실시간 객체 인식 (you only look once, YOLO) 알고리즘에 기반한 식품의 유통기한 자동 알림 시스템을 제안한다. 제안하는 시스템은 1) 스마트폰 카메라를 통해 실시간으로 입력되는 영상에서 YOLO 알고리즘을 활용하여 유통기한으로 예측되는 이미지 영역을 검출하고, 2) 검출된 영역에서 OCR 알고리즘을 활용하여 유통기한 데이터를 추출하며, 3) 최종 추출된 유통기한 데이터를 음성으로 변환하여 시각 장애우에게 전달한다. 개발된 시스템은 유통기한 정보를 추출해서 사용자에게 전달하기까지 평균 약 7초 이내의 빠른 응답 속도를 보였으며, 62.8%의 객체 인식 정확도와 93.6%의 문자 인식 정확도를 보였다. 이러한 결과들은 제안하는 시스템을 시각 장애우들이 실용적으로 활용할 수 있다는 가능성을 보여준다.

  • PDF

입/출력 신호의 상관계수를 이용한 반향제거기 (Echo Canceller using Cross-Correlation of Input and Output Singnals)

  • 강명구
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.189-192
    • /
    • 1998
  • 전화망을 이용한 음성인식 시스팀에서 출력신호의 반향에 의한 입력신호의 음질 열화현상을 막기위해서 적응디지털 필터를 이용한 반향제거기가 필수적이다. 대표적인 적응 필터 알고리즘인 LMS와 NLMS 들을 각각 이용한 적응 반향제거기들과 입/출력신호의 상관계수를 이용한 개선된 적응 필터 알고리즘의 성능을 비교하였다. 개선된 알고리즘의 경우 NLMS 알고리즘의 빠른 수렴특성을 가지면서도 더블톡(double talk)구간에서의 음질왜곡 현상을 LMS보다 개선시켰다.

  • PDF

위너필터법이 적용된 MFCC의 파라미터 추출에 기초한 화자독립 인식알고리즘 (Speaker Independent Recognition Algorithm based on Parameter Extraction by MFCC applied Wiener Filter Method)

  • 최재승
    • 한국정보통신학회논문지
    • /
    • 제21권6호
    • /
    • pp.1149-1154
    • /
    • 2017
  • 배경잡음 하에서 음성인식 시스템의 우수한 인식성능을 얻기 위해서 적절한 음성의 특징 파라미터를 선택하는 것이 매우 중요하다. 본 논문에서 사용한 특징 파라미터는 위너필터 방법이 적용된 인간의 청각 특성을 이용한 멜 주파수 켑스트럼 계수(Mel frequency cepstral coefficient, MFCC)를 사용한다. 즉, 본 논문에서 제안하는 특징 파라미터는 배경잡음을 제거한 후에 깨끗한 음성신호의 파라미터를 추출하는 새로운 방법이다. 제안한 수정된 MFCC 특징 파라미터를 다층 퍼셉트론 네트워크에 입력하여 학습시킴으로써 화자인식을 구현한다. 본 실험에서는 14차의 MFCC 특징 파라미터를 사용하여 화자독립 인식실험을 실시하였으며, 백색잡음이 혼합된 경우의 음성의 화자독립인식률은 평균 94.48%로 효과적인 결과를 구할 수 있었다. 본 논문에서 제안한 방법과 기존의 방법들을 비교하였을 때 본 논문에서 제안한 화자인식 성능이 수정된 MFCC 특징 파라미터를 사용함으로써 향상되었다.

연속음성인식 시스템의 성능 향상을 위한 반복학습법을 이용한 언어모델 (Language Models Using Iterative Learning Method for the Improvement of Performance of CSR System)

  • 오세진;황철준;김범국;정호열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.82-85
    • /
    • 1999
  • 본 연구에서는 연속음성인식 시스템의 성능 향상을 위하여 음성의 채록환경 및 데이터량 등을 고려한 효과적인 언어모델 작성방법을 제안하고, 이를 항공편 예약시스템에 적용하여 성능 평가 실험을 실시한 결과 $91.6\%$의 인식률을 얻어 제안한 방법의 유효성을 확인하였다. 이를 위하여 소량의 200문장의 항공편 예약 텍스트 데이터를 이용하여 좀더 강건한 단어발생 확률을 가지도록 하기 위해 일반적으로 대어휘 연속음성인식에서 많이 이용되고 있는 단어 N-gram 언어모델을 도입하고 이를 다양한 발성환경을 고려하여 1,154문장으로 확장한 후 동일 문장'을 반복 학습하여 언어모델을 작성하였다. 인식에 있어서는 오인식과 문법적 오류를 최소화하기 위하여 forward - backward pass 방법의 stack decoding알고리즘을 이용하였다. 인식실험 결과, 평가용 3인의 200문장을 각 반복학습 회수에 따라 학습한 각 언어모델에 대해 평가한 결과, forward pass의 경우 평균 $84.1\%$, backward pass의 경우 평균 $91.6\%$의 문장 인식률을 얻었다. 또한, 반복학습 회수가 증가함에 따라 backward pass의 인시률의 변화는 없었으나, forward pass의 경우, 인식률이 반복회수에 따라 증가하다가 일정값에 수렴함을 알 수 있었고, 언어모델의 복잡도에서도 반복회수가 증가함에 따라 서서히 줄어들며 수렴함을 알 수 있었다. 이상의 결과로부터 소량의 텍스트 데이터를 이용한 제한된 태스크에서 언어모델을 작성할 때 반복학습 방법이 유효함을 확인할 수 있다.

  • PDF

잡음 필터를 이용한 음성 인식 시스템의 성능향상에 관한 연구 (A Study on the Improvement of Speech Recognition System using Noise Filtering.)

  • 이양교;김학진;김순협
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.77-80
    • /
    • 2001
  • 본 논문에서는 HMM알고리즘을 이용한 중규모급, 화자독립, 연결음성시스템에서의 인식성능 향상을 위해, 단어 인식기가 가지고 있는 고려사항들 중에 잡음(Noise)에 강한 모델을 위해 동작환경에 따른 적절한 필터를 구성하고 이차적으로 특징 파라미터를 개선하여 Noise를 보상하는 방법을 적용하였다. 인식기의 성능에 큰 영향을 미치는 요인중 하나인 전처리 기능의 평가로 성능향상의 요인을 찾아 음질개선을 위한 보다나은 잡음보상 방법을 제시하고자 하였다.

  • PDF

역전파 학습 신경망을 이용한 고립 단어 인식시스템에 관한 연구

  • 김중태
    • 한국통신학회논문지
    • /
    • 제15권9호
    • /
    • pp.738-744
    • /
    • 1990
  • 본 논문은 음성신호의 실시간 저장법과 기존 표본 데이터에서 개선된 표본 데이터 방법을 제안하여, 신경회로망의 역전파 학습 알고리즘을 이용한 고립 단어 음성인식 시스템에 대하여 연구하였다. 각 층의 노드 수 변화에 의한 기존 표본 데이터방식과 새로운 표본 데이터 방식에서의 인식률과 에러율 변화를 비교하였다. 본 연구 결과, 인식률은 95.1%를 얻었다.

  • PDF

화자인식을 이용한 일정관리 시스템 개발 - 개인 전자 비서 시스템 구축을 위하여 (Development of a schedule management system using speaker recognition for PEAS)

  • 경연정
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.131-134
    • /
    • 1998
  • 본 논문에서는 전자 개인 비서 시스템(PEAS)의 일부인 일정관리 시스템을 화자인식 기술을 적용하여 구현하였다. 본 시스템은 음성을 패스워드로 개인을 확인하여 각 개인의 일정을 관리해 주는 것으로 보안성과 함께 사용자에게 편의성을 제공한다. 사용자 등록을 자유롭게 하였으며 인식에서는 계산 시간 등을 고려하여 DTW 알고리즘에서 얻을 수 있는 경로정보를 이용해 하나의 참조패턴을 구성하도록 하였다. 또한 시간 흐름에 따라 인식율 저하를 방지하기 위해 실험결과에 따라 일정기간 뒤에 자동으로 참조패턴이 갱신되도록 하였다.

  • PDF

HMM 기반의 오프라인 필기 모델 (Off-line Character Modeling using HMM)

  • 신봉기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.337-340
    • /
    • 2000
  • 음성 인식 및 온라인 필기 인식기 모델로 널리 알려진 은닉 마르코프 모델(HMM)을 오프라인에 적용하려는 시도는 있었지만 아직까지 만족할 만한 성과는 찾아보기 어렵고 인식률도 신경망 등 다른 방법에 의한 시스템에 미치지 못하는 실정이다. 본 연구에서는 온라인 필기 모델 HMM을 오프라인 필기인식에 활용하는 방법 한 가지와 순수하게 오프라인 필기 모델로서 제안된 2D HMM을 기술한다. 두 방법 모두 기존의 HMM 모델링 틀에 기초를 두고 개발하였으며 다양한 국소 변형을 해석하기 위해 동적 계획법에 기반한 알고리즘을 응용하였다. 본 논문에서는 두 가지 독립적인 아이디어 제안에 의의를 두었으며 주요 아이디어만을 간략하게 기술하였다.

  • PDF

잡음 추정 알고리즘을 이용한 신뢰성 있는 코드벡터 조합의 선정 방법 (A Selection Method of Reliable Codevectors using Noise Estimation Algorithm)

  • 정승모;김무영
    • 전자공학회논문지
    • /
    • 제52권7호
    • /
    • pp.119-124
    • /
    • 2015
  • 배경잡음에 강인한 음성인식을 위한 전처리기로써 음성향상 기법이 요구되고 있다. 코드북 기반의 음성향상 기법은 기존 잡음 추정 알고리즘들과 비교하여 nonstationary 배경잡음 환경에 강인하다는 장점이 있다. 하지만 코드북 정보에 의존적이기 때문에 입력신호와 상관성이 떨어지는 코드벡터의 조합을 사용할 경우 성능이 급격히 떨어진다는 단점이 있다. 본 논문에서는 학습된 음성과 잡음 코드벡터를 조합하는 과정에서 입력신호와 상관성이 떨어지는 코드벡터의 조합을 제거함으로써, Log-Spectral Distortion (LSD)과 Perceptual Evaluation of Speech Quality (PESQ) 관점에서 기존 코드북 기반 알고리즘의 성능을 향상시켰다.

웨이블렛 필터뱅크에 기반을 둔 강인한 화자식별 기법 (A Robust Speaker Identification Method Based on the Wavelet Filter Banks)

  • 이대종;곽근창;유정웅;전명근
    • 정보처리학회논문지C
    • /
    • 제9C권4호
    • /
    • pp.459-466
    • /
    • 2002
  • 본 논문에서는 웨이블렛 서브밴드 필터링기법을 이용하여 다중의사 결정기법에 기반을 둔 잡음에 강인한 화자식별 알고리즘을 제안한다. 제안된 방법은 잡음이 첨가된 음성신호를 웨이블렛 서브밴드 필터뱅크를 이용하여 각 주파수 대역별로 신호를 분리한 후 개별적인 대역별로 인식 알고리즘을 수행하기 때문에 어떤 서브밴드에서의 노이즈 영향이 상대적으로 적으므로 대역제약된 형태로 주어지는 일반적인 주변잡음이 있는 환경하에서 우수한 성능을 보일 수 있도록 시스템을 구성하였다. 제안된 알고리즘은 화자인식 기법으로 널리 쓰이고 있는 벡터양자화 알고리즘만을 적용한 경우에 비해 15∼60%의 향상된 인식률을 보였다.