• 제목/요약/키워드: 인식률 향상

검색결과 906건 처리시간 0.026초

실시간 화자독립 음성인식을 위한 고속 확률계산 (Fast computation of Observation Probability for Speaker-Independent Real-Time Speech Recognition)

  • 박동철;안주원
    • 한국통신학회논문지
    • /
    • 제30권9C호
    • /
    • pp.907-912
    • /
    • 2005
  • H/W에 구현되는 음성인식 시스템에서 인식속도의 향상을 위한 새로운 알고리즘이 본 논문에서 제안되었다. 제안된 고속 관측확률 계산(Fast Computation of Observation Probability : FCOP) 알고리즘은 관측확률식을 근사화시키는 방법으로, CDHMM에서 상태(state)로 주어지는 확률분포함수들 중에서 일부를 효과적으로 제거하여 계산량을 최소화시키는 방법이다. 실제 H/W 환경의 음성인식에 응용한 실험 결과, 기존의 방법에 비해 인식률의 저하를 최소로 유지하며, 명령어 사이클을 $20\%\~32\%$ 감소시킬 수 있었으며, 인식속도를 약 $30\%$향상시킬 수 있었다. 제안된 알고리즘을 제한된 자원을 가지는 실제의 휴대폰에 탑재하여. 인식속도 및 인식률을 측정한 결과 인식률의 저하를 $0.2\%$ 이하로 유지하면서, 인식속도를 $30\%$ 이상 증가시킬 수 있었다.

BLSTM 구조의 계층적 순환 신경망을 이용한 모바일 제스처인식 (Mobile Gesture Recognition using Hierarchical Recurrent Neural Network with Bidirectional Long Short-Term Memory)

  • 이명춘;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.321-323
    • /
    • 2012
  • 스마트폰 사용의 보편화와 센서기술의 발달로 이를 응용하는 다양한 연구가 진행되고 있다. 특히 가속도, GPS, 조도, 방향센서 등의 센서들이 스마트폰에 부착되어 출시되고 있어서, 이를 이용한 상황인지, 행동인식 등의 관련 연구들이 활발하다. 하지만 다양한 클래스를 분류하면서 높은 인식률을 유지하는 것은 어려운 문제이다. 본 논문에서는 인식률 향상을 위해 계층적 구조의 순환 신경망을 이용하여 제스처를 인식한다. 스마트폰의 가속도 센서를 이용하여 사용자의 제스처 데이터를 수집하고 BLSTM(Bidirectional Long Short-Term Memory) 구조의 순환신경망을 계층적으로 사용하여, 20가지 사용자의 제스처와 비제스처를 분류한다. 약 24,850개의 시퀀스 데이터를 사용하여 실험한 결과, 기존 BLSTM은 평균 89.17%의 인식률을 기록한 반면 계층적 BLSTM은 평균 91.11%의 인식률을 나타내었다.

홍채와 음성을 이용한 고도의 개인확인시스템 (Development of Advanced Personal Identification System Using Iris Image and Speech Signal)

  • 이대종;고현주;곽근창;전명근
    • 한국지능시스템학회논문지
    • /
    • 제13권3호
    • /
    • pp.348-354
    • /
    • 2003
  • 본 논문에서는 홍채인식과 화자식별 방법을 결합한 고도의 개인확인 시스템을 제안한다. 제안된 방법은 홍채인식과 화자식별의 장점만을 부각시켜 최종적으로 결정법칙에 의해 화자를 인식하는 구조로 되어 있으며, 특히 음성에 노이즈가 첨가된 환경하에서도 우수한 성능을 보일 수 있도록 시스템을 구성하였다. 제안된 알고리즘의 성능을 검증하기 위하여 실험한 결과, 보안의 정도가 높은 상급(High)에 해당하는 인식률은 홍채만을 이용한 경우보다 56.7%, 음성을 이용한 화자식별 방법만을 사용한 경우보다 10% 정도 인식률이 향상되었다. 또한 음성에 노이즈를 첨가한 경우에도 보안의 정도가 높은 상급(High)에 해당하는 인식률은 홍채만 이용한 경우보다 인식률이 30%, 노이즈가 첨가된 음성만 이용한 경우보다 60% 정도 향상된 인식률을 보였다.

고속 필기 한글 주소 인식을 위한 낱자 인식 (Character Recognition for Fast Handwritten Korean Address Reading)

  • 정선화;임길택;송재관;남윤석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.589-592
    • /
    • 2001
  • 본 논문에서는 고속 필기 한글 주소 인식을 위한 낱자 인식기를 제안한다. 인식 대상은 우편번호 여섯 자리에 할당된 주소에 출현 빈도가 높은 필기 한글 469 자이다. 제안된 방법은 낱자 인식 기법을 채택하고 있으며, 인식률과 처리속도를 향상시키기 위하여 2 단계 인식 전략을 채택하였다. 인식기로는 다층퍼셉트론, 최소거리분류기, Subspace 방법을 고려한다. 다층퍼셉트론은 비교적 높은 인식률과 처리속도를 보유하지만 출력값이 확률이 아님으로써 후처리를 필요로 하는 시스템에서 사용하기 어렵다. 최소거리분류기는 간단한 알고리즘으로 처리속도가 높고 확률을 출력하는 장점을 갖지만 인식률이 낮아 활용되기 어렵다. 또한 Subspace 방법은 인식률이 높고 확률을 출력하지만 처리속도가 매우 느리다는 단점이 있다. 따라서 제안방법에서는 처리속도가 높은 인식기 - 다층퍼셉트론, 최소거리분류기 - 를 사용하여 선인식을 수행한 후, 이 결과를 활용하여 인식 대상을 제한한 후 Subspace 방법을 사용하여 정확하게 인식하는 전략을 도입함으로써, 높은 인식결과를 유지하면서 처리속도를 높이고 후처리에 적합하도록 하였다. PE92 데이터베이스를 사용하여 실험한 결과 제안방법이 한글 469 자에 대하여 비교적 높은 인식률과 처리속도를 갖음을 알 수 있었다.

  • PDF

로그폴라 사상과 어파인 변환을 이용한 새로운 템플릿 기반 얼굴 인식 (New Template Based Face Recognition Using Log-polar Mapping and Affine Transformation)

  • 김문갑;최일;진성일
    • 대한전자공학회논문지SP
    • /
    • 제39권2호
    • /
    • pp.1-10
    • /
    • 2002
  • 이 논문에서는 크기와 영상 평면상에서 회전 (in-plane rotation) 변화를 가지는 정면 얼굴 영상의 인식성능을 향상시키기 위하여, 새로운 템플릿 (template) 기반 접근 방법들을 제안한다. 인식 성능을 향상시키기 위한 템플릿들은 크기와 회전 변화가 다른 다수의 영상들을 선형 또는 비선형 연산에 의하여 생성된다. 얼굴의 크기와 영상 평면에서 회전 변화에 무관한 얼굴의 특징을 추출하기 위하여 어파인 (affine) 변환, 로그폴라 (log-polar) 사상, 그리고 로그폴라 영상에 기반한 FFT들이 이용된다. 제안된 방법들은 인식률과 수행 시간 측면에서 비교된다. 실험 결과로부터 제안된 템플릿을 이용한 방법들의 인식률이 한 장의 영상으로 생성된 템플릿을 이용한 방법들의 인식률보다 우수함을 나타낸다. 어파인 변환을 이용한 방법의 인식률이 로그폴라 사상을 이용한 방법과 로그폴라 영상에 기반한 FFT 방법의 인식률보다 우수하며, 수행 시간 측면에서는 로그폴라 사상을 이용한 방법이 가장 빠르다.

패턴인식에서 온라인 오류역전파 알고리즘의 학습속도 향상방법 (An Improvement of the Outline Mede Error Backpropagation Algorithm Learning Speed for Pattern Recognition)

  • 이태승;황병원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.616-618
    • /
    • 2002
  • MLP(multilayer perceptron)는 다른 패턴인식 방법에 비해 몇 가지 이점이 있어 다양한 문제영역에서 사용되고 있다 그러나 MLP의 학습에 일반적으로 사용되는 EBP(error backpropagation) 알고리즘은 학습시간이 비교적 오래 걸린다는 단점이 있으며, 이는 실시간 처리를 요구하는 문제나 대규모 데이터 및 MLP 구조로 인해 학습시간이 상당히 긴 문제에서 제약으로 작용한다. 패턴인식에 사용되는 학습데이터는 풍부한 중복특성을 내포하고 있으므로 패턴마다 MLP의 내부변수를 갱신하는 은라인 계열의 학습방식이 속도의 향상에 상당한 효과가 있다. 일반적인 온라인 EBP 알고리즘에서는 내부 가중치 갱신시 고정된 학습률을 적용한다. 고정 학습률을 적절히 선택함으로써 패턴인식 응용에서 상당한 속도개선을 얻을 수 있지만, 학습률을 고정함으로써 온라인 방식에서 패턴별 갱신의 특성을 완전히 활용하지 못하는 비효율성이 발생한다. 또한, 학습도중 패턴군이 학습된 패턴과 그렇지 못한 패턴으로 나뉘고 이 가운데 학습된 패턴은 학습을 위한 계산에 포함될 필요가 없음에도 불구하고, 기존의 온라인 EBP에서는 에폭에 할당된 모든 패턴을 일률적으로 계산에 포함시킨다. 이 문제에 대해 본 논문에서는 학습이 진행됨에 따라 패턴마다 적절한 학습률을 적용하고 필요한 패턴만을 학습에 반영하는 패턴별 가변학습률 및 학습생략(COIL) 방댑을 제안한다. 제안한 COIL의 성능을 입증하기 위해 화자증명과 음성인식을 실험하고 그 결과를 제시한다.

  • PDF

바타챠랴 거리 측정법을 이용한 음소 유사율 오류 보정 개선 시스템 (Phoneme Similarity Error Correction System using Bhattacharyya Distance Measurement Method)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권6호
    • /
    • pp.73-80
    • /
    • 2010
  • 어휘 인식 시스템은 부정확한 어휘 제공과 유사한 음소 인식으로 인식률이 저하되며 이는 유사한 음소인식 오인식과 효율적 특징 추출 처리를 위한 방법을 필요로 한다. 따라서 본 논문에서는 음소가 갖는 특징을 기반으로 바타챠랴 거리 측정법을 이용한 음소 유사율 오류 보정 개선 시스템을 제안하였다. 음소 유사율은 모노폰으로 훈련시킨 훈련 데이터의 음소에 HMM 특징 추출 방법을 이용하였으며 유사한 음소는 바타챠랴 거리 측정법을 이용하여 정확한 음소로 인식할 수 있도록 유도하여 인식률 향상 효과를 얻을 수 있었다. 이를 유클리디안 거리 측정법과 동적타임 워핑 시스템에 비교한 시스템 성능 평가 결과 1.2%의 향상된 97.91% 인식률을 보였다.

네트워크 드론의 영상 처리를 통한 사람 인식 시스템 제안 (Proposal of Network Drones Image Processing for Human Recognition System)

  • 김자영;이주현;정진웅;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.645-647
    • /
    • 2018
  • 최근 IoT의 기술의 발달로 사용자 인식에 관한 연구가 주목을 받고 있다. 사용자 인식은 각 사용자만의 특징에 근거하여 특정 사용자를 인식하는 기술이다. 사용자 인식과 관련하여 홍채나 지문인식 등과 같은 생체 인식, 얼굴 인식 그리고 걸음걸이 인식 등에 관한 연구들이 진행되고 있다. 다양한 방식은 각각의 인식률을 높이기 위해 노력하고 있지만, 인식하고자 하는 사용자의 상황에 따라 인식률에 영향을 받게 된다. 본 연구에서는 다양한 방식을 여러 단계로 구성하여 다양한 상황에 놓인 사용자를 인식하기 위한 방법을 연구한다. 제안 시스템은 드론에서 촬영된 영상을 수신하는 것을 기반으로 하여 얼굴인식과 걸음걸이 인식을 이용한 방식이다. 1차적으로 사람의 얼굴을 탐지를 하고, 사람의 얼굴이 탐지되었을 때는 얼굴 인식을 수행한다. 탐지하지 못했을 경우 걸음걸이 인식을 수행하여 인식률을 향상시킨다.

음향학적 및 언어적 탐색을 이용한 어휘 인식 최적화 (The Vocabulary Recognition Optimize using Acoustic and Lexical Search)

  • 안찬식;오상엽
    • 한국멀티미디어학회논문지
    • /
    • 제13권4호
    • /
    • pp.496-503
    • /
    • 2010
  • 어휘인식 시스템은 스탠드 얼론(Standalone)으로 개발되어 지고 있으며 휴대용 단말기에서 사용하였을 경우 메모리 공간의 제약과 오디오 압축으로 인해 인식률이 낮게 나타난다. 본 연구에서는 휴대용 단말기의 성능과 인식률 향상을 위하여 음향학적 탐색과 언어적 탐색을 분리하여 어휘 인식 속도를 개선한 시스템을 제안하였다. 음향학적 탐색은 휴대용 단말기에서 수행하고 보다 복잡한 언어적 탐색은 서버에서 처리하는 시스템으로 음성신호로부터 특징벡터를 추출하여 GMM을 이용한 음소인식을 수행하고, 인식된 음소 열을 서버로 전송하여 렉시컬 트리 탐색 알고리즘을 사용하여 언어적 탐색 단계에서 어휘 인식을 수행하였다. 시스템 성능 평가 결과 어휘 종속 인식률은 98.01%, 어휘 독립 인식률은 97.71%의 인식률을 나타냈으며 인식속도는 1.58초로 나타내었다.

기저막 특성을 이용한 새로운 음성 특징 추출 및 성능 분석 (Performance of analysis and extraction of speech feature using characteristics of basilar membrane)

  • 이철희;신유식;정성환;김종교
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.153-156
    • /
    • 2000
  • 본 논문에서는 음성 인식률 향상을 위한 여러 가지방법들 중에서 음성특징 파라미터 추출 방법에 관한 한가지 방법을 제시하였다. 본 논문에서는 청각 특성을 기반으로 한 MFCC(met frequency cepstrum coef-ficients)와 성능 향상을 위한 방법으로 GFCC (gamma-tone filter frequency cepstrum coefficients)를 제시하고 음성 인식을 수행하여 성능을 분석하였다. MFCC에서 일반적으로 사용하는 임계 대역 필터로 삼각 필터(triangular filter) 대신 청각 구조의 기저막(basilar membrane)특성을 묘사한 gammatone 대역 통과 필터를 이용하여 특징 파라미터를 추출하였다. DTW 알고리즘으로 인식률을 분석한 결과 삼각 대역 필터를 이용한 것보다 gammatone 대역 통과 필터를 이용한 추출법이 약 2∼3%의 성능 향상을 보였다.

  • PDF