• Title/Summary/Keyword: 분산음성인식

Search Result 56, Processing Time 0.023 seconds

다채널 마이크 환경에서 Naive Bayesian Network의 Decision에 의한 음성인식 성능향상 (Performance Improvement in Distant-Talking Speech Recognition by an Integration of N-best results using Naive Bayesian Network)

  • 지미경;김희린
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.151-154
    • /
    • 2005
  • 원거리 음성인식에서 인식률의 성능향상을 위해 필수적인 다채널 마이크 환경에서 방 안의 도처에 분산되어있는 원거리 마이크를 사용하여 TV, 조명 등의 주변 환경을 음성으로 제어하고자 한다. 이를 위해 각 채널의 인식결과를 통합하여 최적의 결과를 얻고자 채널의N-best 결과와 N-best 결과에 포함된 hypothesis의 frame-normalized likelihood 값을 사용하여 Bayesian network을 훈련하고 인식결과를 통합하여 최선의 결과를 decision 하는데 사용함으로써 원거리 음성인식의 성능을 향상시키고 또한 hands-free 응용을 현실화하기위한 방향을 제시한다.

  • PDF

분산 신경망을 이용한 고립 단어 음성에 나타난 음소 인식 (Recognition of Korean Phonemes in the Spoken Isolated Words Using Distributed Neural Network)

  • 김선일;이행세
    • 한국음향학회지
    • /
    • 제14권6호
    • /
    • pp.54-61
    • /
    • 1995
  • 본 논문에서는 총 106개의 단어로 구성되는 30개의 한국어 속담 문장에 대해 프레임 단위로 인식하는 분산 신경망을 구현하였다. 음성에 대한 특징값으로는 PLP 켐스트럼과 에너지 및 영교차율을 사용하였으며 분산 신경망의 입력으로 사용되는 이 특징값들이 음성의 시간적 특성을 잘 반영할 수 있도록 한 프레임 주변의 넓은 영역에 걸쳐 데이타를 수집하였다. 20대 젊은 남자가 30개의 속담을 5번씩 발음하였다. 신경망 학습에 네집단을 사용하고 학습에 참여하지 않은 나머지 한집단은 인식용으로 사용하였다. 속담내의 단어와 단어 사이는 구별이 잘 되도록 묵음 구간을 두어 발음하였다. 인식 결과음소를 판 군별로 분류하는 대분류 신경망에서의 각 군의 프레임 인식율은 네 집단을 학습에 사용한 경우 $95.3\%$를 나타내었다.

  • PDF

딥러닝 분산처리 기술동향 (Trends on Distributed Frameworks for Deep Learning)

  • 안신영;박유미;임은지;최완
    • 전자통신동향분석
    • /
    • 제31권3호
    • /
    • pp.131-141
    • /
    • 2016
  • 최근 알파고를 통해 인공지능 기술이 전 세계인의 이목을 집중시켰던 반면, 인공지능 연구자들은 인공지능 부활에 결정적 역할을 한 딥러닝 기술에 주목하고 있다. 딥러닝은 다계층 인공신경망 기반의 기계학습 기술로서 최근 컴퓨터 비전, 음성인식, 자연어 처리 분야에서 인식 성능을 높이는 데 중요한 역할을 하고 있다. 딥러닝 기술을 이용하여 기계가 수천만장의 이미지를 학습하여 객체를 인식하게 하고, 수천 시간의 음성 데이터를 학습하여 사람의 말을 알아듣게 처리하는 데에는 다수의 고성능 컴퓨터가 필요하다. 따라서 딥러닝에는 다수의 컴퓨터를 효율적으로 이용하기 위한 분산처리 기술이 필수적이며 관련 연구들이 활발히 진행되고 있다. 이에 본고는 다중 컴퓨터 노드들에서 딥러닝 모델을 분산처리할 수 있는 기존의 프레임워크들을 비교 분석하고 딥러닝 분산처리 기술에 대한 발전 방향을 전망한다.

  • PDF

심층신경망 기반의 음성인식을 위한 절충된 특징 정규화 방식 (Compromised feature normalization method for deep neural network based speech recognition)

  • 김민식;김형순
    • 말소리와 음성과학
    • /
    • 제12권3호
    • /
    • pp.65-71
    • /
    • 2020
  • 특징 정규화는 음성 특징 파라미터들의 통계적인 특성의 정규화를 통해 훈련 및 테스트 조건 사이의 환경 불일치의 영향을 감소시키는 방법으로서 기존의 Gaussian mixture model-hidden Markov model(GMM-HMM) 기반의 음성인식 시스템에서 우수한 성능개선을 입증한 바 있다. 하지만 심층신경망(deep neural network, DNN) 기반의 음성인식 시스템에서는 환경 불일치의 영향을 최소화 하는 것이 반드시 최고의 성능 개선으로 연결되지는 않는다. 본 논문에서는 이러한 현상의 원인을 과도한 특징 정규화로 인한 정보손실 때문이라 보고, 음향모델을 훈련 하는데 유용한 정보는 보존하면서 환경 불일치의 영향은 적절히 감소시켜 음성인식 성능을 최대화 하는 특징 정규화 방식이 있는 지 검토해보고자 한다. 이를 위해 평균 정규화(mean normalization, MN)와 평균 및 분산 정규화(mean and variance normalization, MVN)의 절충 방식인 평균 및 지수적 분산 정규화(mean and exponentiated variance normalization, MEVN)를 도입하여, 잡음 및 잔향 환경에서 분산에 대한 정규화의 정도에 따른 DNN 기반의 음성인식 시스템의 성능을 비교한다. 실험 결과, 성능 개선의 폭이 크지는 않으나 분산 정규화의 정도에 따라 MEVN이 MN과 MVN보다 성능이 우수함을 보여준다.

상태레벨 공유를 이용한 HM-Net 적응화 시스템의 성능평가에 관한 연구 (A Study on Performance Evaluation of HM-Net Adaptation System Using the State Level Sharing)

  • 오세진;김광동;노덕규;황철준;김범국;김광수;성우창;정현열
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 신호처리소사이어티 추계학술대회 논문집
    • /
    • pp.397-400
    • /
    • 2003
  • 본 연구에서는 KM-Net(Hidden Markov Network)을 다양한 태스크에의 적용과 화자의 특성을 효과적으로 나타내기 위해 HM-Net 음성인식 시스템에 MLLR(Maximum Likelihood Linear Regression) 적응방법을 도입하였으며, HM-Net 학습 알고리즘을 개량하여 회귀클래스 생성방법을 제안한다. 제안방법은 PDT-SSS(Phonetic Decision Tree-based Successive State Splitting) 알고리즘의 문맥방향 상태분할에 의한 상태레벨 공유를 이용한 방법으로 새로운 화자로부터 문맥정보와 적응화 데이터의 발성 양에 의존하여 결정된 많은 적응 파라미터들을(평균, 분산) 자유롭게 제어할 수 있게 된다. 제안방법의 유효성을 확인하기 위해 국어공학센터(KLE) 452 음성 데이터와 항공편 예약관련 연속음성을 대상으로 인식실험을 수행한 결과, 전체적으로 음소인식의 경우 평균 34-37%, 단어인식의 경우 평균 9%, 연속음성인식의 경우 평균 7-8%의 인식성능 향상을 각각 보였다. 또한 적응화 데이터의 양에 따른 인식성능 비교에서, 제안방법을 적용한 인식 시스템이 적응 데이터의 양이 적은 경우에도 향상된 인식률을 보였으며. 잡음을 부가한 음성에 대한 적응화 실험에서도 향상된 인식성능을 보여 MLLR 적응방법의 특성을 만족하였다. 따라서 MLLR 적응방법을 도입한 HM-Net 음성인식 시스템에 제안한 회귀클래스 생성방법이 유효함을 확인한 수 있었다.

  • PDF

모바일 명함 검색을 위한 음성인식시스템 구현 (A Development of Speech Recognition System for Mobile Card Search)

  • 홍인숙;고유정;김윤중
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.138-141
    • /
    • 2009
  • 모바일 명함 관리 시스템은 간편하게 모바일 기기를 이용하여 명함을 등록하고 검색할 수 있으나 모바일 기기의 특징상 화면이 작고 정보를 이용하기 위해서는 펜을 이용하여 검색어를 입력해야하는 불편함이 있다. 이를 해결하기 위해 명령을 음성으로 처리하고자하는 VUI(Voice User Interface)의 필요성이 증가하였다. 또한 모바일 기기의 메모리 공간상의 제약으로 인한 음성인식엔진 탑재의 어려움이 있다. 이에 본 논문에서는 모바일 단말기로부터 음성을 입력받아 인식결과를 모바일 단말기로 되돌려 주는 음성인식 시스템을 구축하고 본 인식시스템과 모바일 클라이언트 시스템을 분산처리 가능한 웹서비스 환경으로 구성하였다.

연속분포 HMM을 이용한 한국어 연속 음성 인식 시스템 개발 (On the Development of a Continuous Speech Recognition System using Continuous Hidden Markov Model for Korean Language)

  • 김도영;박용규;권오욱;은종관
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.101-110
    • /
    • 1993
  • 본 논문에서는 연속분포 hidden Markov 모델을 이용한 화자독립 연속 음성 인식 시스템에 관해 기술한다. 연속분포 모델은 평균과 분산 벡터로 구성되며 음성신호를 직접 모델링하여 양자화 왜곡이 없어진다. 특징벡터는 filter bank 계수 및 그 1, 2차 미분계수를 사용하여 음성신호의 동적 특성을 반영하였다. Segmental K-means 알고리즘을 이용하여 학습하였으며, 연속어 인식에서 가장 문제가 되는 조음화 현상으로 인한 인식률 저하를 막기 위해 앞뒤의 음소를 고려해 주는 triphone을 인식단위로 사용하였다. Search 알고리즘으로는 시간 면에서 효율이 좋은 one-pass search 알고리즘을 사용하였다. 성능 평가를 위한 화자 독립 인식 실험에서 문법이 없을 경우 83%, finite state network율 적용한 경우에는 94%의 인식률을 나타내었다.

  • PDF

분절 특징 HMM의 매개 변수 수의 감소에 관한 연구 (Reduction of Number of Free Parameters in Segmental-feature HMM)

  • 윤영선;오영환
    • 한국음향학회지
    • /
    • 제19권7호
    • /
    • pp.48-52
    • /
    • 2000
  • 음성 인식에 많이 사용되는 HMM (hidden Markov model)을 개선하기 위하여 분절 특징을 사용한 분절 특징 HMM은 성능이 우수하다고 발표되었다. 그러나, 분절 길이가 증가하고 회귀 차수가 놓아질수록 분절 특징 HMM을 표현하는 매개 변수의 수도 같이 증가된다. 따라서, 본 연구에서는 상태에서 관측 가능한 분절의 분산을 분절 내의 모든 프레임에 대하여 공통적으로 표현하는 고정 분산 방법을 통하여 성능의 저하 없이 매개 변수의 수를 줄이도록 시도하였다. 실험 결과, 두 혼합 밀도인 경우 고정 분산을 이용한 분절 특징 HMM의 성능과 시변 분산을 이용한 성능의 차이가 거의 없어, 제안된 방법의 유효성을 입증하였다.

  • PDF

언어모델 군집화와 동적 언어모델 보간을 통한 음성인식 성능 향상 (LM Clustering based Dynamic LM Interpolation for ASR N-best Rescoring)

  • 정의석;전형배;정호영;박전규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.240-245
    • /
    • 2015
  • 일반영역 음성인식은 n-gram 희소성 문제로 인해 대용량의 언어모델이 필요하다. 대용량 언어모델은 분산형 모델로 구현될 수 있고, 사용자 입력에 대한 동적 언어모델 보간 기술을 통해 음성인식 성능을 개선할 수 있다. 본 논문은 동적 언어모델 보간 기술에 대한 새로운 접근방법을 시도한다. 텍스트 군집화를 통해 주제별 언어모델을 생성한다. 여기서 주제는 사용자 입력 영역에 대응한다. 본 논문은 사용자 입력에 대하여 실시간으로 주제별 언어모델의 보간 가중치 값을 계산하는 접근 방법을 제시한다. 또한 언어모델의 보간 가중치 값 계산의 부담을 감소하기 위해 언어모델 군집화를 통해 대용량 언어모델 보간 접근 방법의 연산 부담을 해소하기 위한 시도를 한다. 주제별 언어모델에 기반하고 언어모델 군집화를 통한 동적 언어모델 보간 기술의 실험 결과 음성인식 오류 감소율 6.89%를 달성했다. 또한 언어모델 군집화 기술은 음성인식 정확도를 0.09% 저하시켰을 때 실행 시간을 17.6% 개선시키는 실험결과를 보였다.

  • PDF

모바일 하이네임을 위한 음성인식 웹 서비스 환경 구축 (A Development of Speech Recognition Web Services Environment for Mobile Hi-Name)

  • 고유정;홍인숙;김윤중;송은숙
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.161-163
    • /
    • 2008
  • 한국인식기술에서는 명함정보를 원격에서 관리하는 모바일 하이네임(Hi-Name)을 출시하였다. 하지만 모바일 기기에서는 명함 정보를 이용하기 위해 작은 화면에 검색어를 펜으로 입력해야 하는 불편함과 공간상의 제약성으로 음성인식엔진의 탑재가 어려우므로 분산인식환경이 필요하다. 따라서 본 연구에서는 모바일 환경에서 음성인식기술을 이용하여 명함정보를 이용할 수 있는 하이네임의 웹 서비스 환경을 구축하였다.