통합 검색 | Korea Science

Intra-and Inter-frame Features for Automatic Speech Recognition

Lee, Sung Joo;Kang, Byung Ok;Chung, Hoon;Lee, Yunkeun
- ETRI Journal
- /
- 제36권3호
- /
- pp.514-517
- /
- 2014
In this paper, alternative dynamic features for speech recognition are proposed. The goal of this work is to improve speech recognition accuracy by deriving the representation of distinctive dynamic characteristics from a speech spectrum. This work was inspired by two temporal dynamics of a speech signal. One is the highly non-stationary nature of speech, and the other is the inter-frame change of a speech spectrum. We adopt the use of a sub-frame spectrum analyzer to capture very rapid spectral changes within a speech analysis frame. In addition, we attempt to measure spectral fluctuations of a more complex manner as opposed to traditional dynamic features such as delta or double-delta. To evaluate the proposed features, speech recognition tests over smartphone environments were conducted. The experimental results show that the feature streams simply combined with the proposed features are effective for an improvement in the recognition accuracy of a hidden Markov model-based speech recognizer.
https://doi.org/10.4218/etrij.14.0213.0181 인용 PDF KSCI KPUBS

내장형 음성인식기를 위한 전용 하드웨어가속기 기술개발 동향 (Trends of Hardware Accelerator for the Embedded Speech Recognition)

김주엽;김태중;이주현;엄낙웅
- 전자통신동향분석
- /
- 제29권4호
- /
- pp.91-100
- /
- 2014
사람의 말소리를 문자로 변환하여 기기의 제어명령으로 활용하는 것이 음성인식 기술이다. 음성인식에 대한 기술개발 요구는 수십 년 전부터 있어 왔고, 꾸준히 제품화되고 있는 분야라 하겠다. 제품으로의 상용화가 가능한 알고리즘 및 데이터 처리체계는 HMM(Hidden Markov Model)이라는 수학적 모델링으로 정형화되어 있으며, 대규모의 반복적 데이터 수집과 정교한 학습 데이터베이스의 구축이 음성인식기술의 핵심요소라는 것이 일반적인 시각이다. 이러한 이유로 인해, 대용량 음성인식 데이터베이스의 수집, 가공 등이 가능한 인프라를 갖춘 기관 및 업체들이 음성인식기술 시장을 점유할 수 있는 것이다. 그러나, 이러한 음성인식의 서비스 제공 체계는 사물인터넷 또는 웨어러블 디바이스 등으로 음성인식 사용자 인터페이스가 확대되고 통신 및 네트워크가 연결이 불가한 경우 그 한계를 보일 수 있다. 본고에서는 이러한 문제를 해결하기 위한 내장형 음성인식기의 하드웨어가속기 기술개발에 대한 내용과 국내외 현황을 살펴보기로 한다.
PDF

Implementation and Evaluation of an HMM-Based Speech Synthesis System for the Tagalog Language

;김경태;김종진
- 대한음성학회지:말소리
- /
- 제68권
- /
- pp.49-63
- /
- 2008
This paper describes the development and assessment of a hidden Markov model (HMM) based Tagalog speech synthesis system, where Tagalog is the most widely spoken indigenous language of the Philippines. Several aspects of the design process are discussed here. In order to build the synthesizer a speech database is recorded and phonetically segmented. The constructed speech corpus contains approximately 89 minutes of Tagalog speech organized in 596 spoken utterances. Furthermore, contextual information is determined. The quality of the synthesized speech is assessed by subjective tests employing 25 native Tagalog speakers as respondents. Experimental results show that the new system is able to obtain a 3.29 MOS which indicates that the developed system is able to produce highly intelligible neutral Tagalog speech with stable quality even when a small amount of speech data is used for HMM training.
PDF

유전자 알고리듬을 이용한 CDHMM의 최적화 (An Optimization method of CDHMM using Genetic Algorithms)

백창흠
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
- /
- pp.71-74
- /
- 1998
HMM (hidden Markov model)을 이용한 음성인식은 현재 가장 널리 쓰여지고 있는 방법으로, 이 중 CDHMM (continuous observation density HMM)은 상태에서 관측심볼확률을 연속확률밀도를 사용하여 표현한다. 본 논문에서는 가우스 혼합밀도함수를 사용하는 CDHMM의 상태천이확률과, 관측심볼확률을 표현하기 위한 인자인 평균벡터, 공분산 행렬, 가지하중값을 유전자 알고리듬을 사용하여 최적화하는 방법을 제안하였다. 유전자 알고리듬은 매개변수 최적화문제에 대하여 자연의 진화원리를 모방한 알고리듬으로, 염색체 형태로 표현된 개체군 (population) 중에서 환경에 대한 적합도 (fitness)가 높은 개체가 높은 확률로 살아남아 재생 (reproduction)하게 되며, 교배 (crossover)와 돌연변이 (mutation) 연산 후에 다음 세대 개체군을 형성하게 되고, 이러한 과정을 반복하면서 최적의 개체를 구하게 된다. 본 논문에서는 상태천이확률, 평균벡터, 공분산행렬, 가지하중값을 부동소수점수 (floating point number)의 유전자형으로 표현하여 유전자 알고리듬을 수행하였다. 유전자 알고리듬은 복잡한 탐색공간에서 최적의 해를 찾는데 효과적으로 적용되었다.
PDF

휴대 멀티미디어 단말용 음성인식 시스템 개발 (Development of Continuous Speech Recognition System for Multimedia Mobile Terminal Applications)

김승희
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
- /
- pp.59-62
- /
- 1998
본 논문에서는 한국전자통신연구원의 Handy Combi 응용 도메인을 대상으로 한 화자독립 연속음성인식 시스템 개발에 관하여 기술한다. 불특정화자가 자연스럽게 발음한 연속음성을 인식하는 기술은 펜인식 등과 더불어 멀티모달 인터페이스의 핵심 요소로서, 이동 환경에서 사용자의 다양한 요구사항을 처리하는 지능형 에이전트에 구현을 위해 필수적으로 개발되어야 하는 기술이다. 본 논문에서는 연속확률분포를 가지는 Hidden Markov Model(HMM) 기반의 연속음성인식 시스템을 구현하였다. 개발된 시스템은 음성특징벡터로 MFCC를 사용하였으며, 음소 모델의 강인한 훈련을 위해 음성학적 지식에 기반을 둔 tree-based clustering 방식을 도입하였다. 인식단계에서는 인식속도를 개선시키기 위해 beam-search 기법을 적용하였다. 인식 실험 결과, 99.7%의 어절 인식률과 98.8%의 문장 인식률을 얻었으며, 최종적인 문장의 이해도는 99% 이상이었다.
PDF

Duration HMM을 이용한 진핵생물 유전자 구조 예측 (Eukaryotic Gene Structure Prediction Using Duration HMM)

Tae, Hong-Seok;Park, Kie-Jung
- 한국생물정보학회:학술대회논문집
- /
- 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
- /
- pp.200-209
- /
- 2003
주어진 염기서열에서 유전자 영역을 예측하는 유전자 구조 예측은 유전체 프로젝트의 중요한 과정 중 하나이며 유전체 프로젝트 전체에 큰 영향을 준다. 진핵생물의 유전체가 원핵생물의 유전체에 비해 더 복잡한 구조를 가지기 때문에 진핵생물의 유전자 구조 예측 모델 역시원핵생물에 비해 다양한 모델이 제안되었다. 본 연구팀은 duration hidden markov model을 기본형태로 하여 EGSP(Eukaryotic Gene Structure Prediction)프로그램을 개발하였다. 현재 개발된 진핵생물의 유전자 구조 예측 알고리즘 중에서 GenScan이 가장 정교한 젓으로 보고 되고 있는데, EGSP의 결과분석을 위해 Genscan과 함께 GeneID, Morgan의 예측결과를 여러 가지 기준에서 비교하였다. EGSP는 정교한 예측모델을 가지고 있음에도 각 구성모듈에 대한 파라메터의 정교함에서 부족한 면이 나타나므로, 모델의 개선과 각 모듈의 조율을 통해 더욱 개선된 결과를 가지게 될 것이다.
PDF

RECOGNIZING SIX EMOTIONAL STATES USING SPEECH SIGNALS

Kang, Bong-Seok;Han, Chul-Hee;Youn, Dae-Hee;Lee, Chungyong
- 한국감성과학회:학술대회논문집
- /
- 한국감성과학회 2000년도 춘계 학술대회 및 국제 감성공학 심포지움 논문집 Proceeding of the 2000 Spring Conference of KOSES and International Sensibility Ergonomics Symposium
- /
- pp.366-369
- /
- 2000
This paper examines three algorithms to recognize speaker's emotion using the speech signals. Target emotions are happiness, sadness, anger, fear, boredom and neutral state. MLB(Maximum-Likeligood Bayes), NN(Nearest Neighbor) and HMM (Hidden Markov Model) algorithms are used as the pattern matching techniques. In all cases, pitch and energy are used as the features. The feature vectors for MLB and NN are composed of pitch mean, pitch standard deviation, energy mean, energy standard deviation, etc. For HMM, vectors of delta pitch with delta-delta pitch and delta energy with delta-delta energy are used. We recorded a corpus of emotional speech data and performed the subjective evaluation for the data. The subjective recognition result was 56% and was compared with the classifiers' recognition rates. MLB, NN, and HMM classifiers achieved recognition rates of 68.9%, 69.3% and 89.1% respectively, for the speaker dependent, and context-independent classification.
PDF

조명변화에 강인한 얼굴인식 시스템 (A Face Recognition System Robust to Variations in Lighting)

이은주;김진철;박성미;이배호
- 한국멀티미디어학회:학술대회논문집
- /
- 한국멀티미디어학회 2003년도 추계학술발표대회(상)
- /
- pp.261-264
- /
- 2003
얼굴인식은 동일 사람의 얼굴이라도 조명변화나 얼굴 표정변화에 따라 매우 다른 영상들로 나타나기 때문에 매우 어려운 문제이다. 본 논문에서는 조명변화에도 강인하고 얼굴영상에 대해 높은 얼굴 인식률을 얻기 위해 2D-HMM(Hidden Markov Model) 얼굴인식 방법을 제안하고 실험하였다. 제안된 방법은 조명변화에 대해서 조명변화 함수인 $\delta$(delta) 함수를 0, 40, 60, 80으로 변화해 가면서 이미지 보정을 실험하였으며, 계산의 복잡성을 줄이고 얼굴영상에 대한 높은 인식률을 얻기 위해 기존의 픽셀값 대신에 2D-DCT 계수를 관측벡터로 사용하였다. 시스템의 성능을 평가하기 위해 정량적 평가방법은 FAR(False Accpt Rate)와 FRR(False Reject Rate)를 측정하여 비교하였으며, 기존의 얼굴인식 방법인 PCA, 1차원 HMM과 비교분석하였다. 실험결과 2D-HMM의 경우 FAR(False Accept Rate)가 5.08%로 ID-HMM 5.18%, PCA 10.16%보다 높은 성능을 보였으며, FRR(False Reject Rate)의 경우에도 0.01%로 10.16%인 PCA보다 좋은 성능을 보였다. 이로서 조명변화에 대해서는 PCA보다 2D-HMM 얼굴인식 방법이 우수함을 알 수 있었다.
PDF

HMM 기반 비정상 침입탐지 시스템 (HMM Based Anomaly Intrusion Detection System)

김주호;공은배;조성현
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
- /
- pp.449-451
- /
- 2003
인터넷 인구의 확산과 개방된 시스템 환경속에서 네트웍과 시스템에 대한 침해사고 건수가 날로 증가하고 있는 가운데 최근 국내 인터넷망 대부분이 다운되는 등 그 피해 규모도 점차 막대해지고 있다. 이에 따라 침해 사고에 대해 사고 발생 즉시 민첩하게 대응하여 피해를 최소화하고, 더 나아가서는 사고를 미연에 방지하기 위한 보안 관련 시스템들에 관한 연구가 활발히 진행되고 있다. 본 연구에서는 보안관련 솔루션 중에 하나인 침입탐지시스템(IDS: Intrusion Detection System)에 대해 살펴보고, IDS의 탐지방식 중 비정상탐지(Anomaly Detection)분야에 은닉 마르코프 모델(HMM: Hidden Markov Model)을 적용하여 사용자별로 명령어 사용 패턴을 프로파일링하는 HMM 기반 비정상 침입탐지 시스템을 제안하고자 한다. 실험결과 자신의 데이터에 대해서는 평균 93% 이상의 만족할만한 탐지 정확도를 보였고, 다른 사용자의 데이터에 대해서는 모델마다 다소 차이를 나타냈다.
PDF

최대 엔트로피 모델을 이용한 막횡단 단백질 예측 (Maximum Entropy Approach to Transmembrane Protein Prediction)

윤성희;차정원;박승수
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
- /
- pp.664-666
- /
- 2005
막횡단 단백질(Transmembrane Protein)은 약물표적(drug target)으로 신약개발로 대표되는 바이오 산업에서 중요한 연구대상이 되고 있다. 막횡단 단백질의 구조는 실험적 기법 또는 컴퓨터 모델링 기술을 이용하여 연구되고 있으며 컴퓨터 모델링 방법 중에서는 Hidden Markov Mode(HMM)에 기반한 시스템들이 좋은 성능을 보이고 있다. 그런데 이러한 시스템들은 구조형성에 관여하는 단백질의 다양한 특성에 대한 지식은 많이 고려하고 있지 않다. 만약 이러한 특성들이 고려된다면 구조 예측에 효과적인 보다 지능적인 모델을 만드는데 도움을 줄 수 있을 것이다. 본 논문은 단백질의 특성과 관련한 다양한 정보들을 융합하는데 효율적인 최대엔트로피모델(Maximum Entropy Model)을 이용하여 막횡단 단백질의 서열(sequence)로부터 막횡단 지역을 예측하는 방법을 제시하고자 한다.
PDF

검색결과 639건 처리시간 0.031초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)