Search | Korea Science

A Study on Improved MDL Technique for Optimization of Acoustic Model (향상된 MDL 기법에 의한 음향모델의 최적화 연구)

Cho, Hoon-Young;Kim, Sang-Hun
- The Journal of the Acoustical Society of Korea
- /
- v.29 no.1
- /
- pp.56-61
- /
- 2010
This paper describes optimization methods of acoustic models in HMM-based continuous speech recognition. Most of the conventional speech recognition systems use the same number of Gaussian mixture components for each HMM state. However, since the number of data samples available for each state is different from each other, it is possible to reduce the overall number of model parameters and the computational cost at the decoding step by optimizing the number of Gaussian mixture components. In this study, we introduced the Gaussian mixture weight term at the merging stage of Gaussian components in the minimum description length (MDL) based acoustic modeling optimization. Experimental results showed that the proposed method can obtain better ASR accuracy than the previous optimization method which does not consider the Gaussian mixture weight term.
https://doi.org/10.7776/ASK.2010.29.1.056 인용 PDF KSCI

Speech Activity Decision with Lip Movement Image Signals (입술움직임 영상신호를 고려한 음성존재 검출)

Park, Jun;Lee, Young-Jik;Kim, Eung-Kyeu;Lee, Soo-Jong
- The Journal of the Acoustical Society of Korea
- /
- v.26 no.1
- /
- pp.25-31
- /
- 2007
This paper describes an attempt to prevent the external acoustic noise from being misrecognized as the speech recognition target. For this, in the speech activity detection process for the speech recognition, it confirmed besides the acoustic energy to the lip movement image signal of a speaker. First of all, the successive images are obtained through the image camera for PC. The lip movement whether or not is discriminated. And the lip movement image signal data is stored in the shared memory and shares with the recognition process. In the meantime, in the speech activity detection Process which is the preprocess phase of the speech recognition. by conforming data stored in the shared memory the acoustic energy whether or not by the speech of a speaker is verified. The speech recognition processor and the image processor were connected and was experimented successfully. Then, it confirmed to be normal progression to the output of the speech recognition result if faced the image camera and spoke. On the other hand. it confirmed not to output of the speech recognition result if did not face the image camera and spoke. That is, if the lip movement image is not identified although the acoustic energy is inputted. it regards as the acoustic noise.
https://doi.org/10.7776/ASK.2007.26.1.025 인용 PDF KSCI

한국어 장단에 관한 음향적 연구 -단순모음을 중심으로-

이재강
- MALSORI
- /
- no.spc1
- /
- pp.3-12
- /
- 2002
PDF

Performance Evaluation of Variable-Vocabulary Isolated Word Speech Recognizers with Maximum a Posteriori (MAP) Estimation-Based Speaker Adaptation in an Office Environment (최대 사후 추정 화자 적응을 이용한 가변어휘 고립단어 음성인식기의 사무실 환경에서의 성능 평가)

권오욱
- The Journal of the Acoustical Society of Korea
- /
- v.17 no.2
- /
- pp.84-89
- /
- 1998
본 논문에서는 임의의 단어를 인식하기 위하여 음성학적으로 최적화된 (phonetically-optimized word) 음성 데이터베이스를 사용하여 훈련된 가변어휘 고립단위 음 성인식기의 실제 인식기 사용 환경에서의 성능을 평가하였다. 이를 위하여, 훈련 데이터베이 스에서와 상이한 환경에서 수집된 음성학적으로 균형 잡힌(phonetically-balanced word) 고 립 단어 음성을 테스트 데이터로 사용하였다. 테스트 데이터는 일반적인 사무실에서 작동하 는 노트북 PC에서 내장 마이크를 사용하여 녹음되었다. 이렇게 녹음된 음성을 사용하여 고 립단어 인식기의 인식률을 측정하였다. 이 인식기는 최대 사후(maximum a posteriori) 추정 알고리듬을 사용하여 화자의 변화에 적응하였다. 컴퓨터 모의실험 결과에 의하면 화자 적응 을 하지 않은 기본 시스템은 깨끗한 음성에 대하여 81.3%에서 사무실 환경 음성에 대하여 69.8%로 인식률이 저하되었다. 사무실 환경 음성에 대하여, 비교사 점진(unsupervised incremental) 모드에서 최대 사후 추정 화자 적응 알고리듬을 적용하였을 경우에는 화자적 응을 하지 않은 경우에 비하여 9%의 에러를 감소시키며, 50단어의 적응 단어를 사용하여 교사 묶음(supervised batch) 모드에서 최대 사후 추정 화자 적응 알고리듬을 적용하였을 경우에는 16%의 에러를 감소시켰다.
PDF

Korean Word Recognition Using Linear Matching Based on NPU (NPU 선형매칭 한국어 단어 인식)

김한재;김승겸;이기영;최갑석
- The Journal of the Acoustical Society of Korea
- /
- v.11 no.6
- /
- pp.41-45
- /
- 1992
음성의 동적인 특성을 이용할 수 있으며, 간단한 알고리즘으로 음성을 인식할 수 있는 NPU 선 형매칭을 이용한 한국어 단어인식에 관하여 연구하였다. 이 인식방법은 NPU 라는 뉴럴 예측기를 적용 한 선형매칭 방법을 이용함으로써, 음성의 동적인 특성을 과거 특징벡터 시계열의 상관관계에 의한 예 측이라는 형태로 인식에 이용하였다. 이 인식방법의 유효성을 확인하기 위해 DDD 지역명을 대상으로 실험한 결과, 96.4%의 인식율을 얻었다.
PDF

Korean Digits Recognition using Sequence-feedback Neural Network (SFNN) (시퀀스-피이드백 신경회로망을 이용한 한국어 숫자음 인식)

최정철;이기영;최종환;최갑석
- The Journal of the Acoustical Society of Korea
- /
- v.12 no.5
- /
- pp.5-13
- /
- 1993
본 논문에서는 음성신호의 시간정보와 상관성을 포함할 수 있는 방법으로 시퀀스-피이드백 신경회로망을 제안하였으며, 그에 의한 단어인식을 수행하였다. 이 방법에서는 음성을 인식할 때 순차적으로 과거의 출력을 네트워크 입력으로 피이드백시켜 신경회로망으로 하여금 음성의 상관성과 시간정보를 갖도록 하는 순차적인 피이드백 순환구조의 시퀀스-bldlemqor 신경회로망을 이용하였으며 시퀀스-bldlemqor 신경회로망의 입출력층의 수를 줄이는 방법으로 등분 분할을 사용하였다. 본 논문에서 제안한 방법으로 한국어 숫자음을 대상으로 실험한 결과 92.5%의 인식율을 얻었으며, 피이드포워드형 신경회로망에서의 옷인식율을 1/3배 정도로 감소시켰다.
PDF

A Study on the Implementation of Korean Synthesis-By-Rule System Using Formant Synthesis Method (포만트합성법을 이용한 한국어 규칙합성시스템의 구현에 관한 연구)

조철우;이태원
- The Journal of the Acoustical Society of Korea
- /
- v.9 no.6
- /
- pp.38-44
- /
- 1990
포만트 합성법을 이용하여 규칙합성시스템을 구현한 일례를 제시한다. 먼저 음소의 입력을 위한 영문 알파벳과 음소의 대응관계를 설정한 뒤 수집된 자연음성으로부터 포만트 합성을 위한 특징 파라미 터를 추출하여 데이터베이스를 작성하다. 그 다음 이러한 데이터베이스를 이용하여 제시된 음소간을 연 결하는 규칙을 제안하고 음소단위의 합성을 행한다. 합성에는 신호처리 프로세서를 사용한 실시간 포만 트 음성합성기를 구현하여 사용하였다. 합성결과 단독음소와 연결음소에 대하여 합성음성을 얻고 이를 평가하였다.
PDF

Enhancement of Noisy Speech by FORWARD/BACKWARD Adaptive Digital Filtering (FORWARD/BACKWARD 적응필터를 이용한 음질향상에 관한 연구)

김제우;은종관
- The Journal of the Acoustical Society of Korea
- /
- v.5 no.1
- /
- pp.17-23
- /
- 1986
본 논문에서는 FORWARD/BACKWARD 적응 디지털필터를 이용하여 잡음이 섞인 음성의 음질 을 향상하는 방법에 대해 고찰하였다. 이 알고리즘은 음성신호의상관성을 잘 이용하기 위한 현재의 sample을 예측하기 위해 음성신호의 과거 신호뿐만 아니라 미래의 신호도 사용하였다. 이 결과 이 방법 은 백색잡음뿐만 유색잡음의 제거에도 효과적임을 알 수 있었다. 또, 이 방법을 개선한 modified forward/backward 적응 디지털 필터링 방법을 제시하여 성능 향상을 꾀하엿다. 이 개선된 방법은 비교 적 구조가 간단하면서도 여러 종류의 additive noise 에 대해서 잘 동작하며 기존의 방법에 비하여 약 2 유 정도의 개선된 효과를 가져온다.
PDF

A study on the analysis of Korean vowels by the Line Spectrum Pair method (한국어의 LSP 분석에 관한 연구)

이응정;김희래
- The Journal of the Acoustical Society of Korea
- /
- v.5 no.3
- /
- pp.21-27
- /
- 1986
LSP 방식은 음성의 주파수 특성을 포함하는 공진 주파수를 낮은 부분과 SHB은 부분의 주파수 로 표시되는 선스펙트럼쌍 계수를 구하는 방법이다. 본 논문은 LSP 방식을 사용하여 한국어의 기본 모 음 7개를 대상으로 하여 분석하고 LSP 계수를 구하는 Algorithm을 개발하였으며 PARCOR 방식과 비 교하였다. 실험 결과 LSP 방식의 연산량이 PARCO 방식의 연산량보다 약 1/2정도로 적음을 알 수 있었 고 Hardware 구성 시에 있어서도 경제적임을 알 수 있었다. 그리고 LSP는 계수 모음의 종류에 따라 각 기 다른 공진 주파수, 대역폭을 나타내기 때문에 음성 합성이나 음성 인식 분야에 있어 기초 자료로 이 용할 수 있을 것으로 사료된다.
PDF

Voice Calculator using LR Parsing Technique (LR 구문분석 기법을 이용한 음성 계산기)

유형근;이형준;이강성;김순협
- The Journal of the Acoustical Society of Korea
- /
- v.12 no.6
- /
- pp.70-76
- /
- 1993
본 논문은 음성만을 이용하여 계산할 수 있도록 하는 dam성 계산기 구현을 위한 기술에 관한 연구이다. 일정한 형식을 갖는 언어에 의하여 발생할 수 있는 다양한 형태의 구문을 언어 문법적 규칙을 기초로 해석하는 기능은 단독어 인식에서 문장인식으로 넘어가는 과정에서 필수적인 요소이다. 음성 계산기에 HMM과 LR 구문분석 기법을 적용하여 입력된 문장을 분석하고 잘못 인식된 단어를 문장에 맞도록 하였다. 구문분석하는 중에 수식의 의미도 해석하여 계산 결과를 출력해 내도록 하였다. 구문 분석을 사용하지 않은 방법에 비해서 잘못 인식할 가능성을 크게 줄였다.
PDF

Search Result 748, Processing Time 0.022 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)