• 제목/요약/키워드: Acoustic Feature

검색결과 238건 처리시간 0.027초

반음절쌍과 변형된 연쇄 상태 분할을 이용한 연속 숫자 음 인식의 성능 향상 (Performance Improvement of Continuous Digits Speech Recognition Using the Transformed Successive State Splitting and Demi-syllable Pair)

  • 서은경;최갑근;김순협;이수정
    • 한국멀티미디어학회논문지
    • /
    • 제9권1호
    • /
    • pp.23-32
    • /
    • 2006
  • 본 논문에서는 언어모델과 음향모델을 개선함으로써 단위 숫자음의 인식성능 최적화에 대해 설명한다. 언어모델은 한국어 단위 숫자음 문장의 문법적 특징을 분석하고, Finile State Network(FSN) 노드를 두 음절로 구성하여 오 인식률을 감소시켰다. 음향모델은 단 음절로 구성되어 발성기간이 짧고 조음이 많이 생기는 불명확한 음소, 음절의 분할로 인한 오 인식을 줄이기 위해 인식단위를 반음절 쌍으로 하였다. 인식단위의 특징을 효과적으로 모델링하기 위해 특징부분에서 K-means 알고리즘으로 군집화 하여, 상태를 분할하는 변형된 연쇄 상태 분할방법을 이용하였다. 실험 결과 제안된 언어모델의 적용 후 동일 문맥종속 음소모델에서 10.5%, 음향모델에서 인식단위를 반음절 쌍으로 하였을 경우 문맥종속 음소모델에 비해 12.5%, 변형된 연쇄 상태분할을 하였을 경우 1.5%의 인식률을 향상시킬 수 있었다.

  • PDF

음향 및 음소 정보를 이용한 연속제의 자동 음소 분할에 대한 연구 (A Study on Automatic Phoneme Segmentation of Continuous Speech Using Acoustic and Phonetic Information)

  • 박은영;김상훈;정재호
    • 한국음향학회지
    • /
    • 제19권1호
    • /
    • pp.4-10
    • /
    • 2000
  • 본 논문은 자동 음소 분할기의 음소 경계 오류를 보상하기 위한 후처리(Postprocessing)에 관한 연구이다. 자동 분절 경계의 오류 범위를 줄일 수 있는 후처리기를 제안하고, 자동 분절 결과를 직접 합성 단위로 사용할 수 있는 대량의 합성용 운율데이터 베이스 구축에 유용함을 기술한다. 제안된 후처리기는 수작업으로 보정된 데이터의 특징벡터를 다층 신경회로망(MLP: Multi-layer perceptron)을 통해 학습을 한 후, 자동 분절 결과와 MLP 기반 후처리를 이용하여 새로운 음소 경계를 추출한다. 우선, 특징벡터 set은 음성학적 지식이 최대한 반영되도록 선정되었다. 그리고, 경계를 추출하기 위해서 비선형 패턴분리에 탁월한 성능을 보이는 MLP를 이용한다. MLP는 매우 다양하게 나타나는 음소 경계간 음성학적 특징을 단시간 내에 적용할 수 있기 때문이다. 마지막으로, 음운환경별로 특징 벡터가 적용되는 제안된 후처리 알고리즘을 이용하여 자동 분절의 경계 오류에 대한 보상이 이루어진다. 문장 단위로 발화된 합성용 데이터베이스에서 후처리기로 보정된 분절 결과는 음성 언어 번역 시스템의 분할율보다 약 19.9%의 향상된 성능을 보였으며, 절대오류 (|Hand label position-Auto label position|)는 약 28.6% 감소되었다.

  • PDF

심층신경망 기반의 음성인식을 위한 절충된 특징 정규화 방식 (Compromised feature normalization method for deep neural network based speech recognition)

  • 김민식;김형순
    • 말소리와 음성과학
    • /
    • 제12권3호
    • /
    • pp.65-71
    • /
    • 2020
  • 특징 정규화는 음성 특징 파라미터들의 통계적인 특성의 정규화를 통해 훈련 및 테스트 조건 사이의 환경 불일치의 영향을 감소시키는 방법으로서 기존의 Gaussian mixture model-hidden Markov model(GMM-HMM) 기반의 음성인식 시스템에서 우수한 성능개선을 입증한 바 있다. 하지만 심층신경망(deep neural network, DNN) 기반의 음성인식 시스템에서는 환경 불일치의 영향을 최소화 하는 것이 반드시 최고의 성능 개선으로 연결되지는 않는다. 본 논문에서는 이러한 현상의 원인을 과도한 특징 정규화로 인한 정보손실 때문이라 보고, 음향모델을 훈련 하는데 유용한 정보는 보존하면서 환경 불일치의 영향은 적절히 감소시켜 음성인식 성능을 최대화 하는 특징 정규화 방식이 있는 지 검토해보고자 한다. 이를 위해 평균 정규화(mean normalization, MN)와 평균 및 분산 정규화(mean and variance normalization, MVN)의 절충 방식인 평균 및 지수적 분산 정규화(mean and exponentiated variance normalization, MEVN)를 도입하여, 잡음 및 잔향 환경에서 분산에 대한 정규화의 정도에 따른 DNN 기반의 음성인식 시스템의 성능을 비교한다. 실험 결과, 성능 개선의 폭이 크지는 않으나 분산 정규화의 정도에 따라 MEVN이 MN과 MVN보다 성능이 우수함을 보여준다.

신경망 AE 신호 형상인식을 위한 특징값 선택법의 개발과 용접부 및 회전체 결함 분류에의 적용 연구 (Development of Feature Selection Method for Neural Network AE Signal Pattern Recognition and Its Application to Classification of Defects of Weld and Rotating Components)

  • 이강용;황인범
    • 비파괴검사학회지
    • /
    • 제21권1호
    • /
    • pp.46-53
    • /
    • 2001
  • 음향방출 신호를 이용하여 분류기를 설계하는 과정에서의 특징값 선택법에 관해 연구하였다. 분류기는 역전파법을 이용한 신경망 분류기를 사용하였다. Fisher's criterion, class mean scatter criterion, eigenvector analysis와 함께 본 논문에서 새로 제안하는 특징값 공간에서의 특징값 좌표사이의 차이를 이용하는 2-D criterion, 3-D criterion을 이용해서 특징값을 선택하고 각각에 대해 분류기를 설계하여, 인식률과 수렴속도를 비교하였다. 분류를 위한 자료를 얻기 위하여 용접부 결함시편과 로터리 압축기 금속 접촉부 결함시편을 사용하였다. 인식률 면에서 2-D criterion과 3-D criterion이 우수한 결과를 나타내었다.

  • PDF

음향 데이터 전송 시스템의 강인한 데이터 검출 성능을 위한 Gaussian Mixture Model 기반 연구 (Data Detection Algorithm Based on GMM in the Acoustic Data Transmission System)

  • 송지현;장준혁;김문기;김동건
    • 대한전자공학회논문지SP
    • /
    • 제48권4호
    • /
    • pp.136-141
    • /
    • 2011
  • 본 논문에서는 패턴 인식에서 우수한 성능을 보여주는 가우시안 혼합 모델을 이용하여 MCLT 기반 음향 데이터 전송 시스템의 데이터 검출 성능 향상을 위한 방법을 제안하였다. 기존의 MCLT 기반 음향 데이터 전송 시스템에 대해서 분석하고, 이를 기반으로 데이터 검출 알고리즘에서 우수한 성능을 보여주는 특징 벡터를 선택하여 GMM의 입력 벡터로 효과적으로 이용한다. 다양한 음원(rock, pop, classic, jazz)과 마이크-스피커 사이의 거리 (1∼5m)에서 시스템의 성능을 평가한 결과 GMM을 이용한 제안된 방법이 기존의 MCLT 기반 음향 데이터 전송 시스템의 데이터 검출 알고리즘보다 더욱 우수한 데이터 검출 성능을 보였다.

음향적 요소분석과 DRNN을 이용한 음성신호의 감성 인식 (Analyzing the Acoustic Elements and Emotion Recognition from Speech Signal Based on DRNN)

  • 심귀보;박창현;주영훈
    • 한국지능시스템학회논문지
    • /
    • 제13권1호
    • /
    • pp.45-50
    • /
    • 2003
  • 최근 인간형 로봇에 대한 개발이 괄목할 만한 성장을 이루고 있고, 친근한 로봇의 개발에 중요한 역할을 담당하는 것으로써 감성/감정의 인식이 필수적이라는 인식이 확산되고 있나. 본 논문은 음성의 감정인식에 있어 가장 큰 부분을 차지하는 피치의 패턴을 인식하여 감정을 분류/인식하는 시뮬레이터의 개발과 시뮬레이션 결과를 나타낸다. 또한, 피치뿐 아니라 음향학적으로 날카로움, 낮음 등의 요소를 분류의 기준으로 포함시켜서 좀더 신뢰성 있는 인식을 할 수 있음을 보인다. 주파수와 음성의 다양한 분석을 통하여, 음향적 요소와 감성의 상관관계에 대한 분석이 선행되어야 하므로, 본 논문은 사람들의 음성을 녹취하여 분석하였다 시뮬레이터의 내부 구조로는 음성으로부터 피치를 추출하는 부분과 피치의 패턴을 학습시키는 DRNN 부분으로 이루어져 있다.

RNN을 이용한 Expressive Talking Head from Speech의 합성 (Synthesis of Expressive Talking Heads from Speech with Recurrent Neural Network)

  • 사쿠라이 류헤이;심바 타이키;야마조에 히로타케;이주호
    • 로봇학회논문지
    • /
    • 제13권1호
    • /
    • pp.16-25
    • /
    • 2018
  • The talking head (TH) indicates an utterance face animation generated based on text and voice input. In this paper, we propose the generation method of TH with facial expression and intonation by speech input only. The problem of generating TH from speech can be regarded as a regression problem from the acoustic feature sequence to the facial code sequence which is a low dimensional vector representation that can efficiently encode and decode a face image. This regression was modeled by bidirectional RNN and trained by using SAVEE database of the front utterance face animation database as training data. The proposed method is able to generate TH with facial expression and intonation TH by using acoustic features such as MFCC, dynamic elements of MFCC, energy, and F0. According to the experiments, the configuration of the BLSTM layer of the first and second layers of bidirectional RNN was able to predict the face code best. For the evaluation, a questionnaire survey was conducted for 62 persons who watched TH animations, generated by the proposed method and the previous method. As a result, 77% of the respondents answered that the proposed method generated TH, which matches well with the speech.

Sparse decision feedback equalization for underwater acoustic channel based on minimum symbol error rate

  • Wang, Zhenzhong;Chen, Fangjiong;Yu, Hua;Shan, Zhilong
    • International Journal of Naval Architecture and Ocean Engineering
    • /
    • 제13권1호
    • /
    • pp.617-627
    • /
    • 2021
  • Underwater Acoustic Channels (UAC) have inherent sparse characteristics. The traditional adaptive equalization techniques do not utilize this feature to improve the performance. In this paper we consider the Variable Adaptive Subgradient Projection (V-ASPM) method to derive a new sparse equalization algorithm based on the Minimum Symbol Error Rate (MSER) criterion. Compared with the original MSER algorithm, our proposed scheme adds sparse matrix to the iterative formula, which can assign independent step-sizes to the equalizer taps. How to obtain such proper sparse matrix is also analyzed. On this basis, the selection scheme of the sparse matrix is obtained by combining the variable step-sizes and equalizer sparsity measure. We call the new algorithm Sparse-Control Proportional-MSER (SC-PMSER) equalizer. Finally, the proposed SC-PMSER equalizer is embedded into a turbo receiver, which perform turbo decoding, Digital Phase-Locked Loop (DPLL), time-reversal receiving and multi-reception diversity. Simulation and real-field experimental results show that the proposed algorithm has better performance in convergence speed and Bit Error Rate (BER).

MLHF 모델을 적용한 어휘 인식 탐색 최적화 시스템 (Vocabulary Recognition Retrieval Optimized System using MLHF Model)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권10호
    • /
    • pp.217-223
    • /
    • 2009
  • 모바일 단말기의 어휘 인식 시스템에서는 통계적 방법에 의한 어휘인식을 수행하고 N-gram을 이용한 통계적 문법 인식 시스템을 사용한다. 인식 대상이 되는 어휘의 수가 증가하면 어휘 인식 알고리즘이 복잡해지고 대규모의 탐색공간을 필요로 하게 되며 처리시간이 길어지므로 제한된 연산처리 능력과 메모리로는 처리하기가 불가능하다. 따라서 본 논문에서는 이러한 단점을 개선하고 어휘 인식을 최적화하기 위하여 MLHF 시스템을 제안한다. MLHF는 FLaVoR의 구조를 이용하여 음향학적 탐색과 언어적 탐색을 분리하여 음향학적 탐색에서는 HMM을 사용하고 언어적 탐색 단계에서는 Levenshtein distance 알고리즘을 사용한다. 시스템 성능 평가 결과 어휘 종속 인식률은 98.63%, 어휘 독립 인식률은 97.91%의 인식률을 나타냈으며 인식속도는 1.61초로 나타내었다.

Classification of Seabed Physiognomy Based on Side Scan Sonar Images

  • Sun, Ning;Shim, Tae-Bo
    • The Journal of the Acoustical Society of Korea
    • /
    • 제26권3E호
    • /
    • pp.104-110
    • /
    • 2007
  • As the exploration of the seabed is extended ever further, automated recognition and classification of sonar images become increasingly important. However, most of the methods ignore the directional information and its effect on the image textures produced. To deal with this problem, we apply 2D Gabor filters to extract the features of sonar images. The filters are designed with constrained parameters to reduce the complexity and to improve the calculation efficiency. Meanwhile, at each orientation, the optimal Gabor filter parameters will be selected with the help of bandwidth parameters based on the Fisher criterion. This method can overcome some disadvantages of the traditional approaches of extracting texture features, and improve the recognition rate effectively.