• Title/Summary/Keyword: 음성추출

Search Result 988, Processing Time 0.032 seconds

A Neural Networks Approach to Voiced-Unvoice-Silence Classification Incorporating Amplitude Distribution (음성 진폭분포로 신경망을 구동한 유-무-묵음 분류)

  • 이인섭;최정아;배명진;안수길
    • The Journal of the Acoustical Society of Korea
    • /
    • v.9 no.6
    • /
    • pp.15-21
    • /
    • 1990
  • 유-무-묵음 분류 과정은 음성분석시에 아주 중요한 문제중의 하나이다. 음성에너지, ZCR, 자기 상관계수, LPC 계수, 예측에러 에너지등을 퍼래미터로 사용하여 지금까지 많은 분류기법이 제안되어져 왔다. 이런기법들은 기본적으로 퍼래미터를 추출해야 하고, 이 때문에 많은 계산량이 요구되고, 이들 퍼 래미터는 음성 본래의 정보들의 대부분을 상실하게 된다. 이 때문에 각 프레임의 진폭분포를 사용하는 새로운 앨고리즘을 제안하였다. 첫째로 V-U-S 영역은 개별 진폭분포형태를 가지기 때문에 주어진 프레 임에서 진폭분포를 구한다. 그런 다음에는 신경망을 통해 분류를 하게 된다. 신경망은 문덕값을 별도로 선정할 필요없고, 배경잡음에 강력하며, 또한 실시간 처리에 적합하다.

  • PDF

The Development of Speech Synthesizer In Korean TTS System (한국어 문어변환 시스템 내에서의 음성 합성기 개발)

  • 강찬희;진용옥
    • The Journal of the Acoustical Society of Korea
    • /
    • v.12 no.2
    • /
    • pp.14-27
    • /
    • 1993
  • 본 논문은 매 40ms 정도의 음성파형으로부터 추출된 6내지 9ms 정도의 1피치주기 파형을 합성단위로 사용하여 합성시킨 시간영역에서의합성방식을 한국어 문어 변환 시스템내에서의 음성합성기에 적용시킨 연구결과이다. 시험 결과, 4가지 유형의 한국어 음절 합성이 가능하고, 장단강약과 같은 운율요소의 제어가 용이하고, 또한 합성 알고리즘이 간단하여 실시간 처리가 가능하였으나, 문장 단위의 음성을 합성하기 위하여는 문장내에서의 다양한 피치 패턴에 대한 연구와 이의 효율적인 제어에 관한 연구가 이루어져야 할 것이다. 합성음에 대한 평가방법으로는 원음과 합성음에 대한 시간영역에서의 파형비교, 주파수 영역에서의 스펙트럼 포락선 유사성 비교 및 합성음에 대한 청취도 실험을 행하였다.

  • PDF

Speaker Indexing using Vowel Based Speaker Identification Model (모음 기반 하자 식별 모델을 이용한 화자 인덱싱)

  • Kum Ji Soo;Park Chan Ho;Lee Hyon Soo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.151-154
    • /
    • 2002
  • 본 논문에서는 음성 데이터에서 동일한 화자의 음성 구간을 찾아내는 화자 인덱싱(Speaker Indexing) 기술 중 사전 화자 모델링 과정을 통한 인덱싱 방법을 제안하고 실험하였다. 제안한 인덱싱 방법은 문장 독립(Text Independent) 화자 식별(Speaker Identification)에 사용할 수 있는 모음(Vowel)에 대해 특징 파라미터를 추출하고, 이를 바탕으로 화자별 모델을 구성하였다. 인덱싱은 음성 구간에서 모음의 위치를 검출하고, 구성한 화자 모델과의 거리 계산을 통하여 가장 가까운 모델을 식별된 결과로 한다. 그리고 식별된 결과는 화자 구간 변화와 음성 데이터의 특성을 바탕으로 필터링 과정을 거쳐 최종적인 인덱싱 결과를 얻는다. 화자 인덱싱 실험 대상으로 방송 뉴스를 녹음하여 10명의 화자 모델을 구성하였고, 인덱싱 실험을 수행한 결과 $91.8\%$의 화자 인덱싱 성능을 얻었다.

  • PDF

An Analysis of Formants Extracted from Emotional Speech and Acoustical Implications for the Emotion Recognition System and Speech Recognition System (독일어 감정음성에서 추출한 포먼트의 분석 및 감정인식 시스템과 음성인식 시스템에 대한 음향적 의미)

  • Yi, So-Pae
    • Phonetics and Speech Sciences
    • /
    • v.3 no.1
    • /
    • pp.45-50
    • /
    • 2011
  • Formant structure of speech associated with five different emotions (anger, fear, happiness, neutral, sadness) was analysed. Acoustic separability of vowels (or emotions) associated with a specific emotion (or vowel) was estimated using F-ratio. According to the results, neutral showed the highest separability of vowels followed by anger, happiness, fear, and sadness in descending order. Vowel /A/ showed the highest separability of emotions followed by /U/, /O/, /I/ and /E/ in descending order. The acoustic results were interpreted and explained in the context of previous articulatory and perceptual studies. Suggestions for the performance improvement of an automatic emotion recognition system and automatic speech recognition system were made.

  • PDF

A study on Auto-Segmentation Improvement for a Large Speech DB (대용량 음성 D/B 구축을 위한 AUTO-SEGMENTATION에 관한 연구)

  • Lee Byong-soon;Chang Sungwook;Yang Sung-il;Kwon Y.
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.209-212
    • /
    • 2000
  • 본 논문은 음성인식에 필요한 대용량 음성 D/B 구축을 위한 auto-segmentation의 향상에 관한 논문이다. 50개의 우리말 음소(잡음, 묵음 포함)를 정하고 음성특징으로 MFCC(Mel Frequency Cepstral Coefficients), $\Delta$MFCC, $\Delta\Delta$MFCC, 39차를 추출한 다음 HMM 훈련과 CCS(Constrained Clustering Segmentation) 알고리즘(1)을 사용하여auto-segmentation을 수행하였다. 이 과정에서 대부분의 음소는 오류범위$(\pm25ms)$ 안에서 분절이 이루어지지만, 짧은 묵음, 모음+유성자음('ㅁ', 'ㄴ', 'ㄹ', 'o') 등에서 자주 오류범위를 넘어 분절이 발생하였다. 이러한 음운환경에 따른 경계의 오류를 구간별로 Wavelet 변환 신호의 MLR(Maximum Likelihood Ratio) 값을 이용, 기존 문제점을 보완하여 오류의 범위를 줄임으로서 auto-segmentation의 성능 향상을 얻을 수 있었다.

  • PDF

Emotion Recognition of Speech Using the Wavelet Transform (웨이블렛 변환을 이용한 음성에서의 감정인식)

  • Go, Hyoun-Joo;Lee, Dae-Jong;Chun, Myung-Geun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04b
    • /
    • pp.817-820
    • /
    • 2002
  • 인간과 기계와의 인터페이스에 있어서 궁극적 목표는, 인간과 기계가 마치 사람과 사람이 대화하듯 자연스런 인터페이스가 이루어지도록 하는데 있다. 이에 본 논문에서는 사람의 음성속에 깃든 6개의 기본 감정을 인식하는 알고리듬을 제안하고자 한다. 이를 위하여 뛰어난 주파수 분해능력을 갖고 있는 웨이블렛 필터뱅크를 이용하여 음성을 여러 개의 서브밴드로 나누고 각 밴드에서 특징점을 추출하여 감정을 이식하고 이를 최종적으로 융합, 단일의 인식값을 내는 다중의사 결정 구조를 갖는 알고리듬을 제안하였다. 이를 적용하여 실제 음성 데이타에 적용한 결과 기존의 방법보다 높은 90%이상의 인식률을 얻을 수 있었다.

  • PDF

Analysis of Voice Feature Change by Stimulating the Sexual Desire (성욕(性慾) 자극에 의한 음성 특징 변화 분석)

  • Seo, Youn-Taek;Yoo, Hwang-Jun;Cho, Dong-Uk;Ka, Min-Kyoung;Kim, Bong-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.908-911
    • /
    • 2012
  • 인간의 본능적인 욕구 중 생리적 욕구는 생존을 위해서 불가결한 것 중 하나이며 이러한 생리적 요구엔 성욕이 포함되어 있다. 성욕은 외부자극으로 인하여 욕구가 충동되며 도파민과 테스토스테론의 호르몬 분비가 일어나 성적 충동을 증가시켜 신체변화에 영향을 미친다. 따라서 본 논문에서는 성욕을 자극하여 성적 충동이 증가되었을 때 목소리의 변화를 분석하는 연구를 수행하였다. 이를 위해 성적 충동이 증가되기 전과 후의 음성을 수집하고 성대 관련 음성분석 요소인 Pitch, Intensity 기술을 적용하여 변화된 음성의 특징을 추출하였다.

Voice Segment Reduction using Perceiver Model (Perceiver 모델을 이용한 사용자 음성 구간 축약)

  • Choi, Yeon-Ung;Lee, Jae-Jun;Han, Hyeon-Taek;Lee, Hae-Yeoun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.491-493
    • /
    • 2022
  • 최근 스마트 기기에서 오디오 데이터를 이용하는 응용 기술들이 증가하면서, 오디오 데이터에서 관심 있는 구간을 찾아내는 기술의 필요성이 증가하고 있다. 본 논문에서는 Perceiver 모델을 활용하여 오디오 데이터에서 사람의 음성 구간을 검출하고 축약하는 방법을 제안한다. Perceiver 모델은 복잡한 입력 데이터에 대하여 Self-attention을 기반으로 특징을 추출하면서 이전의 특징을 다음 입력으로 다시 학습하는 특징을 갖고 있어서 연속적인 데이터인 오디오에 효율적으로 적용할 수 있다. 외부 및 자체에서 수집한 음성과 비음성 데이터셋에 대하여 실험을 진행하였고, 10초 단위 세그먼트에서 대해서 92.4%의 검출 정확도를 달성하였다.

Development of a Dementia Early Detection Program Using Voice Data (음성 데이터를 활용한 치매 징후 진단 프로그램 개발)

  • Min-Ji Song;Min-Ji Lee;Do-Eun Kim;Yu-Jin Choi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.1055-1056
    • /
    • 2023
  • 이 논문은 음성 데이터를 이용하여 치매 징후를 진단하는 프로그램을 개발하는 과정과 결과에 대해 소개한다. MFCC (Mel-frequency cepstral coefficients) 기술을 사용하여 음성 패턴을 추출하고 기계 학습 모델을 적용하여 치매 징후를 탐지하는 방법을 설명한다. 실험 결과는 치매 조기 진단 및 관리에 유용한 음성 기반 도구의 중요성을 강조한다.

RoI Detection Method for Improving Lipreading Reading in Speech Recognition Systems (음성인식 시스템의 입 모양 인식개선을 위한 관심영역 추출 방법)

  • Jae-Hyeok Han;Mi-Hye Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.299-302
    • /
    • 2023
  • 입 모양 인식은 음성인식의 중요한 부분 중 하나로 이를 개선하기위한 다양한 연구가 진행되어 왔다. 기존의 연구에서는 주로 입술주변 영역을 관찰하고 인식하는데 초점을 두었으나, 본 논문은 음성인식 시스템에서 기존의 입술영역과 함께 입술, 턱, 뺨 등 다른 관심 영역을 고려하여 음성인식 시스템의 입모양 인식 성능을 비교하였다. 입 모양 인식의 관심 영역을 자동으로 검출하기 위해 객체 탐지 인공신경망을 사용하며, 이를 통해 다양한 관심영역을 실험하였다. 실험 결과 입술영역만 포함하는 ROI 에 대한 결과가 기존의 93.92%의 평균 인식률보다 높은 97.36%로 가장 높은 성능을 나타내었다.