• 제목/요약/키워드: speech features

검색결과 647건 처리시간 0.028초

히스토그램 등화와 데이터 증강 기법을 이용한 개선된 음성 감정 인식 (Improved speech emotion recognition using histogram equalization and data augmentation techniques)

  • 허운행;권오욱
    • 말소리와 음성과학
    • /
    • 제9권2호
    • /
    • pp.77-83
    • /
    • 2017
  • We propose a new method to reduce emotion recognition errors caused by variation in speaker characteristics and speech rate. Firstly, for reducing variation in speaker characteristics, we adjust features from a test speaker to fit the distribution of all training data by using the histogram equalization (HE) algorithm. Secondly, for dealing with variation in speech rate, we augment the training data with speech generated in various speech rates. In computer experiments using EMO-DB, KRN-DB and eNTERFACE-DB, the proposed method is shown to improve weighted accuracy relatively by 34.7%, 23.7% and 28.1%, respectively.

모의 지능로봇에서 음성신호에 의한 감정인식 (Speech Emotion Recognition by Speech Signals on a Simulated Intelligent Robot)

  • 장광동;권오욱
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.163-166
    • /
    • 2005
  • We propose a speech emotion recognition method for natural human-robot interface. In the proposed method, emotion is classified into 6 classes: Angry, bored, happy, neutral, sad and surprised. Features for an input utterance are extracted from statistics of phonetic and prosodic information. Phonetic information includes log energy, shimmer, formant frequencies, and Teager energy; Prosodic information includes pitch, jitter, duration, and rate of speech. Finally a patten classifier based on Gaussian support vector machines decides the emotion class of the utterance. We record speech commands and dialogs uttered at 2m away from microphones in 5different directions. Experimental results show that the proposed method yields 59% classification accuracy while human classifiers give about 50%accuracy, which confirms that the proposed method achieves performance comparable to a human.

  • PDF

파킨슨병 환자의 교대운동속도 과제에서 관찰된 '말 뭉침'의 음향학적 특성 (Acoustic Characteristics of 'Short Rushes of Speech' using Alternate Motion Rates in Patients with Parkinson's Disease)

  • 김선우;윤지혜;이승진
    • 말소리와 음성과학
    • /
    • 제7권2호
    • /
    • pp.55-62
    • /
    • 2015
  • It is widely accepted that Parkinson's disease(PD) is the most common cause of hypokinetic dysarthria, and its characteristics of 'short rushes of speech' have become more evident along with the severity of motor disorders. Speech alternate motion rates (AMRs) are particularly useful for observing not only rate abnormalities but also deviant speech. However, relatively little is known about the characteristics of 'short rushes of speech' in terms of AMRs of PD except for the perceptual characteristics. The purpose of this study was to examine which acoustic features of 'short rushes of speech' in terms of AMRs are a robust indicator of Parkinsonian speech. Numbers of syllabic repetitions (/pə/, /tə/, /kə/) in AMR tasks were analyzed through acoustic methods observing a spectrogram of the Computerized Speech Lab in 9 patients with PD. Acoustically, we found three characteristics of 'short rushes of speech': 1) Vocalized consonants without closure duration(VC) 76.3%; 2) No consonant segmentation(NC) 18.6%; 3) No vowel formant frequency(NV) 5.1%. Based on these results, 'short rushes of speech' may affect the failure to reach and maintain the phonatory targets. In order to best achieve the therapeutic goals, and to make the treatment most efficacious, it is important to incorporate training methods which are based on both phonation and articulation.

Statistical Speech Feature Selection for Emotion Recognition

  • Kwon Oh-Wook;Chan Kwokleung;Lee Te-Won
    • The Journal of the Acoustical Society of Korea
    • /
    • 제24권4E호
    • /
    • pp.144-151
    • /
    • 2005
  • We evaluate the performance of emotion recognition via speech signals when a plain speaker talks to an entertainment robot. For each frame of a speech utterance, we extract the frame-based features: pitch, energy, formant, band energies, mel frequency cepstral coefficients (MFCCs), and velocity/acceleration of pitch and MFCCs. For discriminative classifiers, a fixed-length utterance-based feature vector is computed from the statistics of the frame-based features. Using a speaker-independent database, we evaluate the performance of two promising classifiers: support vector machine (SVM) and hidden Markov model (HMM). For angry/bored/happy/neutral/sad emotion classification, the SVM and HMM classifiers yield $42.3\%\;and\;40.8\%$ accuracy, respectively. We show that the accuracy is significant compared to the performance by foreign human listeners.

Buckeye corpus에 나타난 탄설음화 현상 분석 (A study of flaps in American English based on the Buckeye Corpus)

  • 황병후;강석한
    • 말소리와 음성과학
    • /
    • 제10권3호
    • /
    • pp.9-18
    • /
    • 2018
  • This paper presents an acoustic and phonological study of the alveolar flaps in American English. Based on the Buckeye Corpus, the flapping tokens produced by twenty men are analyzed at both lexical and post-lexical levels. The data, analyzed with Pratt speech analysis, include duration, F2 and F3 in voicing during the flap, as well as duration, F1, F2, F3, and f0 in the adjacent vowels. The results provide evidence on two issues: (1) The different ways in which voiced and voiceless alveolar stops give rise to neutralized flapping stops by following lexical and post-lexical levels, (2) The extent to which the vowel features (height, frontness, and tenseness) affect flapping sounds. The results show that flaps are affected by pre-consonantal vowel features at the lexical as well as post-lexical levels. Unlike previous studies, this study uses the Praat method to distinguish flapped from unflapped tokens in the Buckeye Corpus and examines connections between the lexical and post-lexical levels.

영어 대조 초점의 발화와 인지에 관한 연구 - 원어민 화자와 한국인 화자의 실현 양상 비교 - (The Realization and Perception of English Contrastive Focus -A Comparative Study between Native Speakers of English and Korean Learners of English-)

  • 전지현;송재영;이현정;김기호
    • 음성과학
    • /
    • 제9권4호
    • /
    • pp.215-234
    • /
    • 2002
  • This study is designed for two purposes. The first one is to compare the realization and perception of English contrastive focus between Korean learners of English and native speakers of English. The second purpose is to study the phonological and phonetical features of contrastive focus by examining the results of production and perception experiments. English native speakers' results show that the English contrastive accents are generally accompanied by higher peak heights. The findings agree with the results of Bartels & Kingston (1994). Unlike native speakers of English, Korean speakers seem to be poor at relating the phonetical features of contrastive focus to their actual speech. Korean speakers' results are especially unsuccessful when the contrast is not distinctly grasped through syntactic structure, or when the function words are contrasted. Furthermore, Korean speakers' utterances tend to have pitch accents on every content word, whether the word is contrasted or not.

  • PDF

위장발화에 대한 연구 - 운율적 특성을 중심으로 - (A Study On the Disguised Voice - From a prosodic point of view -)

  • 조민하;노석은;송민규;신지영;강선미
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.191-195
    • /
    • 2003
  • The aim of this paper is to analyze the phonetic features for disguised voice. In this paper we examined the features such as phonation types, pitch range, speech rate, intonation type and boundary tones etc. So the result of the analysis is as follows. : $\circled1$ Phonation types are very important manner of disguised voice for male subjects. $\circled2$ Pitch range and average of pitch value is very important cue for speaker verification. $\circled3$ pitch contour, speech rate and boundary tones can be a secondary cue for speaker verification.

  • PDF

한국어 동시조음 모델에 기반한 스피치 애니메이션 생성 (Speech Animation Synthesis based on a Korean Co-articulation Model)

  • 장민정;정선진;노준용
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제26권3호
    • /
    • pp.49-59
    • /
    • 2020
  • 본 논문에서는 규칙 기반의 동시조음 모델을 통해 한국어에 특화된 스피치 애니메이션을 생성하는 모델을 제안한다. 음성에 대응되는 입 모양 애니메이션을 생성하는 기술은 영어를 중심으로 많은 연구가 진행되어 왔으며, 자연스럽고 사실적인 모션이 필요한 영화, 애니메이션, 게임 등의 문화산업 전반에 널리 활용된다. 그러나 많은 국내 콘텐츠의 경우, 스피치 애니메이션을 생략하거나 음성과 상관없이 단순 반복 재생한 뒤 성우가 더빙하는 형태로 시각적으로 매우 부자연스러운 결과를 보여준다. 또한, 한국어에 특화된 모델이 아닌 언어 비의존적 연구는 아직 국내 콘텐츠 제작에 활용될 정도의 퀄리티를 보장하지 못한다. 따라서 본 논문은 음성과 텍스트를 입력받아 한국어의 언어학적 특성을 반영한 자연스러운 스피치 애니메이션 생성 기술을 제안하고자 한다. 한국어에서 입 모양은 대부분 모음에 의해 결정된다는 특성을 반영하여 입술과 혀를 분리한 동시조음 모델을 정의해 기존의 입술 모양에 왜곡이 발생하거나 일부 음소의 특성이 누락되는 문제를 해결하였으며, 더 나아가 운율적 요소에 따른 차이를 반영하여 보다 역동적인 스피치 애니메이션 생성이 가능하다. 제안된 모델은 유저 스터디를 통해 자연스러운 스피치 애니메이션을 생성함을 검증하였으며, 향후 국내 문화산업 발전에 크게 기여할 것으로 기대된다.

웹툰에 나타난 특징적 말칸 연출에 대한 분석 (The Analysis for the Distinctive Directing of Speech Balloons in Webtoon)

  • 정규하;윤기헌
    • 만화애니메이션 연구
    • /
    • 통권36호
    • /
    • pp.393-416
    • /
    • 2014
  • 만화의 구성요소는 칸, 칸새, 말칸(말풍선)이다. 말칸은 청각적 요소가 완전히 배제된 회화나 청각적 요소를 적극적으로 내포하고 있는 영화, 애니메이션에서는 나타나지 않는 만화만의 특징적인 요소이다. 그러함에도 불구하고 만화의 연구대상에서 말칸은 소외되어 왔던 것이 사실이다. 몇 안되는 선행연구들에서는 말칸의 형태적 특징과 기능에 대해 분명하게 짚고 있다. 웹툰이 일반화된 현재의 시점에도 이러한 말칸의 특징과 기능들이 그대로 계승되어 사용되어지고 있다. 다만 웹의 환경적인 요소가 만화 연출 전반에 걸쳐 변화를 유도한 부분이 있기 때문에 말칸에도 그 영향이 미치고 있다는 것을 알 수 있다. 웹툰에 나타나는 말칸의 특징으로 분류할 만한 관점은 두 가지로 첫째는 말칸의 배치 문제이다. 웹 공간의 무한확장성은 만화의 칸새를 넓게 활용하는데 용이한 환경을 제공해주고 있다. 그에 따라 말칸도 영향을 받아 그 특징을 이용해서 배치하는 경향이 일정부분 나타나고 있다. 이를 분류해 보면 일반 배치형, 외곽 배치형, 상하 배치형, 스크롤 활용형으로 그 특징을 분류할 수 있다. 이러한 경향은 세로스크롤을 활용해 읽어 들어가는 가독방식에 의해 결정되는 것이다. 둘째는 형태적인 문제로 웹툰의 제작 기법이 디지털화되면서 나타나는 다양한 표현방법에 따라 그만큼 말칸 자체의 형태적 표현의 폭이 넓어진 특징이 있다. 그 외 제작형태에 따라 '칸 외 배치형', '칸 내 배치형'이 존재한다. 이러한 경향은 원고 제작에 있어서 출판형태의 원고를 제작한 뒤 여러 매체에 맞는 연출로 편집하기 때문에 나타나는 현상이다. 편집 시에 매체의 특성을 활용하느냐 원본의 이미지를 그대로 고수하느냐의 판단에 따라 달리 표현되는 것이다. 만화는 본질적인 속성을 유지하면서 각 매체의 특성에 따라 변화되어 적용되는 부분들이 생겨나고 있다. 또한 앞으로도 생겨날 매체의 특성에 따라 그 모습을 변화해 갈 것이다. 기존의 선행연구에 새로이 나타나는 현상에 대해 분석하고 분류하여 기록하는 일은 가치 있는 일이 될 것이고 후행연구의 초석이 될 것이다.

아시아 상황의 영어 공통어 자질 연구: 리듬 특성 (A study on the features of English as a lingua franca in Asian contexts: Rhythmic features)

  • 정현성;이상기;김윤규
    • 말소리와 음성과학
    • /
    • 제8권2호
    • /
    • pp.1-9
    • /
    • 2016
  • This paper investigated the rhythmic features of speakers of English as a lingua franca in Asian contexts. A speech corpus of 150 conversations between speakers of English in Asia with different L1 backgrounds was collected and %V, ${\Delta}V$, VarcoV, and nPVI-V of each speaker were analyzed. It was found that L1 difference of the speakers and the speakers' daily use of English influenced %V, while the speakers' daily use of English influenced ${\Delta}V$. The gender difference of the speakers also affected the rhythm of the utterances in VarcoV. A weak correlation between the two speakers' rhythm in each conversation was also found in %V and ${\Delta}V$. No significant effects were found in nPVI-V. The results revealed that the speakers tended to accommodate the rhythm of their utterance to that of the interlocutors'. Further study on the speaking rate of the speakers is required to overcome some inconsistencies found in the results of the rhythmic metrics used in this study.