• 제목/요약/키워드: 음성 떨림

검색결과 5건 처리시간 0.016초

음성 떨림 측정을 위한 AVTI(Acoustic Voice Tremor index)의 개발과 검증 (Acoustic Voice Tremor index in the measurement of voice tremor: Development and validation)

  • 김근효;이연우
    • 말소리와 음성과학
    • /
    • 제16권2호
    • /
    • pp.91-97
    • /
    • 2024
  • 본 연구에서는 음성 떨림의 음향학적 측정을 위해서 AVTI(Acoustic Voice Tremor index)를 개발하고 검증하는 것을 목표로 한다. 정상 성인 71명, 음성 떨림 환자 41명이 참여하였으며, 모음/아 /를 5초 이상 녹음하였다. 모음 안정구간 3초를 편집하여 Praat 스크립트를 이용하여 음성 떨림 관련 18개의 변수 측정값을 확인하였다. 이 변수들과 청지각적 평가 전반적 중증도(overall severity, OS)를 이용하여 선형 회귀분석을 돌려 AVTI를 구성하였다. 선형 회귀분석 결과, 18개 중 4개의 변수가 유의미하게 확인되고 회귀식이 구성되었다. 내부/외부 타당도 조사에서도 평균 0.8 이상의 높은 연관성을 나타내었다. AVTI는 OS와 0.841의 높은 상관관계를 보였다. AVTI를 통해서 음성 떨림을 예측할 수 있었다. 후속 연구에서는 더욱 많은 음성샘플과 보완된 Praat script를 추가 분석해 볼 필요성이 있을 것으로 생각된다.

Wav2vec을 이용한 오디오 음성 기반의 파킨슨병 진단 (Diagnosis of Parkinson's disease based on audio voice using wav2vec)

  • 윤희진
    • 디지털융복합연구
    • /
    • 제19권12호
    • /
    • pp.353-358
    • /
    • 2021
  • 노년기에 접어들면서 알츠하이머 다음으로 흔한 퇴행성 뇌 질환은 파킨슨병이다. 파킨슨병의 증상은 손 떨림, 행동의 느려짐, 인지기능의 저하 등 일상생활의 삶의 질을 저하시키는 요인이 된다. 파킨슨병은 조기진단을 통하여 병의 진행 속도를 늦출 수 있는 질환이다. 파킨슨병의 조기진단을 위해 오디오 음성 파일 입력으로 wav2vec을 이용하여 특징을 추출하고 딥러닝(ANN)으로 파킨슨병의 유무를 진단하는 알고리즘을 구현하였다. 오디오 음성 파일을 이용하여 파킨슨병을 진단하는 실험 결과 정확도는 97.47%로 나타났다. 기존의 뉴럴네트워크를 이용하여 파킨슨병을 진단하는 결과보다 좋은 결과를 나타냈다. 오디오 음성 파일을 wav2vec 이용으로 간단하게 실험을 과정을 줄일 수 있었으며, 실험 결과 향상된 결과를 얻을 수 있었다.

병적인 소리 떨림증과 소리꾼 떨림증의 음향학적인 비교연구 (The comparative Study of the Acoustic Representation between Pansori singer's and Spasmodic dysphonia patient's Voice)

  • 홍기환;김현기;이진국;조재식
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.143-145
    • /
    • 2007
  • Muscle groups that are located in and around the vocal tract can produce audible changes in frequency and/or intensity of the voice. Vocal vibrato is a characteristic feature in the singing of performers trained in the western classical tradition and vibrato is generally considered to result from modulation in frequency amplitude and timbre. Vocal tremor is also characterized by periodic fluctuations in the voice frequency or intensity and vocal tremor is symptom of a neurological disease as Spasmodic dysphonia , Parkinson's disease. Vocal vibrato and Vocal tremor may have many of the same origins and mechanisms in the voice production systems. The purpose of this study is to find acostic character of Korean traditional song Pansori singer's vibrato and Spasmodic dysphonia patient's vocal tremor. twelve Pansori singers and seven Spasmodic dysponia patients participated to this study. Power spectrum and Real time Spectrogram are used to analyze the acoustic characteristics of Pansori singing and Spasmodic dysphonia patient's voice The results are as follows; First, vowel formant differences between Pansori singing and Spasmodic dysphonia patient's voice are higher F1, F3. Second, The vibrato rate show differences between Pansori singing and Spasmodic dysphonia patients;$4^{\sim}6/sec$ and $5{\sim}6/sec$ Vibrato rate of pitch is 5.7 Hz ${\sim}$ 42.4 Hz for Pansori singing , 3.8 Hz ${\sim}$ 27.9 Hz for Spasmodic dysphonia patients ;Vibrato rate of intensity range is 0.07 dB ${\sim}$ 8.26 dB for Pansori singing and 0.07 dB ${\sim}$ 4.81 dB for Spasmodic dysphonia patients

  • PDF

CNN 기반 스펙트로그램을 이용한 자유발화 음성감정인식 (Spontaneous Speech Emotion Recognition Based On Spectrogram With Convolutional Neural Network)

  • 손귀영;권순일
    • 정보처리학회 논문지
    • /
    • 제13권6호
    • /
    • pp.284-290
    • /
    • 2024
  • 음성감정인식(Speech Emotion Recognition, SER)은 사용자의 목소리에서 나타나는 떨림, 어조, 크기 등의 음성 패턴 분석을 통하여 감정 상태를 판단하는 기술이다. 하지만, 기존의 음성 감정인식 연구는 구현된 시나리오를 이용하여 제한된 환경 내에서 숙련된 연기자를 대상으로 기록된 음성인 구현발화를 중심의 연구로 그 결과 또한 높은 성능을 얻을 수 있지만, 이에 반해 자유발화 감정인식은 일상생활에서 통제되지 않는 환경에서 이루어지기 때문에 기존 구현발화보다 현저히 낮은 성능을 보여주고 있다. 본 논문에서는 일상적 자유발화 음성을 활용하여 감정인식을 진행하고, 그 성능을 향상하고자 한다. 성능평가를 위하여 AI Hub에서 제공되는 한국인 자유발화 대화 음성데이터를 사용하였으며, 딥러닝 학습을 위하여 1차원의 음성신호를 시간-주파수가 포함된 2차원의 스펙트로그램(Spectrogram)로 이미지 변환을 진행하였다. 생성된 이미지는 CNN기반 전이학습 신경망 모델인 VGG (Visual Geometry Group) 로 학습하였고, 그 결과 7개 감정(기쁨, 사랑스러움, 화남, 두려움, 슬픔, 중립, 놀람)에 대해서 성인 83.5%, 청소년 73.0%의 감정인식 성능을 확인하였다. 본 연구를 통하여, 기존의 구현발화기반 감정인식 성능과 비교하면, 낮은 성능이지만, 자유발화 감정표현에 대한 정량화할 수 있는 음성적 특징을 규정하기 어려움에도 불구하고, 일상생활에서 이루어진 대화를 기반으로 감정인식을 진행한 점에서 의의를 두고자 한다.

다목적 공간의 소음 및 실내음향 제어 (Noise and Rooms Acoustic Control in Multi-Purpose Space)

  • 정정호;김정중;조창근
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2008년도 춘계학술대회논문집
    • /
    • pp.42-45
    • /
    • 2008
  • 다목적 공간 및 공연장은 공연 또는 강연을 위한 공간뿐만 아니라 상점, 식당 및 체육 공간 등 다양한 용도의 공간이 인접되고 있다. 다양한 공간이 인접할 경우 기존의 다목적 공연장에서는 발생하지 않았던 다양한 소음 진동 문제들이 발생한다. 본 연구는 강연 및 공연을 위한 다목적 공간 상부에 식당 및 체육 시설로 활용되는 공간이 배치되어 바닥충격음 문제가 발생할 가능성이 있었다. 바닥충격음의 강당으로의 전달을 차단하기 위하여 기본 구조체에 대한 바닥충격음 차단성능을 측정하여 적절한 저감 대책을 수립하였다. 저감대책으로는 상층부 철골 슬래브와 강당의 철골 구조의 구조적 분리, 유연한 마감재 적용, 슬래브로의 충격진동 차단을 위한 제진재 적용, 이중천장 구조 및 천장내부 흡음구조 형성 등의 종합적인 대책을 수립하였다. 이를 통해 경량충격음 및 중량충격음을 효율적으로 차단하였다. 또한 강당 공간은 강연 및 집회의 공간으로 활용될 수 있도록 하기 위하여 적절한 잔향시간 및 음성 명료도 확보가 필요하다. 플러터 에코, 과도한 잔향시간, 음의 사각지대 등을 최소화하기 위하여 측벽 형태 개선, 천장 반사판 형태를 개선하였다. 또한 측벽에서 진동 등의 영향으로 발생되는 떨림현상을 억제하기 위하여 측벽 내부를 흡음재로 충전하는 등의 대책을 수립하여 적용하였다.

  • PDF