• 제목/요약/키워드: Emotional voice

검색결과 114건 처리시간 0.022초

색면추상 기법을 통한 AI 스피커의 상태 시각화 디자인 연구 (State Visualization Design of AI Speakers using Color Field Painting)

  • 홍승윤;최종훈
    • 한국콘텐츠학회논문지
    • /
    • 제20권2호
    • /
    • pp.572-580
    • /
    • 2020
  • 최근 출시된 AI스피커들은 사용자와의 인터랙션에 있어 주로 음성으로 상호작용하면서 상태 표시LED를 통해 단순하고 정형화된 시각 피드백을 하는 패턴을 보이고 있다. 이는 스피커라는 제품 특성상 인터랙션의 제약이 많기 때문이기도 하지만 이러한 시각적 피드백마저 제품마다 통일되어 있지 않아 사용자에게 일관된 경험을 주지 못하고 있는 상황이다. LED 표시등으로 표현할 수 있는 시각 요소를 극대화하여 색과 추상적 움직임을 통해 음성 피드백을 보조한다면 사용자에게 기능성의 충족을 넘어 감성적 만족까지 포함하는 확장된 사용 경험을 제공할 수 있을 것이다. 본 연구에서는 기존 AI스피커들의 인터랙션 방식 분석 후, 시각 피드백 효과 확장을 위해 색채 커뮤니케이션 이론에 대해 고찰하고, 색채만으로 감성적 경험을 극대화한 미술 장르인 색면추상의 의미와 표현 기법을 조사하였다. 이를 통해 LED를 이용하여 커뮤니케이션 상태를 피드백하는 방식을 디자인함으로써 AI스피커의 시각 커뮤니케이션 기능성을 확장하고자 하였다.

Hi, KIA! 기계 학습을 이용한 기동어 기반 감성 분류 (Hi, KIA! Classifying Emotional States from Wake-up Words Using Machine Learning)

  • 김태수;김영우;김근형;김철민;전형석;석현정
    • 감성과학
    • /
    • 제24권1호
    • /
    • pp.91-104
    • /
    • 2021
  • 본 연구에서는 승용차에서 사람들이 기기를 사용하기 위해 사용하는 기동어인 "Hi, KIA!"의 감성을 기계학습을 기반으로 분류가 가능한가에 대해 탐색하였다. 감성 분류를 위해 신남, 화남, 절망, 보통 총 4가지 감정별로 3가지 시나리오를 작성하여, 자동차 운전 상황에서 발생할 수 있는 12가지의 사용자 감정 시나리오를 제작하였다. 시각화 자료를 기반으로 총 9명의 대학생을 대상으로 녹음을 진행하였다. 수집된 녹음 파일의 전체 문장에서 기동어 부분만 별도로 추출하는 과정을 거쳐, 전체 문장 파일, 기동어 파일 총 두 개의 데이터 세트로 정리되었다. 음성 분석에서는 음향 특성을 추출하고 추출된 데이터를 svmRadial 방법을 이용하여 기계 학습 기반의 알고리즘을 제작해, 제작된 알고리즘의 감정 예측 정확성 및 가능성을 파악하였다. 9명의 참여자와 4개의 감정 카테고리를 통틀어 기동어의 정확성(60.19%: 22~81%)과 전체 문장의 정확성(41.51%)을 비교했다. 또한, 참여자 개별로 정확도와 민감도를 확인하였을 때, 성능을 보임을 확인하였으며, 각 사용자 별 기계 학습을 위해 선정된 피쳐들이 유사함을 확인하였다. 본 연구는 기동어만으로도 사용자의 감정 추출과 보이스 인터페이스 개발 시 기동어 감정 파악 기술이 잠재적으로 적용 가능한데 대한 실험적 증거를 제공할 수 있을 것으로 기대한다.

노화에 따른 음질과 구어 유창성의 음향학적 특성 변화 (Change in acoustic characteristics of voice quality and speech fluency with aging)

  • 박희준;박진
    • 말소리와 음성과학
    • /
    • 제15권4호
    • /
    • pp.45-51
    • /
    • 2023
  • 나이가 들면서 발생하는 음성 문제는 사회적, 정서적으로 영향을 미칠 수 있으며, 나아가 고립감과 우울증으로 이어질 수 있다. 이에 본 연구에서는 노화로 인한 음향학적 특성 변화를 음질과 구어 유창성의 변화를 알아보고자 한다. 이를 위해 노년층 남성 20명과 청년층 남성 20명이 산출한 연장발성과 구절 읽기 과제를 녹음하여 분석하였다. 음질 분석 변수로 기본주파수(F0), 주기 변동률(jitter), 진폭 변동률(shimmer), 켑스트럼 정점(cepstral peak prominence, CPP) 값을 분석하였으며 구어 유창성 분석 변수로는 평균 음절 길이(average syllable duration, ASD), 조음 속도(articulation rate, AR), 구어 속도(SR)를 분석하였다. 연구결과, 음질 측정에서 노년층의 경우 F0가 높게 나타났으며 jitter, shimmer, CPP의 결과값을 통해 음질이 저하된 것으로 나타났다. 구어 유창성 분석 결과, 노년층은 ASD, AR, SR의 결과값을 통해 느리게 발화하는 것으로 나타났다. 음질과 구어유창성 간 상관관계 분석 결과, shimmer와 CPP 값과 각각 ASD와 SR에서 높은 상관관계가 나타났다. 본 연구결과를 통해 노화에 따른 음성과 구어 유창성 변화를 조기에 발견하고 이에 대한 적절한 훈련법을 제공할 수 있을 것으로 기대된다.

청각 환경이 구강안면 통증환자의 음성 파라미터에 미치는 영향 (The Effect of Auditory Condition on Voice Parameter of Orofacial Pain Patient)

  • 이주영;백광현;홍정표
    • Journal of Oral Medicine and Pain
    • /
    • 제30권4호
    • /
    • pp.427-432
    • /
    • 2005
  • 본 연구는 구강안면통증 환자의 음성적 특징과 청각 환경에 따른 음성적 변화를 살펴보기 위한 것이다. 구강안면통증 환자 29명과 정상인 31명을 대상으로 그들의 일반 음성과 청각 조건(소음, 음악)에서의 음성 파라미터들을 비교 분석하여 다음과 같은 결론을 얻을 수 있었다. 1. 구강안면통증 환자는 정상인의 음성과 비교해 낮은 F0(Hz) 값과 높은 jitter(%), shimmer(%)값을 가져 정상인에 비해 낮고 불안정한 음성 특징(feature)을 나타내었다. 2. 구강안면통증 환자의 음성은 소음 환경과 비교해 음악 환경에서 낮은 F0(Hz)값과 shimmer(%)값을 가져 보다 이완되고 안정된 음성 특징을 나타내었다. 3. 정상인의 음성은 소음 환경에서 높은 F0(Hz)값을 가졌으나 음악, 소음 환경에 따른 특징적인 차이를 나타내지 않았다. 이상의 결과를 통해 구강안면통증 환자는 정상인의 음성과 비교해 특징적인 차이를 보였으며 외부적인 청각 환경에도 다른 반응 양상을 나타내었다. 따라서 구강안면통증 환자들의 기능적 장애를 보다 효율적으로 치료하기 위해서는 음악과 같은 긍정적인 정서 환경이 제공되어야 할 것으로 사료된다.

양성 성대 질환 환자의 후두 미세 수술 전후 음성 장애 지수 및 음성 분석의 유용성 (Validity of Voice Handicap Index and Voice Analysis following Laryngeal Microsurgery for Benign Vocal Cord Lesions)

  • 박영학;이정학;주영훈;박성신;방충일;김민식;조승호
    • 대한후두음성언어의학회지
    • /
    • 제16권1호
    • /
    • pp.23-27
    • /
    • 2005
  • Background and Objectives : Voice disorders can cause problems in patients with benign vocal cord lesions emotionally, physically, economically and functionally. Neither subjective nor objective voice examinations can evaluate such factors adequately. The Voice Handicap Index (VHI) subjectively evaluates voice disorders in terms of physical, functional, emotional factors and measures the patient's perception of the impact of voice disorder. The purpose of this study is to evaluate the usefulness of VHI in the patients with benign vocal cord lesions. Materials and Method : The authors evaluated 37 patients who experienced laryngeal microsurgery for benign vocal cord lesions from september 2003 to August 2004. The VHI was used to measure the postoperative changes of the patient's perception and acoustic analysis and aerodynamic tests were also done. Statistical analysis was done using paired t-test and Pearson's correlation. Results : The VHI scores showed statistically significant reductions postoperatively. In acoustic analysis, jitter and shimmer had statistically significant reductions after surgery but noise-to-harmonics ratio did not. A statistically significant change in the average MFR and MPT perioperatively was found. The relationship between VHI and acoustic, aerodynamic analysis attained statistical significance. Conclusion : The VHI is a useful assessment tool to monitor the patient's self-perception of voice change after the surgery of benign vocal cord lesions. The VHI measurement, when combined with acoustic and aerodynamic analyses, will be helpful in comparing functional outcomes after voice surgery.

  • PDF

Personal Credit Evaluation System through Telephone Voice Analysis: By Support Vector Machine

  • 박형우
    • 인터넷정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.63-72
    • /
    • 2018
  • 인간의 목소리는 사람간의 정보 전달을 위한 가장 쉬운 방법 중 하나이다. 음성의 특징은 사람마다 다를 수 있으며 발성 속도, 발성기관의 형태와 기능, 피치 톤, 언어 습관 및 성별에 따라 다르게 나타난다. 목소리는 사람의 의사소통 핵심 요소이다. 제 4 차 산업 혁명의 시대에 목소리는 사람과 사람, 사람과 기계, 기계 와 기계 사이의 주요한 의사소통 수단이 된다. 그 이유 때문에 사람들은 자신의 의도를 다른 사람들에게 명확하게 전달하려고 노력한다. 그리고 이 과정에서 목소리는 언어 정보와 함께 다양한 추가 정보가 포함되게 된다. 예를 들어 감정 상태, 건강 상태, 신뢰도와 관련되거나, 거짓말의 여부, 음주로 인한 목소리의 변화 등 다양한 언어 및 비언어 정보를 포함하며, 다양한 분석 파라미터로 나타나게 된다. 이를 활용하면 개인의 신용도를 평가하는 척도로 사용할 수 있다. 특히 성대의 기본 주파수의 특성과 성도의 공진 주파수 특성의 관계를 분석함으로써 얻을 수 있다. 이전의 연구에서 다양한 신용 상태의 변화에 따른 목소리 분석 및 특성 변화를 연구 하였다. 본 연구에서는 음성을 통해 추출 된 매개 변수를 통해 기계 학습을 통한 개인 신용 판별 기를 제안한다.

An Equal Pair: The Dialogic Narrative Scheme in Bleak House

  • Kim, Myungjin
    • 영어영문학
    • /
    • 제55권6호
    • /
    • pp.993-1011
    • /
    • 2009
  • Generally, the parts narrated by Esther in Bleak House has been considered less convincing and reliable than those by the anonymous narrator for some problematic qualities in her character and narration. However, Esther's narrative shows Dickens' masterly depiction of emotional deprivation, the psychic consequences of the Victorian sexual repression on its victim. Therefore, to restore the reliability of Esther's narrative is the prerequisite for claiming its value as an appropriate locus of the meanings of the text. On the other hand, the anonymous narrator is not so omniscient as he has been regarded. As the chapters proceed, his omniscient power and authority is conspicuously weakened, and even transferred to other characters such as Esther and Mr. Bucket. This shows that the identity of the omniscient voice is unstable and that Dickens does not intend his voice to be the sole center of meanings of the text. In short, these two narratives are the necessary partners in imagining and understanding the society in its wholeness. Alternating and sometimes intersecting each other throughout the novel, these opposing viewpoints make us see the contradictory multi-leveledness of the Victorian society. The equality of them implies Dickens' notion that more than single unified voice is needed to portray ideological conflicts of his age.

역설적 성대운동을 보이는 3명의 환자에 대한 임상분석 (Clinical Evaluation of 3 patients with Paradoxical Vocal Cord Movement)

  • 최선명;임길채;한광우;남순열
    • 대한기관식도과학회지
    • /
    • 제9권1호
    • /
    • pp.83-86
    • /
    • 2003
  • Background and Objectives : Paradoxical vocal cord movement is a series of paroxysmal adduction of the anterior two-thirds of the vocal cords during respiration or during phonation. The choking, stridor, and wheezing in this condition occur primarily on inhalation, rather than on exhalation. The two pathognomonic diagnostic criterias that need to be assessed during an acute presentation are laryngoscopy with direct visualization of paradoxical adduction of the vocal cords and pulmonary function testing. Materials and Methods : A retrospective review of 3 patients who were referred to otolaryngologist from pulmonology department, and were confirmed by typical laryngoscopic findings with paradoxical adduction of the vocal cords was conducted. Results The patients were misdiagnosed as exercised-induced asthma, and unresponsive to corticosteroid and bronchodilators. Improvement was achieved only by diagnosis with paradoxial vocal cord movement. Biofeed back therapy, voice therapy, treatment for reflux laryngitis improved symptoms. Conclusion The etiology of paradoxical vocal cord movement is unknown. It may be functional or emotional. The functional factors that were proposed are neurologic deficit and gastroesophageal reflux. Management methods of this condition consist of psychological counselling, voice therapy, and antireflux medication.

  • PDF

라즈베리 파이 기반의 음성 감정 분석 시스템을 통한 감성적 이미지 색상 전달 (Emotional Image Color Transfer via Voice Emotion Analytics System Based on Raspberry Pi)

  • 김종현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.391-393
    • /
    • 2019
  • 본 논문은 일상적인 대화로부터 감성을 추출하고 분석함으로써 상황에 맞는 대화의 내용과 분위기를 이미지의 색상으로 표현할 수 있는 이미지 색상 변환 프레임워크를 소개한다. 본 연구는 라즈베리 파이와 마이크 센서를 기반으로 사용자로부터 목소리를 입력받을 수 있는 모듈을 제작하고, 그 목소리로부터 감성을 분석한다. 분석된 감성을 이용하여 이미지의 색상을 자동으로 변환하는 기술과 통합함으로써 청각장애인 및 미취학 아동들이 화자의 대화를 이미지를 통해 쉽게 인지하여 의사소통 및 감성 전달 환경을 개선하고자 한다.

  • PDF

Classification of Three Different Emotion by Physiological Parameters

  • Jang, Eun-Hye;Park, Byoung-Jun;Kim, Sang-Hyeob;Sohn, Jin-Hun
    • 대한인간공학회지
    • /
    • 제31권2호
    • /
    • pp.271-279
    • /
    • 2012
  • Objective: This study classified three different emotional states(boredom, pain, and surprise) using physiological signals. Background: Emotion recognition studies have tried to recognize human emotion by using physiological signals. It is important for emotion recognition to apply on human-computer interaction system for emotion detection. Method: 122 college students participated in this experiment. Three different emotional stimuli were presented to participants and physiological signals, i.e., EDA(Electrodermal Activity), SKT(Skin Temperature), PPG(Photoplethysmogram), and ECG (Electrocardiogram) were measured for 1 minute as baseline and for 1~1.5 minutes during emotional state. The obtained signals were analyzed for 30 seconds from the baseline and the emotional state and 27 features were extracted from these signals. Statistical analysis for emotion classification were done by DFA(discriminant function analysis) (SPSS 15.0) by using the difference values subtracting baseline values from the emotional state. Results: The result showed that physiological responses during emotional states were significantly differed as compared to during baseline. Also, an accuracy rate of emotion classification was 84.7%. Conclusion: Our study have identified that emotions were classified by various physiological signals. However, future study is needed to obtain additional signals from other modalities such as facial expression, face temperature, or voice to improve classification rate and to examine the stability and reliability of this result compare with accuracy of emotion classification using other algorithms. Application: This could help emotion recognition studies lead to better chance to recognize various human emotions by using physiological signals as well as is able to be applied on human-computer interaction system for emotion recognition. Also, it can be useful in developing an emotion theory, or profiling emotion-specific physiological responses as well as establishing the basis for emotion recognition system in human-computer interaction.