• 제목/요약/키워드: AI Speaker

검색결과 73건 처리시간 0.02초

반자율주행 맥락에서 AI 에이전트의 멀티모달 인터랙션이 운전자 경험에 미치는 효과 : 시각적 캐릭터 유무를 중심으로 (The Effect of AI Agent's Multi Modal Interaction on the Driver Experience in the Semi-autonomous Driving Context : With a Focus on the Existence of Visual Character)

  • 서민수;홍승혜;이정명
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.92-101
    • /
    • 2018
  • 대화형 AI 스피커가 보편화되면서 음성인식은 자율주행 상황에서의 중요한 차량-운전자 인터랙션 방식으로 인식되고 있다. 이 연구의 목적은 반자율주행 상황에서 음성뿐만 아니라 AI 캐릭터의 시각적 피드백을 함께 전달하는 멀티모달 인터랙션이 음성 단일 모드 인터랙션보다 사용자 경험 최적화에 효과적인지를 확인하는 것이다. 실험 참가자에게 주행 중 AI 스피커와 캐릭터를 통해 음악 선곡과 조정을 위한 인터랙션 태스크를 수행하게 하고, 정보 및 시스템 품질, 실재감, 지각된 유용성과 용이성, 그리고 지속 사용 의도를 측정하였다. 평균차이 분석 결과, 대부분의 사용자 경험 요인에서 시각적 캐릭터의 멀티모달 효과는 나타나지 않았으며, 지속사용 의도에서도 효과는 나타나지 않았다. 오히려, 정보품질 요인에서 음성 단일 모드가 멀티모달보다 효과적인 것으로 나타났다. 운전자의 인지적 노력이 필요한 반자율주행 단계에서는 멀티모달 인터랙션이 단일 모드 인터랙션에 비해 사용자 경험 최적화에 효과적이지 않았다.

A Design and Implementation of The Deep Learning-Based Senior Care Service Application Using AI Speaker

  • Mun Seop Yun;Sang Hyuk Yoon;Ki Won Lee;Se Hoon Kim;Min Woo Lee;Ho-Young Kwak;Won Joo Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권4호
    • /
    • pp.23-30
    • /
    • 2024
  • 본 논문에서는 딥러닝 기반의 개인 맞춤형 실버세대 케어 서비스 애플리케이션을 설계하고 구현한다. 이 애플리케이션은 사용자의 편의성을 고려하여 STT(Speech to Text) 기술을 사용해 사용자의 발화를 텍스트로 변환하고, 이를 Microsoft 사의 대화형 멀티 에이전트 거대 언어 모델인 Autogen의 입력으로 사용한다. Autogen은 사용자와 ChatBot의 대화 데이터를 활용하여 상대방의 의도를 파악하여 답변에 대하여 응답한다. 그리고 백엔드 에이전트를 활용하여 위시리스트, 공유 달력 그리고 보이스 클로닝을 위한 딥러닝 모델을 통해 상대방의 목소리가 담긴 안부 메시지 기능을 제공한다. 또한, 애플리케이션은 SKT 사의 인공지능 누구(NUGU) 스피커를 탑재하여 홈 IoT 서비스 기능을 제공한다. 이러한 기능을 통해 제안하는 지능형 애플리케이션은 향후 미래 인공지능 기반의 실버세대 케어 기술에 기여할 것이다.

AI 스피커의 기능별 이용 인식과 지속 이용 의도의 차이: 음악, 뉴스, 검색을 중심으로 (Differences in Perceptions of Usage and Intention to Continuous Use of AI Speakers: Focusing on Functions of Music, News, and Search)

  • 김영주;김성태;김형지
    • 한국콘텐츠학회논문지
    • /
    • 제20권11호
    • /
    • pp.644-655
    • /
    • 2020
  • 연구는 오디오 콘텐츠 기반 AI 스피커 이용 인식과 지속 이용 의도를 이용 기능에 따른 차이로 살펴보았다. 구체적으로 AI 스피커 이용기능별(음악 청취, 뉴스 습득, 생활 검색) 이용량을 기준으로 이용 패턴(단일 기능 중심 집단과 다중 기능 중심 집단)구분하고, 이들에 따라 AI 스피커 이용 인식과 지속 이용 의도의 차이를 분석하였다. 분석은 AI 스피커 이용 경험이 있는 성인 남녀 335명을 대상으로 온라인 설문조사 한 응답을 활용하였다. 분석결과는 다음과 같다. 첫째, 남성이 뉴스 습득을 위해 AI 스피커 이용이 많았고, 20대와 40대 이상 간의 뉴스 습득 정도도 차이를 보였다. 둘째, AI 스피커의 유용성과 사용 용이성에 대한 인식은 다중 기능 중심(음악 청취-뉴스 습득-생활 검색) 이용 집단에서 높게 나타났다. 마지막으로 AI 스피커의 지속 이용 의도도 다중 기능 중심 이용집단에서 가장 높게 나타났으며, 음악 청취 기능에 집중된 이용자의 지속 이용 의도가 다른 기능의 이용자에 비해 상대적으로 높다는 사실도 발견했다. 본 연구의 결과는 향후 AI 스피커의 이용 확산과 브랜드별 제공 서비스 전략 수립을 위한 기초자료로 활용될 것을 기대한다.

A study on the usage intention of AI(artificial intelligence) speaker

  • Kwon, Soon-Hong;Lim, Yang-Whan;Kim, Hyun-Jeong
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.199-206
    • /
    • 2020
  • 본 연구에서는 소비자가 인공지능 스피커를 사용하고자 하는 의도에 영향을 미치는 요인을 제품에 대한 가치 지각과 제품 필요성 지각을 중심으로 연구하였다. 소비자의 제품에 대한 가치 지각에 영향을 미치는 요인으로 편익과 비용을 구분하였고, 정보기술 제품이라는 특성을 반영하여 제품에 대한 유용성 지각을 포함시켰다. 실증 연구결과, 인공지능 스피커 제품에 대한 소비자의 편익 지각과 유용성 지각은 가치 지각과 필요성 지각에 각각 정적(+)으로 영향을 미쳤고, 필요성 지각은 가치 지각에 정적(+)으로 유의한 영향을 미쳤으며, 필요성 지각과 가치 지각은 각각 사용 의도에 정적(+)으로 유의한 영향을 미쳤다. 그렇지만, 소비자가 지각하는 비용은 가치 지각에 유의한 영향을 미치지 않았다.

AI 스피커를 활용한 어텐션 메커니즘 기반 멀티모달 우울증 감지 시스템 (Multimodal depression detection system based on attention mechanism using AI speaker)

  • 박준희;문남미
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.28-31
    • /
    • 2021
  • 전세계적으로 우울증은 정신 건강 질환으로써 문제가 되고 있으며, 이를 해결하기 위해 일상생활에서의 우울증 탐지에 대한 연구가 진행되고 있다. 따라서 본 논문에서는 일상생활에 밀접하게 연관되어 있는 AI 스피커를 사용한 어텐션 메커니즘(Attention Mechanism) 기반 멀티모달 우울증 감지 시스템을 제안한다. 제안된 방법은 AI 스피커로부터 수집할 수 있는 음성 및 텍스트 데이터를 수집하고 CNN(Convolutional Neural Network)과 BiLSTM(Bidirectional Long Short-Term Memory Network)를 통해 각 데이터에서의 학습을 진행한다. 학습과정에서 Self-Attention 을 적용하여 특징 벡터에 추가적인 가중치를 부여하는 어텐션 메커니즘을 사용한다. 최종적으로 음성 및 텍스트 데이터에서 어텐션 가중치가 추가된 특징들을 합하여 SoftMax 를 통해 우울증 점수를 예측한다.

  • PDF

어린이집 정보통신설비 구축현황 및 제안 -COVID19 이후 IT기술활용 중심으로- (Construction Status and Proposal for Information Communication Facility of Childcare Center -After COVID19, focusing on IT Technology Utilization-)

  • 이재용;신승중
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권4호
    • /
    • pp.43-50
    • /
    • 2020
  • 이 연구의 목적은 어린이집의 정보통신 설비 구축 사례를 살펴보고, 4차산업 혁명시대를 이끌 수 있는 어린 인재를 육성할 수 있는 교육환경을 제안하고자 한다. 특히 COVID19 이후 어린이들이 개별 맞춤형으로 교육을 받기 적합한 정보통신 환경을 만들고 가능하면 체험형 교육이 가능한 환경을 구축함과 동시에 맞춤학습의 평균화가 가능하도록 할 수 있는 방안을 제안하였다. 이전에 어린이집의 정보통신설비에 대한 연구가 없었기에 시작에 의의를 두고자 하고, 향후 창의적이고 맥락적인 어린이를 육성하는데 스마트스피커와 모바일기기를 통해 교사들의 이동동선을 줄이고 AI데이터를 통해 맞춤형 교육환경을 만드는 방향으로 어린이집 설계가 바뀌어야 한다고 본다. 이를 위해 정보통신 감리의 CM역할이 필요하고 어린이집 관련 연구를 발전시켜 COVID19이후 어린이집 설계 표준이 되길 희망한다.

T커머스 동향 및 발전모델 제안 -방송화면 및 고객데이터 활용중심- (T-commerce Trends and Development Model Proposal -Focusing on Broadcasting Screens and Customer Data Utilization-)

  • 이재용;신승중
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권2호
    • /
    • pp.49-54
    • /
    • 2021
  • 본 연구의 목적은 T커머스 동향을 파악하고 나아가 고객 데이터기반의 서비스를 향상할 수 있는 방안과 IPTV가입자 확대를 계기로 방송화면의 변화에 대한 발전모델을 제안하고자 함이다. TV매체를 통해서 모바일처럼 고객 맞춤형 쇼핑모델을 구현하고 이용고객의 만족도를 향상한다면 고객의 이탈을 줄이고 대화면을 통해 보다 편리한 쇼핑환경을 제공할 수 있을 것이다. 현재 T커머스방송의 현황과 문제점에 대해 알아보고 향후 전망에 대해 기술적으로 일부 검증된 모델에 대해 설명(채널 인 채널, AI스피커)하고 추가적으로 나아가야할 방향(스마트폰 연계서비스 확대, 고객데이터기반의 채널구성)에 대한 기술적 제안과 더불어 법적(방송법과 인터넷멀티미디어사업법) 제약요건에 대해 개선 방향을 이야기해 보고자 한다.

x-vector를 이용한 다화자 음성합성 시스템 (A Multi-speaker Speech Synthesis System Using X-vector)

  • 조민수;권철홍
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.675-681
    • /
    • 2021
  • 최근 인공지능 스피커 시장이 성장하면서 사용자와 자연스러운 대화가 가능한 음성합성 기술에 대한 수요가 증가하고 있다. 따라서 다양한 음색의 목소리를 생성할 수 있는 다화자 음성합성 시스템이 필요하다. 자연스러운 음성을 합성하기 위해서는 대용량의 고품질 음성 DB로 학습하는 것이 요구된다. 그러나 많은 화자가 발화한 고품질의 대용량 음성 DB를 수집하는 것은 녹음 시간과 비용 측면에서 매우 어려운 일이다. 따라서 각 화자별로는 소량의 학습 데이터이지만 매우 많은 화자의 음성 DB를 사용하여 음성합성 시스템을 학습하고, 이로부터 다화자의 음색과 운율 등을 자연스럽게 표현하는 기술이 필요하다. 본 논문에서는 화자인식 기술에서 사용하는 딥러닝 기반 x-vector 기법을 적용하여 화자 인코더를 구성하고, 화자 인코더를 통해 소량의 데이터로 새로운 화자의 음색을 합성하는 기술을 제안한다. 다화자 음성합성 시스템에서 텍스트 입력에서 멜-스펙트로그램을 합성하는 모듈은 Tacotron2로, 합성음을 생성하는 보코더는 로지스틱 혼합 분포가 적용된 WaveNet으로 구성되어 있다. 학습된 화자 임베딩 신경망에서 추출한 x-vector를 Tacotron2에 입력으로 추가하여 원하는 화자의 음색을 표현한다.

인공지능 스피커의 세대별 온라인 리뷰 분석을 통한 사용자 경험 요인 탐색 (Exploring user experience factors through generational online review analysis of AI speakers)

  • 박정은;양동욱;김하영
    • 한국융합학회논문지
    • /
    • 제12권7호
    • /
    • pp.193-205
    • /
    • 2021
  • 인공지능 스피커 시장은 꾸준히 성장하고 있지만, 실제 스피커 사용자들의 만족도는 42%에 그치고 있다. 따라서, 본 연구에서는 인공지능 스피커의 세대별 토픽 변화와 감성 변화를 통해 사용자 경험을 저해하는 요소는 무엇인지 분석해 보고자 한다. 이를 위해 아마존 에코 닷 3세대와 4세대 모델에 대한 리뷰를 수집하였다. 토픽모델링 분석 기법을 사용하여 세대별로 리뷰를 이루는 주제 및 주제의 변화를 찾아내고, 딥러닝 기반 감성 분석을 통해 토픽에 대한 사용자 감성이 세대에 따라 어떻게 변화되었는지 살펴보았다. 토픽모델링 결과, 세대별로 5개의 토픽이 도출되었다. 3세대의 경우 스피커의 일반적 속성을 나타내는 토픽은 제품에 긍정적 반응 요인으로 작용했고, 사용자 편의 기능은 부정적 반응 요인으로 작용했다. 반대로 4세대에서는 일반적 속성은 부정적으로, 사용자 편의 기능은 긍정적으로 도출되었다. 이와 같은 분석은 방법론 측면에서 어휘적 특징뿐 아니라 문장 전체의 문맥적 특징이 고려된 분석결과를 제시할 수 있다는 것에 그 의의가 있다.

Voice Command-based Prediction and Follow of Human Path of Mobile Robots in AI Space

  • Tae-Seok Jin
    • 한국산업융합학회 논문집
    • /
    • 제26권2_1호
    • /
    • pp.225-230
    • /
    • 2023
  • This research addresses sound command based human tracking problems for autonomous cleaning mobile robot in a networked AI space. To solve the problem, the difference among the traveling times of the sound command to each of three microphones has been used to calculate the distance and orientation of the sound from the cleaning mobile robot, which carries the microphone array. The cross-correlation between two signals has been applied for detecting the time difference between two signals, which provides reliable and precise value of the time difference compared to the conventional methods. To generate the tracking direction to the sound command, fuzzy rules are applied and the results are used to control the cleaning mobile robot in a real-time. Finally the experiment results show that the proposed algorithm works well, even though the mobile robot knows little about the environment.