• 제목/요약/키워드: AI Speaker

검색결과 73건 처리시간 0.024초

인공지능(AI) 스피커에 대한 사회구성 차원의 발달과정 연구: 제품과 시기별 공진화 과정을 중심으로 (A study of Artificial Intelligence (AI) Speaker's Development Process in Terms of Social Constructivism: Focused on the Products and Periodic Co-revolution Process)

  • 차현주;권상희
    • 인터넷정보학회논문지
    • /
    • 제22권1호
    • /
    • pp.109-135
    • /
    • 2021
  • 본 연구는 전통뉴스 보도에 나타난 인공지능(AI)스피커 뉴스 텍스트 분석을 통해 인공지능(AI) 스피커 발달과정을 분류하고 시기별 제품별 특성을 파악하였다. 또한 AI 스피커 사업자 제품별 뉴스 보도와 시기별 뉴스 보도간의 상관관계를 분석하였다. 분석에 사용된 이론적 배경은 뉴스의 프레임과 토픽프레임이다. 분석방법으로는 LDA 방식을 활용한 토픽모델링(Topic Modeling)과 의미연결망분석이 사용되었으며, 추가로 'UCINET'중 QAP분석을 적용하였다. 연구방법은 내용분석 방법으로 2014년부터 2019년까지 AI 스피커 관련 2,710건의 뉴스를 1차로 수집하였고, 2차적으로 Nodexl 알고리즘을 이용하여 토픽프레임을 분석하였다. 분석 결과 첫째, AI 스피커 사업자 유형별 토픽 프레임의 경향은 4개 사업자(통신사업자, 온라인 플랫폼, OS 사업자, IT디바이스 생산업자) 특성에 따라 다르게 나타났다. 구체적으로, 온라인 플랫폼 사업자(구글, 네이버, 아마존, 카카오)와 관련한 프레임은 AI 스피커를 '검색 또는 입력 디바이스'로 사용하는 프레임의 비중이 높았다. 반면 통신 사업자(SKT, KT)는 모회사의 주력 사업인 IPTV, 통신 사업의 '보조 디바이스' 관련한 프레임이 두드러지게 나타났다. 나아가 OS 사업자(MS, 애플)는 '제품의 의인화 및 음성 서비스' 프레임이 두드러지게 보였으며, IT 디바이스 생산업자(삼성)는 '사물인터넷(IoT) 종합지능시스템'과 관련한 프레임이 두드러지게 나타났다. 둘째, AI 스피커 시기별(연도별) 토픽 프레임의 경향은 1기(2014-2016년)에는 AI 기술 중심으로 발달하는 경향을 보였고, 2기(2017-2018년)에는 AI 기술과 이용자 간의 사회적 상호 작용과 관련되어 있었으며, 3기(2019년)에는 AI 기술 중심에서 이용자 중심으로 전환되는 경향을 나타냈다. QAP 분석 결과, AI 스피커 발달에서 사업자별과 시기별 뉴스 프레임이 미디어 담론의 결정요인에 의해 사회적으로 구성되는 것을 알 수 있었다. 본연구의 함의는 AI 스피커 진화는 사업자별, 발달시기별로 모회사 기업의 특성과 이용자 간의 상호작용으로 인한 공진화 과정이 나타냄을 발견할 수 있었다. 따라서 본 연구는 AI 스피커의 향후 전망을 예측하고 그에 따른 방향성을 제시하는 데 중요한 시사점을 제공한다.

음성 입출력을 이용한 센서 제어 및 정보 획득 (Sensor Control and Aquisition Information Using Voice I/O)

  • 윤형진;이창우
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.495-496
    • /
    • 2018
  • 점점 더 회사들에서 인공지능 스피커를 내놓고 있는 가운데 스피커의 가격은 누군가에게는 부담이 될 수 있는 가격이 되었다. 약간의 전공지식과 손재주를 가지고 있다면 본인이 직접 입맛에 맞게 집안의 센서정보와 환경정보를 획득하는 AI 스피커를 만드는 일이 어렵지 않다. 그래서 본 논문에서는 라즈베리파이와 Google Cloud Speech(GCS), Naver의 Clova Speech Synthesis(CSS) API를 이용하여 인공지능 스피커를 구현한다.

  • PDF

스마트 스피커의 교육적 활용에 관한 연구 (A Study on the Educational Uses of Smart Speaker)

  • 장지연
    • 한국융합학회논문지
    • /
    • 제10권11호
    • /
    • pp.33-39
    • /
    • 2019
  • 교육업계에 교육과 정보기술(IT)을 융합한 '에듀테크' 바람이 불고 있다. 4차 산업혁명 핵심 기술이 최근 교육 분야에 적극 활용되고 있는데 학습자들은 인공지능 기반 학습 플랫폼을 이용해 자신이 부족한 부분을 스스로 진단하고, 클라우드 학습 플랫폼으로 온라인상에서 개인 맞춤형 교육을 받는다. 최근 인공지능 기술과 음성인식 기술을 접목한 스마트 스피커와 같은 새로운 교육 매체가 등장하게 되어 다양한 교육서비스가 시도되고 있다. 본 연구에서는 기존 교육의 한계를 극복하기 위해 스마트 스피커를 교육적으로 활용하는 방안을 제시하고자 하였다. 이를 위해 스마트 스피커의 개념 및 특성을 알아보고 스마트 스피커에서 제공하는 콘텐츠를 분석하여 시사점을 도출하였다. 또한 스마트 스피커이용의 문제점에 대해서도 고찰하였다.

SNA를 이용한 AI 스피커 지속적 사용에 영향을 미치는 요인 분석 연구: 아마존 에코 리뷰 중심으로 (A Study on the Factors Affecting Continuous Use of AI Speaker Using SNA)

  • 김영범;차경진
    • 한국전자거래학회지
    • /
    • 제26권4호
    • /
    • pp.95-118
    • /
    • 2021
  • 최근 AI 스피커 시장의 규모가 급속도 커지면서 AI 스피커의 다양한 활용 가능성이 크게 주목받고 있다. 소비자들이 다양한 채널을 통해 제품을 사용한 경험을 표현하고 공유하는 환경을 만들어 졌고, 그로 인하여 소비자가 제품을 이용한 경험에 대한 다양하고 솔직한 생각을 남긴 리뷰들의 양이 방대해졌는데, 이러한 리뷰데이터는 소비자의 생각을 분석하는 데에 매우 유용하다고 할 수 있다. 본 연구에서는 이 리뷰데이터를 활용하여 AI 스피커 지속적인 사용에 영향을 미치는 요인에 대하여 분석하고자 하였다. 무엇보다 선행연구를 통하여 도출된 AI 사용의도에 영향을 미치는 7가지 요인들이 실제로 소비자들이 남기는 리뷰에서도 나타나는 요인인지를 확인하고자 하였다. 이를 위해, Amazon.com의 아마존 에코 제품에 대한 고객 리뷰데이터를 기반으로 하여 텍스트마이닝과 사회관계망 분석을 활용하여 분석하였다. 리뷰데이터를 긍정리뷰와 부정리뷰로 분류하고 전처리하여 도출된 단어들 간 연결성을 중심으로 AI 스피커의 지속적인 사용에 영향을 미치는 요인을 분류하고자 연결 중심성 분석을 하였으며, 이를 통해 연결성의 위치가 비슷한 단어들 간 분류를 하기 위하여 CONCOR 분석을 하였다. 긍정 리뷰 연구 결과, 소비자들은 AI 스피커 지속적 사용에 영향을 미치는 요인으로 의인화와 친밀성을 가장 중요하게 보았다. 이 두 요인들은 다른 요인들과도 강한 연결 관계를 보여주었고, 선행연구에서 도출된 요인 외에 연결성도 중요한 요인임을 도출하였다. 또한 추가적으로 부정적인 리뷰 분석 결과, 인식오류와 호환성이 AI 스피커 사용에 있어서 소비자들에게 부정적인 영향을 주는 주요 요인들로 도출되었다. 이러한 연구 결과를 토대로 본 연구에서는 소비자들이 아마존 에코 제품을 지속적으로 사용하게 하는 구체적인 방법에 대하여 제시하고자 한다.

화자식별 기반의 AI 음성인식 서비스에 대한 사이버 위협 분석 (Cyber Threats Analysis of AI Voice Recognition-based Services with Automatic Speaker Verification)

  • 홍천호;조영호
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.33-40
    • /
    • 2021
  • 음성인식(ASR: Automatic Speech Recognition)은 사람의 말소리를 음성 신호로 분석하고, 문자열로 자동 변화하여 이해하는 기술이다. 초기 음성인식 기술은 하나의 단어를 인식하는 것을 시작으로 두 개 이상의 단어로 구성된 문장을 인식하는 수준까지 진화하였다. 실시간 음성 대화에 있어 높은 인식률은 자연스러운 정보전달의 편리성을 극대화하여 그 적용 범위를 확장하고 있다. 반면에, 음성인식 기술의 활발한 적용에 따라 관련된 사이버 공격과 위협에 대한 우려 역시 증가하고 있다. 기존 연구를 살펴보면, 자동화자식별(ASV: Automatic Speaker Verification) 기법의 고안과 정확성 향상 등 기술 발전 자체에 관한 연구는 활발히 이루어지고 있으나, 실생활에 적용되고 있는 음성인식 서비스의 자동화자 식별 기술에 대한 사이버 공격 및 위협에 관한 분석연구는 다양하고 깊이 있게 수행되지 않고 있다. 본 연구에서는 자동화자 식별 기술을 갖춘 AI 음성인식 서비스를 대상으로 음성 주파수와 음성속도를 조작하여 음성인증을 우회하는 사이버 공격 모델을 제안하고, 상용 스마트폰의 자동화자 식별 체계를 대상으로 실제 실험을 통해 사이버 위협을 분석한다. 이를 통해 관련 사이버 위협의 심각성을 알리고 효과적인 대응 방안에 관한 연구 관심을 높이고자 한다.

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템 (One-shot multi-speaker text-to-speech using RawNet3 speaker representation)

  • 한소희;엄지섭;김회린
    • 말소리와 음성과학
    • /
    • 제16권1호
    • /
    • pp.67-76
    • /
    • 2024
  • 최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.

중년 고령자를 위한 AI 스피커 대화 인터랙션의 방향성 연구 (A Study on the Direction of AI Speaker Conversation Interaction for Middle-aged Elderly)

  • 윤소연;하광수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.23-24
    • /
    • 2019
  • 본 연구는 AI스피커 대화 인터랙션분석을 통해 중년 고령자를 위한 AI 스피커의 연구 방향을 제시하고자 하였다. 그 과정에서 고령자의 일반적 노화 특성 및 의사소통 특성, 사회적 특성을 기준으로 현재 상용화 된 스피커의 대화 인터랙션 방식을 비교 분석 하였다. 앞으로 중년 고령자를 위한 AI스피커에서 대화 인터랙션의 방향에 대해 제시하였다.

  • PDF

Food Media Content Study for an AI Smart Speaker

  • Kim, Kyoung-Ah
    • Journal of Multimedia Information System
    • /
    • 제6권4호
    • /
    • pp.197-202
    • /
    • 2019
  • Society advances through technology, and technology has changed many lifestyles. The need for food is varying, but the availability of food is constantly changing as trends in production change. Combining the food industry and technology, a robot that delivers food and also cooks it has been developed. The time has come for a combination of food content and technology to advance the restaurant industry. This study discusses the application of a recommended food content media providing system using a curation engine that recommends contents according to individual tastes and preferences for the convenience of those who use food contents, using artificial intelligence speakers. We discuss the technologies required to develop video contents optimized for AI speakers with screens and shapes, combined with inset top boxes.

텍스트 마이닝을 활용한 스마트 스피커 제품의 포지셔닝: 인공지능 속성을 중심으로 (Positioning of Smart Speakers by Applying Text Mining to Consumer Reviews: Focusing on Artificial Intelligence Factors)

  • 이정현;선형주;이홍주
    • 지식경영연구
    • /
    • 제21권1호
    • /
    • pp.197-210
    • /
    • 2020
  • The smart speaker includes an AI assistant function in the existing portable speaker, which enables a person to give various commands using a voice and provides various offline services associated with control of a connected device. The speed of domestic distribution is also increasing, and the functions and linked services available through smart speakers are expanding to shopping and food orders. Through text mining-based customer review analysis, there have been many proposals for identifying the impact on customer attitudes, sentiment analysis, and product evaluation of product functions and attributes. Emotional investigation has been performed by extracting words corresponding to characteristics or features from product reviews and analyzing the impact on assessment. After obtaining the topic from the review, the effect on the evaluation was analyzed. And the market competition of similar products was visualized. Also, a study was conducted to analyze the reviews of smart speaker users through text mining and to identify the main attributes, emotional sensitivity analysis, and the effects of artificial intelligence attributes on product satisfaction. The purpose of this study is to collect blog posts about the user's experiences of smart speakers released in Korea and to analyze the attitudes of customers according to their attributes. Through this, customers' attitudes can be identified and visualized by each smart speaker product, and the positioning map of the product was derived based on customer recognition of smart speaker products by collecting the information identified by each property.

Proposal for a Sensory Integration Self-system based on an Artificial Intelligence Speaker for Children with Developmental Disabilities: Pilot Study

  • YeJin Wee;OnSeok Lee
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권4호
    • /
    • pp.1216-1233
    • /
    • 2023
  • Conventional occupational therapy (OT) is conducted under the observation of an occupational therapist, and there are limitations in measuring and analyzing details such as degree of hand tremor and movement tendency, so this important information may be lost. It is therefore difficult to identify quantitative performance indicators, and the presence of observers during performance sometimes makes the subjects feel that they have to achieve good results. In this study, by using the Unity3D and artificial intelligence (AI) speaker, we propose a system that allows the subjects to steadily use it by themselves and helps the occupational therapist objectively evaluate through quantitative data. This system is based on the OT of the sensory integration approach. And the purpose of this system is to improve children's activities of daily living by providing various feedback to induce sensory integration, which allows them to develop the ability to effectively use their bodies. A dynamic OT cognitive assessment tool for children used in clinical practice was implemented in Unity3D to create an OT environment of virtual space. The Leap Motion Controller allows users to track and record hand motion data in real time. Occupational therapists can control the user's performance environment remotely by connecting Unity3D and AI speaker. The experiment with the conventional OT tool and the system we proposed was conducted. As a result, it was found that when the system was performed without an observer, users can perform spontaneously and several times feeling ease and active mind.