• 제목/요약/키워드: AI Voice Recognition Speaker

검색결과 11건 처리시간 0.027초

화자식별 기반의 AI 음성인식 서비스에 대한 사이버 위협 분석 (Cyber Threats Analysis of AI Voice Recognition-based Services with Automatic Speaker Verification)

  • 홍천호;조영호
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.33-40
    • /
    • 2021
  • 음성인식(ASR: Automatic Speech Recognition)은 사람의 말소리를 음성 신호로 분석하고, 문자열로 자동 변화하여 이해하는 기술이다. 초기 음성인식 기술은 하나의 단어를 인식하는 것을 시작으로 두 개 이상의 단어로 구성된 문장을 인식하는 수준까지 진화하였다. 실시간 음성 대화에 있어 높은 인식률은 자연스러운 정보전달의 편리성을 극대화하여 그 적용 범위를 확장하고 있다. 반면에, 음성인식 기술의 활발한 적용에 따라 관련된 사이버 공격과 위협에 대한 우려 역시 증가하고 있다. 기존 연구를 살펴보면, 자동화자식별(ASV: Automatic Speaker Verification) 기법의 고안과 정확성 향상 등 기술 발전 자체에 관한 연구는 활발히 이루어지고 있으나, 실생활에 적용되고 있는 음성인식 서비스의 자동화자 식별 기술에 대한 사이버 공격 및 위협에 관한 분석연구는 다양하고 깊이 있게 수행되지 않고 있다. 본 연구에서는 자동화자 식별 기술을 갖춘 AI 음성인식 서비스를 대상으로 음성 주파수와 음성속도를 조작하여 음성인증을 우회하는 사이버 공격 모델을 제안하고, 상용 스마트폰의 자동화자 식별 체계를 대상으로 실제 실험을 통해 사이버 위협을 분석한다. 이를 통해 관련 사이버 위협의 심각성을 알리고 효과적인 대응 방안에 관한 연구 관심을 높이고자 한다.

시각장애인의 라이프 사이클을 지원하는 인공지능 웨어러블 플랫폼 (Artificial intelligence wearable platform that supports the life cycle of the visually impaired)

  • 박시웅;김정은;강현서;박형준
    • Journal of Platform Technology
    • /
    • 제8권4호
    • /
    • pp.20-28
    • /
    • 2020
  • 본 논문에서는 시각장애인의 라이프 사이클을 사전에 학습하여 시각장애인의 자립생활을 돕는 적정기술로 음성인식 기반 스마트 웨어러블 디바이스, 스마트 기기 및 웹 AI서버를 포함하는 음성, 사물 및 문자 인식 플랫폼을 제안하였다. 시각장애인용 웨어러블 기기는 착용편의성과 사물인식기능 효율을 높이기 위해 리버스 넥밴드 구조로 설계하여 제작하였으며, 웨어러블 기기에 부착된 고감도 소형 마이크와 스피커는 웨어러블 기기와 연동된 스마트기기의 앱으로 구성된 음성인식 인터페이스 기능을 지원하도록 구성하였다. 음성, 사물 및 광학문자 인식 서비스는 웹 AI 서버에서 오픈소스 및 구글 API를 활용하였고, 서비스 플랫폼의 음성, 사물 및 광학문자 인식 정밀도는 실험을 통하여 평균 90%이상 달성하였음을 확인하였다.

  • PDF

스마트 스피커의 교육적 활용에 관한 연구 (A Study on the Educational Uses of Smart Speaker)

  • 장지연
    • 한국융합학회논문지
    • /
    • 제10권11호
    • /
    • pp.33-39
    • /
    • 2019
  • 교육업계에 교육과 정보기술(IT)을 융합한 '에듀테크' 바람이 불고 있다. 4차 산업혁명 핵심 기술이 최근 교육 분야에 적극 활용되고 있는데 학습자들은 인공지능 기반 학습 플랫폼을 이용해 자신이 부족한 부분을 스스로 진단하고, 클라우드 학습 플랫폼으로 온라인상에서 개인 맞춤형 교육을 받는다. 최근 인공지능 기술과 음성인식 기술을 접목한 스마트 스피커와 같은 새로운 교육 매체가 등장하게 되어 다양한 교육서비스가 시도되고 있다. 본 연구에서는 기존 교육의 한계를 극복하기 위해 스마트 스피커를 교육적으로 활용하는 방안을 제시하고자 하였다. 이를 위해 스마트 스피커의 개념 및 특성을 알아보고 스마트 스피커에서 제공하는 콘텐츠를 분석하여 시사점을 도출하였다. 또한 스마트 스피커이용의 문제점에 대해서도 고찰하였다.

Design and Implementation of Context-aware Application on Smartphone Using Speech Recognizer

  • Kim, Kyuseok
    • 한국정보기술학회 영문논문지
    • /
    • 제10권2호
    • /
    • pp.49-59
    • /
    • 2020
  • As technologies have been developing, our lives are getting easier. Today we are surrounded by the new technologies such as AI and IoT. Moreover, the word, "smart" is a very broad one because we are trying to change our daily environment into smart one by using those technologies. For example, the traditional workplaces have changed into smart offices. Since the 3rd industrial revolution, we have used the touch interface to operate the machines. In the 4th industrial revolution, however, we are trying adding the speech recognition module to the machines to operate them by giving voice commands. Today many of the things are communicated with human by voice commands. Many of them are called AI things and they do tasks which users request and do tasks more than what users request. In the 4th industrial revolution, we use smartphones all the time every day from the morning to the night. For this reason, the privacy using phone is not guaranteed sometimes. For example, the caller's voice can be heard through the phone speaker when accepting a call. So, it is needed to protect privacy on smartphone and it should work automatically according to the user context. In this aspect, this paper proposes a method to adjust the voice volume for call to protect privacy on smartphone according to the user context.

인공지능 속성에 대한 고객 태도 변화: AI 스피커 고객 리뷰 분석을 통한 탐색적 연구 (Customer Attitude to Artificial Intelligence Features: Exploratory Study on Customer Reviews of AI Speakers)

  • 이홍주
    • 지식경영연구
    • /
    • 제20권2호
    • /
    • pp.25-42
    • /
    • 2019
  • AI speakers which are wireless speakers with smart features have released from many manufacturers and adopted by many customers. Though smart features including voice recognition, controlling connected devices and providing information are embedded in many mobile phones, AI speakers are sitting in home and has a role of the central en-tertainment and information provider. Many surveys have investigated the important factors to adopt AI speakers and influ-encing factors on satisfaction. Though most surveys on AI speakers are cross sectional, we can track customer attitude toward AI speakers longitudinally by analyzing customer reviews on AI speakers. However, there is not much research on the change of customer attitude toward AI speaker. Therefore, in this study, we try to grasp how the attitude of AI speaker changes with time by applying text mining-based analysis. We collected the customer reviews on Amazon Echo which has the highest share of AI speakers in the global market from Amazon.com. Since Amazon Echo already have two generations, we can analyze the characteristics of reviews and compare the attitude ac-cording to the adoption time. We identified all sub topics of customer reviews and specified the topics for smart features. And we analyzed how the share of topics varied with time and analyzed diverse meta data for comparisons. The proportions of the topics for general satisfaction and satisfaction on music were increasing while the proportions of the topics for music quality, speakers and wireless speakers were decreasing over time. Though the proportions of topics for smart fea-tures were similar according to time, the share of the topics in positive reviews and importance metrics were reduced in the 2nd generation of Amazon Echo. Even though smart features were mentioned similarly in the reviews, the influential effect on satisfac-tion were reduced over time and especially in the 2nd generation of Amazon Echo.

텍스트 마이닝을 활용한 스마트 스피커 제품의 포지셔닝: 인공지능 속성을 중심으로 (Positioning of Smart Speakers by Applying Text Mining to Consumer Reviews: Focusing on Artificial Intelligence Factors)

  • 이정현;선형주;이홍주
    • 지식경영연구
    • /
    • 제21권1호
    • /
    • pp.197-210
    • /
    • 2020
  • The smart speaker includes an AI assistant function in the existing portable speaker, which enables a person to give various commands using a voice and provides various offline services associated with control of a connected device. The speed of domestic distribution is also increasing, and the functions and linked services available through smart speakers are expanding to shopping and food orders. Through text mining-based customer review analysis, there have been many proposals for identifying the impact on customer attitudes, sentiment analysis, and product evaluation of product functions and attributes. Emotional investigation has been performed by extracting words corresponding to characteristics or features from product reviews and analyzing the impact on assessment. After obtaining the topic from the review, the effect on the evaluation was analyzed. And the market competition of similar products was visualized. Also, a study was conducted to analyze the reviews of smart speaker users through text mining and to identify the main attributes, emotional sensitivity analysis, and the effects of artificial intelligence attributes on product satisfaction. The purpose of this study is to collect blog posts about the user's experiences of smart speakers released in Korea and to analyze the attitudes of customers according to their attributes. Through this, customers' attitudes can be identified and visualized by each smart speaker product, and the positioning map of the product was derived based on customer recognition of smart speaker products by collecting the information identified by each property.

반자율주행 맥락에서 AI 에이전트의 멀티모달 인터랙션이 운전자 경험에 미치는 효과 : 시각적 캐릭터 유무를 중심으로 (The Effect of AI Agent's Multi Modal Interaction on the Driver Experience in the Semi-autonomous Driving Context : With a Focus on the Existence of Visual Character)

  • 서민수;홍승혜;이정명
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.92-101
    • /
    • 2018
  • 대화형 AI 스피커가 보편화되면서 음성인식은 자율주행 상황에서의 중요한 차량-운전자 인터랙션 방식으로 인식되고 있다. 이 연구의 목적은 반자율주행 상황에서 음성뿐만 아니라 AI 캐릭터의 시각적 피드백을 함께 전달하는 멀티모달 인터랙션이 음성 단일 모드 인터랙션보다 사용자 경험 최적화에 효과적인지를 확인하는 것이다. 실험 참가자에게 주행 중 AI 스피커와 캐릭터를 통해 음악 선곡과 조정을 위한 인터랙션 태스크를 수행하게 하고, 정보 및 시스템 품질, 실재감, 지각된 유용성과 용이성, 그리고 지속 사용 의도를 측정하였다. 평균차이 분석 결과, 대부분의 사용자 경험 요인에서 시각적 캐릭터의 멀티모달 효과는 나타나지 않았으며, 지속사용 의도에서도 효과는 나타나지 않았다. 오히려, 정보품질 요인에서 음성 단일 모드가 멀티모달보다 효과적인 것으로 나타났다. 운전자의 인지적 노력이 필요한 반자율주행 단계에서는 멀티모달 인터랙션이 단일 모드 인터랙션에 비해 사용자 경험 최적화에 효과적이지 않았다.

가상 비서와 스마트 스피커에 대한 인식과 기대: 의미 연결망 분석과 감성분석을 중심으로 (Perception of Virtual Assistant and Smart Speaker: Semantic Network Analysis and Sentiment Analysis)

  • 박호현;김장현
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.213-216
    • /
    • 2018
  • 인공지능과 음성인식을 기반으로 한 스마트 디바이스의 장점이 부각되면서, 가상 비서(Virtual Assistant)가 인기를 끌고 있다. 가상 비서는 스마트 스피커를 통해 사용자 경험을 제공하며, 일반 소비자들이 가장 사용하기 쉬운 IoT 디바이스로 평가받고 있다. 본 연구는 주요 가상 비서브랜드의 음성인식 플랫폼과 디바이스에 대한 사람들의 인식에 차이가 있는지 살펴보고자 한다. 이를 위해, 트위터에서 가상비서 서비스를 하는 세 기업의 총 6가지 키워드를 포함한 트윗을 수집했다. 수집한 데이터는 의미 연결망 분석 기법(Semantic network analysis)을 적용해 키워드에 대한 사람들의 인식을 분석했다. 추가로 LIWC 감성분석을 통해 사람들의 긍정/부정적 반응을 분석했다. 분석 결과 사람들은 각 키워드에 대한 반응이 다른 것으로 나타났다. 주로 Virtual Assistant가 제공하는 기능과 서비스에 대한 기대와 사용성에 대한 내용이었다. 또한 대부분의 키워드에 긍정적 반응을 보였다.

  • PDF

CNN 기반 스펙트로그램을 이용한 자유발화 음성감정인식 (Spontaneous Speech Emotion Recognition Based On Spectrogram With Convolutional Neural Network)

  • 손귀영;권순일
    • 정보처리학회 논문지
    • /
    • 제13권6호
    • /
    • pp.284-290
    • /
    • 2024
  • 음성감정인식(Speech Emotion Recognition, SER)은 사용자의 목소리에서 나타나는 떨림, 어조, 크기 등의 음성 패턴 분석을 통하여 감정 상태를 판단하는 기술이다. 하지만, 기존의 음성 감정인식 연구는 구현된 시나리오를 이용하여 제한된 환경 내에서 숙련된 연기자를 대상으로 기록된 음성인 구현발화를 중심의 연구로 그 결과 또한 높은 성능을 얻을 수 있지만, 이에 반해 자유발화 감정인식은 일상생활에서 통제되지 않는 환경에서 이루어지기 때문에 기존 구현발화보다 현저히 낮은 성능을 보여주고 있다. 본 논문에서는 일상적 자유발화 음성을 활용하여 감정인식을 진행하고, 그 성능을 향상하고자 한다. 성능평가를 위하여 AI Hub에서 제공되는 한국인 자유발화 대화 음성데이터를 사용하였으며, 딥러닝 학습을 위하여 1차원의 음성신호를 시간-주파수가 포함된 2차원의 스펙트로그램(Spectrogram)로 이미지 변환을 진행하였다. 생성된 이미지는 CNN기반 전이학습 신경망 모델인 VGG (Visual Geometry Group) 로 학습하였고, 그 결과 7개 감정(기쁨, 사랑스러움, 화남, 두려움, 슬픔, 중립, 놀람)에 대해서 성인 83.5%, 청소년 73.0%의 감정인식 성능을 확인하였다. 본 연구를 통하여, 기존의 구현발화기반 감정인식 성능과 비교하면, 낮은 성능이지만, 자유발화 감정표현에 대한 정량화할 수 있는 음성적 특징을 규정하기 어려움에도 불구하고, 일상생활에서 이루어진 대화를 기반으로 감정인식을 진행한 점에서 의의를 두고자 한다.

인공지능 기반 화자 식별 기술의 불공정성 분석 (Analysis of unfairness of artificial intelligence-based speaker identification technology)

  • 신나연;이진민;노현;이일구
    • 융합보안논문지
    • /
    • 제23권1호
    • /
    • pp.27-33
    • /
    • 2023
  • Covid-19으로 인한 디지털화는 인공지능 기반의 음성인식 기술을 급속하게 발전시켰다. 그러나 이 기술은 데이터셋이 일부 집단에 편향될 경우 인종 및 성차별과 같은 불공정한 사회적 문제를 초래하고 인공지능 서비스의 신뢰성과 보안성을 열화시키는 요인이 된다. 본 연구에서는 대표적인 인공지능의 CNN(Convolutional Neural Network) 모델인 VGGNet(Visual Geometry Group Network), ResNet(Residual neural Network), MobileNet을 활용한 편향된 데이터 환경에서 정확도에 기반한 불공정성을 비교 및 분석한다. 실험 결과에 따르면 Top1-accuracy에서 ResNet34가 여성과 남성이 91%, 89.9%로 가장 높은 정확도를 보였고, 성별 간 정확도 차는 ResNet18이 1.8%로 가장 작았다. 모델별 성별 간의 정확도 차이는 서비스 이용 시 남녀 간의 서비스 품질에 대한 차이와 불공정한 결과를 야기한다.