• 제목/요약/키워드: AI-based Voice Recognition Service

검색결과 11건 처리시간 0.041초

AI기반 음성인식 서비스 특성과 상호 작용성 및 이용 의도 간의 구조적 관계 (The Structural Relationships of between AI-based Voice Recognition Service Characteristics, Interactivity and Intention to Use)

  • 이서영
    • 한국IT서비스학회지
    • /
    • 제20권5호
    • /
    • pp.189-207
    • /
    • 2021
  • Voice interaction combined with artificial intelligence is poised to revolutionize human-computer interactions with the advent of virtual assistants. This paper is analyzing interactive elements of AI-based voice recognition services such as sympathy, assurance, intimacy, and trust on intention to use. The questionnaire was carried out for 284 smartphone/smart TV users in Korea. The collected data was analyzed by structural equation model analysis and bootstrapping. The key results are as follows. First, AI-based voice recognition service characteristics such as sympathy, assurance, intimacy, and trust have positive effects on interactivity with the AI-based voice recognition service. Second, the interactivity with the AI-based voice recognition service has positive effects on intention to use. Third, AI-based voice recognition service characteristics such as interactional enjoyment and intimacy have directly positive effects on intention to use. Fourth, AI-based voice recognition service characteristics such as sympathy, assurance, intimacy and trust have indirectly positive effects on intention to use the AI-based voice recognition service by mediating the effect of the interactivity with the AI-based voice recognition service. It is meaningful to investigate factors affecting the interactivity and intention to use voice recognition assistants. It has practical and academic implications.

시각장애인의 라이프 사이클을 지원하는 인공지능 웨어러블 플랫폼 (Artificial intelligence wearable platform that supports the life cycle of the visually impaired)

  • 박시웅;김정은;강현서;박형준
    • Journal of Platform Technology
    • /
    • 제8권4호
    • /
    • pp.20-28
    • /
    • 2020
  • 본 논문에서는 시각장애인의 라이프 사이클을 사전에 학습하여 시각장애인의 자립생활을 돕는 적정기술로 음성인식 기반 스마트 웨어러블 디바이스, 스마트 기기 및 웹 AI서버를 포함하는 음성, 사물 및 문자 인식 플랫폼을 제안하였다. 시각장애인용 웨어러블 기기는 착용편의성과 사물인식기능 효율을 높이기 위해 리버스 넥밴드 구조로 설계하여 제작하였으며, 웨어러블 기기에 부착된 고감도 소형 마이크와 스피커는 웨어러블 기기와 연동된 스마트기기의 앱으로 구성된 음성인식 인터페이스 기능을 지원하도록 구성하였다. 음성, 사물 및 광학문자 인식 서비스는 웹 AI 서버에서 오픈소스 및 구글 API를 활용하였고, 서비스 플랫폼의 음성, 사물 및 광학문자 인식 정밀도는 실험을 통하여 평균 90%이상 달성하였음을 확인하였다.

  • PDF

화자식별 기반의 AI 음성인식 서비스에 대한 사이버 위협 분석 (Cyber Threats Analysis of AI Voice Recognition-based Services with Automatic Speaker Verification)

  • 홍천호;조영호
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.33-40
    • /
    • 2021
  • 음성인식(ASR: Automatic Speech Recognition)은 사람의 말소리를 음성 신호로 분석하고, 문자열로 자동 변화하여 이해하는 기술이다. 초기 음성인식 기술은 하나의 단어를 인식하는 것을 시작으로 두 개 이상의 단어로 구성된 문장을 인식하는 수준까지 진화하였다. 실시간 음성 대화에 있어 높은 인식률은 자연스러운 정보전달의 편리성을 극대화하여 그 적용 범위를 확장하고 있다. 반면에, 음성인식 기술의 활발한 적용에 따라 관련된 사이버 공격과 위협에 대한 우려 역시 증가하고 있다. 기존 연구를 살펴보면, 자동화자식별(ASV: Automatic Speaker Verification) 기법의 고안과 정확성 향상 등 기술 발전 자체에 관한 연구는 활발히 이루어지고 있으나, 실생활에 적용되고 있는 음성인식 서비스의 자동화자 식별 기술에 대한 사이버 공격 및 위협에 관한 분석연구는 다양하고 깊이 있게 수행되지 않고 있다. 본 연구에서는 자동화자 식별 기술을 갖춘 AI 음성인식 서비스를 대상으로 음성 주파수와 음성속도를 조작하여 음성인증을 우회하는 사이버 공격 모델을 제안하고, 상용 스마트폰의 자동화자 식별 체계를 대상으로 실제 실험을 통해 사이버 위협을 분석한다. 이를 통해 관련 사이버 위협의 심각성을 알리고 효과적인 대응 방안에 관한 연구 관심을 높이고자 한다.

AI 비서 서비스의 중요도와 만족도 분석 연구 (Importance and Satisfaction Analysis for AI Assistant Services)

  • 선영지;이중정;윤혜정
    • 한국IT서비스학회지
    • /
    • 제20권4호
    • /
    • pp.81-93
    • /
    • 2021
  • In the era of artificial intelligence, the use of 'artificial intelligence-based services' has been diversified by combining various smart devices, big data, and voice recognition technology with artificial intelligence. From the perspective of IT services, these services are important technology that cause a paradigm shift from display-centered to voice-centered, and from passive to active IT-based services. This study seeks to find a solution to the current situation where AI assistant service is still in its beginning stage, despite having been ten years since its release and having a growing number of consumer touch points. Accordingly, we categorized the functions of AI assistant services and identified the degree of importance and satisfaction of services recognized by actual users. In order to define the 'ideal' services of AI assistant, seven experts from AI assistant-related industry have participated in the interview. Based on this result, we investigated the importance and satisfaction of services perceived by actual users of AI assistant services. As a result of IPA (Importance Performance Analysis). we find out which services are potentially 'keep', 'concentrate', 'low priority', or 'overkill' and provide various implications from the findings.

음성인식과 딥러닝 기반 객체 인식 기술이 접목된 모바일 매니퓰레이터 통합 시스템 (Integrated System of Mobile Manipulator with Speech Recognition and Deep Learning-based Object Detection)

  • 장동열;유승열
    • 로봇학회논문지
    • /
    • 제16권3호
    • /
    • pp.270-275
    • /
    • 2021
  • Most of the initial forms of cooperative robots were intended to repeat simple tasks in a given space. So, they showed no significant difference from industrial robots. However, research for improving worker's productivity and supplementing human's limited working hours is expanding. Also, there have been active attempts to use it as a service robot by applying AI technology. In line with these social changes, we produced a mobile manipulator that can improve the worker's efficiency and completely replace one person. First, we combined cooperative robot with mobile robot. Second, we applied speech recognition technology and deep learning based object detection. Finally, we integrated all the systems by ROS (robot operating system). This system can communicate with workers by voice and drive autonomously and perform the Pick & Place task.

Research on Developing a Conversational AI Callbot Solution for Medical Counselling

  • Won Ro LEE;Jeong Hyon CHOI;Min Soo KANG
    • 한국인공지능학회지
    • /
    • 제11권4호
    • /
    • pp.9-13
    • /
    • 2023
  • In this study, we explored the potential of integrating interactive AI callbot technology into the medical consultation domain as part of a broader service development initiative. Aimed at enhancing patient satisfaction, the AI callbot was designed to efficiently address queries from hospitals' primary users, especially the elderly and those using phone services. By incorporating an AI-driven callbot into the hospital's customer service center, routine tasks such as appointment modifications and cancellations were efficiently managed by the AI Callbot Agent. On the other hand, tasks requiring more detailed attention or specialization were addressed by Human Agents, ensuring a balanced and collaborative approach. The deep learning model for voice recognition for this study was based on the Transformer model and fine-tuned to fit the medical field using a pre-trained model. Existing recording files were converted into learning data to perform SSL(self-supervised learning) Model was implemented. The ANN (Artificial neural network) neural network model was used to analyze voice signals and interpret them as text, and after actual application, the intent was enriched through reinforcement learning to continuously improve accuracy. In the case of TTS(Text To Speech), the Transformer model was applied to Text Analysis, Acoustic model, and Vocoder, and Google's Natural Language API was applied to recognize intent. As the research progresses, there are challenges to solve, such as interconnection issues between various EMR providers, problems with doctor's time slots, problems with two or more hospital appointments, and problems with patient use. However, there are specialized problems that are easy to make reservations. Implementation of the callbot service in hospitals appears to be applicable immediately.

가상현실 기반의 인공지능 영어회화 시스템 (English Conversation System Using Artificial Intelligent of based on Virtual Reality)

  • 천은영
    • 한국융합학회논문지
    • /
    • 제10권11호
    • /
    • pp.55-61
    • /
    • 2019
  • 외국어 교육을 실현하기 위하여 기존의 다양한 교육 매체들이 제공되고 있지만, 교구 및 매체프로그램에 대한 비용이 많이 들고 실시간 대응력이 떨어지는 단점이 존재한다. 이 논문에서는 VR과 음성인식을 기반으로 한 인공지능 유형의 영어회화 시스템을 제안한다. 시스템 구축을 위해 Google CardBoard VR과 Google Speech API를 이용하며 가상현실 환경 제공 및 대화를 위한 인공지능 알고리즘을 개발하였다. 제안하는 음성인식 서버시스템에서는 사용자가 발화한 문장을 단어 단위로 분리해 데이터베이스에 저장된 데이터 단어들과 비교하여 확률적으로 가장 높은 것을 답으로 제공할 수 있으며 사용자들이 가상현실의 인물과 적절한 대화 및 응답이 가능하다. 대화가 제공되는 기능은 상황별 대화와 주제에 독립적이며, AI 비서와 나눈 대화 내용을 사용자 시스템에서 실시간 확인이 가능하도록 구현하였고 실험을 통하여 음성인식에 대한 응답비율을 확인하였다. 이 논문에서 제안하는 가상현실과 음성인식 기능을 접목한 시스템을 통하여 4차 산업혁명에 관련한 가상교육 콘텐츠 서비스 확장에 이바지할 것을 기대한다.

대화형 에이전트 인식오류 및 신조어 탐지를 위한 알고리즘 개발: 한글 음절 분리 기반의 단어 유사도 활용 (Developing a New Algorithm for Conversational Agent to Detect Recognition Error and Neologism Meaning: Utilizing Korean Syllable-based Word Similarity)

  • 이정원;임일
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.267-286
    • /
    • 2023
  • 인공지능 스피커로 대표되는 대화형 에이전트는 사람-컴퓨터 간 대화형이기 때문에 대화 상황에서 오류가 발생하는 경우가 잦다. 에이전트 사용자의 발화 기록에서 인식오류는 사용자의 발화를 제대로 인식하지 못하는 미인식오류 유형과 발화를 인식하여 서비스를 제공하였으나 사용자가 의도한 바와 다르게 인식된 오인식오류 유형으로 나뉜다. 이 중 오인식오류의 경우, 서비스가 제공된 것으로 기록되기 때문에 이에 대한 오류 탐지가 별도로 필요하다. 본 연구에서는 텍스트 마이닝 기법 중에서도 단어와 문서를 벡터로 바꿔주는 단어 임베딩과 문서 임베딩을 이용하여 단순 사용된 단어 기반의 유사도 산출이 아닌 단어의 분리 방식을 다양하게 적용함으로써 연속 발화 쌍의 유사도를 기반으로 새로운 오인식오류 및 신조어 탐지 방법을 탐구하였다. 연구 방법으로는 실제 사용자 발화 기록을 활용하여 오인식오류의 패턴을 모델 학습 및 생성 시 적용하여 탐지 모델을 구현하였다. 그 결과, 오인식오류의 가장 큰 원인인 등록되지 않은 신조어 사용을 탐지할 수 있는 패턴 방식으로 다양한 단어 분리 방식 중 초성 추출 방식이 가장 좋은 결과를 보임을 확인하였다. 본 연구는 크게 두 개의 함의를 가진다. 첫째, 인식오류로 기록되지 않아 탐지가 어려운 오인식오류에 대하여 다양한 방식 별 비교를 통해 최적의 방식을 찾았다. 둘째, 이를 실제 신조어 탐지 적용이 필요한 대화형 에이전트나 음성 인식 서비스에 적용한다면 음성 인식 단계에서부터 발생하는 오류의 패턴도 구체화할 수 있으며, 오류로 분류되지 않더라도 사용자가 원하는 결과에 맞는 서비스가 제공될 수 있음을 보였다.

한국형 멀티모달 몽타주 앱을 위한 생성형 AI 연구 (Research on Generative AI for Korean Multi-Modal Montage App)

  • 임정현;차경애;고재필;홍원기
    • 서비스연구
    • /
    • 제14권1호
    • /
    • pp.13-26
    • /
    • 2024
  • 멀티모달 (multi-modal) 생성이란 텍스트, 이미지, 오디오 등 다양한 정보를 기반으로 결과를 도출하는 작업을 말한다. AI 기술의 비약적인 발전으로 인해 여러 가지 유형의 데이터를 종합적으로 처리해 결과를 도출하는 멀티모달 기반 시스템 또한 다양해지는 추세이다. 본 논문은 음성과 텍스트 인식을 활용하여 인물을 묘사하면, 몽타주 이미지를 생성하는 AI 시스템의 개발 내용을 소개한다. 기존의 몽타주 생성 기술은 서양인들의 외형을 기준으로 이루어진 반면, 본 논문에서 개발한 몽타주 생성 시스템은 한국인의 안면 특징을 바탕으로 모델을 학습한다. 따라서, 한국어에 특화된 음성과 텍스트의 멀티모달을 기반으로 보다 정확하고 효과적인 한국형 몽타주 이미지를 만들어낼 수 있다. 개발된 몽타주 생성 앱은 몽타주 초안으로 충분히 활용 가능하기 때문에 기존의 몽타주 제작 인력의 수작업을 획기적으로 줄여줄 수 있다. 이를 위해 한국지능정보사회진흥원의 AI-Hub에서 제공하는 페르소나 기반 가상 인물 몽타주 데이터를 활용하였다. AI-Hub는 AI 기술 및 서비스 개발에 필요한 인공지능 학습용 데이터를 구축하여 원스톱 제공을 목적으로 한 AI 통합 플랫폼이다. 이미지 생성 시스템은 고해상도 이미지를 생성하는데 사용하는 딥러닝 모델인 VQGAN과 한국어 기반 영상생성 모델인 KoDALLE 모델을 사용하여 구현하였다. 학습된 AI 모델은 음성과 텍스트를 이용해 묘사한 내용과 매우 유사한 얼굴의 몽타주 이미지가 생성됨을 확인할 수 있다. 개발된 몽타주 생성 앱의 실용성 검증을 위해 10명의 테스터가 사용한 결과 70% 이상이 만족한다는 응답을 보였다. 몽타주 생성 앱은 범죄자 검거 등 얼굴의 특징을 묘사하여 이미지화하는 여러 분야에서 다양하게 사용될 수 있을 것이다.

인공지능 기반 화자 식별 기술의 불공정성 분석 (Analysis of unfairness of artificial intelligence-based speaker identification technology)

  • 신나연;이진민;노현;이일구
    • 융합보안논문지
    • /
    • 제23권1호
    • /
    • pp.27-33
    • /
    • 2023
  • Covid-19으로 인한 디지털화는 인공지능 기반의 음성인식 기술을 급속하게 발전시켰다. 그러나 이 기술은 데이터셋이 일부 집단에 편향될 경우 인종 및 성차별과 같은 불공정한 사회적 문제를 초래하고 인공지능 서비스의 신뢰성과 보안성을 열화시키는 요인이 된다. 본 연구에서는 대표적인 인공지능의 CNN(Convolutional Neural Network) 모델인 VGGNet(Visual Geometry Group Network), ResNet(Residual neural Network), MobileNet을 활용한 편향된 데이터 환경에서 정확도에 기반한 불공정성을 비교 및 분석한다. 실험 결과에 따르면 Top1-accuracy에서 ResNet34가 여성과 남성이 91%, 89.9%로 가장 높은 정확도를 보였고, 성별 간 정확도 차는 ResNet18이 1.8%로 가장 작았다. 모델별 성별 간의 정확도 차이는 서비스 이용 시 남녀 간의 서비스 품질에 대한 차이와 불공정한 결과를 야기한다.