• 제목/요약/키워드: Artificial Intelligence Speaker

검색결과 45건 처리시간 0.031초

인공지능 스피커의 교육적 활용에서의 윤리적 딜레마 (Ethical Dilemma on Educational Usage of A.I. Speaker)

  • 한정혜;김종욱
    • 창의정보문화연구
    • /
    • 제7권1호
    • /
    • pp.11-19
    • /
    • 2021
  • 인공지능 국가전략이 발표되면서 인공지능의 교육에 대한 다양한 정책들이 제안되고 있고 교사를 대상으로 하는 인공지능융합교육도 활발히 추진되고 있다. 또한 인공지능 스피커는 각 가정에 판매 및 보급이 되고 있는 실정이고, 인공지능 스피커의 교육적 활용 현장연구들이 시작되고 있다. 이 연구에서는 인공지능 윤리에서 인공지능 스피커가 발생시킬 논란이 될 문제들을 살펴보고, 가정이나 학교에서 인공지능 스피커가 활용될 때 발생할 수 있는 윤리적 딜레마를 도출해보고자 한다. 이 딜레마는 인공지능 스피커에 대한 집단별 도덕적 판단력 수준 측정 MCT(Moral Competence Test)에 활용할 수 있을 것이다.

색면추상 기법을 통한 AI 스피커의 상태 시각화 디자인 연구 (State Visualization Design of AI Speakers using Color Field Painting)

  • 홍승윤;최종훈
    • 한국콘텐츠학회논문지
    • /
    • 제20권2호
    • /
    • pp.572-580
    • /
    • 2020
  • 최근 출시된 AI스피커들은 사용자와의 인터랙션에 있어 주로 음성으로 상호작용하면서 상태 표시LED를 통해 단순하고 정형화된 시각 피드백을 하는 패턴을 보이고 있다. 이는 스피커라는 제품 특성상 인터랙션의 제약이 많기 때문이기도 하지만 이러한 시각적 피드백마저 제품마다 통일되어 있지 않아 사용자에게 일관된 경험을 주지 못하고 있는 상황이다. LED 표시등으로 표현할 수 있는 시각 요소를 극대화하여 색과 추상적 움직임을 통해 음성 피드백을 보조한다면 사용자에게 기능성의 충족을 넘어 감성적 만족까지 포함하는 확장된 사용 경험을 제공할 수 있을 것이다. 본 연구에서는 기존 AI스피커들의 인터랙션 방식 분석 후, 시각 피드백 효과 확장을 위해 색채 커뮤니케이션 이론에 대해 고찰하고, 색채만으로 감성적 경험을 극대화한 미술 장르인 색면추상의 의미와 표현 기법을 조사하였다. 이를 통해 LED를 이용하여 커뮤니케이션 상태를 피드백하는 방식을 디자인함으로써 AI스피커의 시각 커뮤니케이션 기능성을 확장하고자 하였다.

On-Line Blind Channel Normalization for Noise-Robust Speech Recognition

  • Jung, Ho-Young
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제1권3호
    • /
    • pp.143-151
    • /
    • 2012
  • A new data-driven method for the design of a blind modulation frequency filter that suppresses the slow-varying noise components is proposed. The proposed method is based on the temporal local decorrelation of the feature vector sequence, and is done on an utterance-by-utterance basis. Although the conventional modulation frequency filtering approaches the same form regardless of the task and environment conditions, the proposed method can provide an adaptive modulation frequency filter that outperforms conventional methods for each utterance. In addition, the method ultimately performs channel normalization in a feature domain with applications to log-spectral parameters. The performance was evaluated by speaker-independent isolated-word recognition experiments under additive noise environments. The proposed method achieved outstanding improvement for speech recognition in environments with significant noise and was also effective in a range of feature representations.

  • PDF

Transformer 네트워크를 이용한 음성신호 변환 (Voice-to-voice conversion using transformer network)

  • 김준우;정호영
    • 말소리와 음성과학
    • /
    • 제12권3호
    • /
    • pp.55-63
    • /
    • 2020
  • 음성 변환은 다양한 음성 처리 응용에 적용될 수 있으며, 음성 인식을 위한 학습 데이터 증강에도 중요한 역할을 할 수 있다. 기존의 방법은 음성 합성을 이용하여 음성 변환을 수행하는 구조를 사용하여 멜 필터뱅크가 중요한 파라미터로 활용된다. 멜 필터뱅크는 뉴럴 네트워크 학습의 편리성 및 빠른 연산 속도를 제공하지만, 자연스러운 음성파형을 생성하기 위해서는 보코더를 필요로 한다. 또한, 이 방법은 음성 인식을 위한 다양한 데이터를 얻는데 효과적이지 않다. 이 문제를 해결하기 위해 본 논문은 원형 스펙트럼을 사용하여 음성 신호 자체의 변환을 시도하였고, 어텐션 메커니즘으로 스펙트럼 성분 사이의 관계를 효율적으로 찾아내어 변환을 위한 자질을 학습할 수 있는 transformer 네트워크 기반 딥러닝 구조를 제안하였다. 영어 숫자로 구성된 TIDIGITS 데이터를 사용하여 개별 숫자 변환 모델을 학습하였고, 연속 숫자 음성 변환 디코더를 통한 결과를 평가하였다. 30명의 청취 평가자를 모집하여 변환된 음성의 자연성과 유사성에 대해 평가를 진행하였고, 자연성 3.52±0.22 및 유사성 3.89±0.19 품질의 성능을 얻었다.

시각장애인의 라이프 사이클을 지원하는 인공지능 웨어러블 플랫폼 (Artificial intelligence wearable platform that supports the life cycle of the visually impaired)

  • 박시웅;김정은;강현서;박형준
    • Journal of Platform Technology
    • /
    • 제8권4호
    • /
    • pp.20-28
    • /
    • 2020
  • 본 논문에서는 시각장애인의 라이프 사이클을 사전에 학습하여 시각장애인의 자립생활을 돕는 적정기술로 음성인식 기반 스마트 웨어러블 디바이스, 스마트 기기 및 웹 AI서버를 포함하는 음성, 사물 및 문자 인식 플랫폼을 제안하였다. 시각장애인용 웨어러블 기기는 착용편의성과 사물인식기능 효율을 높이기 위해 리버스 넥밴드 구조로 설계하여 제작하였으며, 웨어러블 기기에 부착된 고감도 소형 마이크와 스피커는 웨어러블 기기와 연동된 스마트기기의 앱으로 구성된 음성인식 인터페이스 기능을 지원하도록 구성하였다. 음성, 사물 및 광학문자 인식 서비스는 웹 AI 서버에서 오픈소스 및 구글 API를 활용하였고, 서비스 플랫폼의 음성, 사물 및 광학문자 인식 정밀도는 실험을 통하여 평균 90%이상 달성하였음을 확인하였다.

  • PDF

제한된 학습 데이터를 사용하는 End-to-End 음성 인식 모델 (End-to-end speech recognition models using limited training data)

  • 김준우;정호영
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.63-71
    • /
    • 2020
  • 음성 인식은 딥러닝 및 머신러닝 분야에서 활발히 상용화 되고 있는 분야 중 하나이다. 그러나, 현재 개발되고 있는 음성 인식 시스템은 대부분 성인 남녀를 대상으로 인식이 잘 되는 실정이다. 이것은 음성 인식 모델이 대부분 성인 남녀 음성 데이터베이스를 학습하여 구축된 모델이기 때문이다. 따라서, 노인, 어린이 및 사투리를 갖는 화자의 음성을 인식하는데 문제를 일으키는 경향이 있다. 노인과 어린이의 음성을 잘 인식하기 위해서는 빅데이터를 구축하는 방법과 성인 대상 음성 인식 엔진을 노인 및 어린이 데이터로 적응하는 방법 등이 있을 수 있지만, 본 논문에서는 음향적 데이터 증강에 기반한 재귀적 인코더와 언어적 예측이 가능한 transformer 디코더로 구성된 새로운 end-to-end 모델을 제안한다. 제한된 데이터셋으로 구성된 한국어 노인 및 어린이 음성 인식을 통해 제안된 방법의 성능을 평가한다.

가상 비서와 스마트 스피커에 대한 인식과 기대: 의미 연결망 분석과 감성분석을 중심으로 (Perception of Virtual Assistant and Smart Speaker: Semantic Network Analysis and Sentiment Analysis)

  • 박호현;김장현
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.213-216
    • /
    • 2018
  • 인공지능과 음성인식을 기반으로 한 스마트 디바이스의 장점이 부각되면서, 가상 비서(Virtual Assistant)가 인기를 끌고 있다. 가상 비서는 스마트 스피커를 통해 사용자 경험을 제공하며, 일반 소비자들이 가장 사용하기 쉬운 IoT 디바이스로 평가받고 있다. 본 연구는 주요 가상 비서브랜드의 음성인식 플랫폼과 디바이스에 대한 사람들의 인식에 차이가 있는지 살펴보고자 한다. 이를 위해, 트위터에서 가상비서 서비스를 하는 세 기업의 총 6가지 키워드를 포함한 트윗을 수집했다. 수집한 데이터는 의미 연결망 분석 기법(Semantic network analysis)을 적용해 키워드에 대한 사람들의 인식을 분석했다. 추가로 LIWC 감성분석을 통해 사람들의 긍정/부정적 반응을 분석했다. 분석 결과 사람들은 각 키워드에 대한 반응이 다른 것으로 나타났다. 주로 Virtual Assistant가 제공하는 기능과 서비스에 대한 기대와 사용성에 대한 내용이었다. 또한 대부분의 키워드에 긍정적 반응을 보였다.

  • PDF

인공지능 대화형 에이전트의 지능적 속성에 대한 기대와 기대 격차 (Expectation and Expectation Gap towards intelligent properties of AI-based Conversational Agent)

  • 박현아;태문영;허영진;이준환
    • 한국HCI학회논문지
    • /
    • 제14권1호
    • /
    • pp.15-22
    • /
    • 2019
  • 본 연구에서는 인공지능 대화형 에이전트인 스마트 스피커의 지능형 에이전트로서의 속성, 즉 자율성, 사회성, 반응성, 능동성, 시간연속성, 목표지향성에 대하여 이용자들이 일상적 상호작용을 통하여 어떤 기대를 가지는지, 또한 어떤 기대격차를 갖는지 살펴보고자 하였다. 이를 위해 스마트 스피커 이용자들을 대상으로 반구조화 인터뷰(semi-structured interview)를 진행하고 그라운드 이론에 기반하여 분석하였다. 연구 결과 사람들은 기술수준의 한계로 인해 스마트 스피커의 사회성이나 인간다움에 대해 큰 기대격차를 갖고 있었다. 스마트 스피커의 반응성에 대해서는 긍정적인 기대격차를 갖는 것으로 드러났고, 시간연속적으로 정보를 기억하는 것에 대해서는 정보의 민감성 정도나 제시방식에 따라 양가적 기대격차가 나타났다. 자율적인 추천에 대해서는 낮은 기대수준이 나타났고 능동적인 말걸기에 대해서는 맥락에 맞는 경우에만 선호하는 것으로 나타났다. 본 연구는 스마트 스피커와 상호작용하는 방식을 설계하고 기대 수준을 관리하는데 있어서 함의점을 제시한다.

디지털 교육 환경에서의 인공 지능 마이크 활용 모델 (Artificial Intelligence Microphone Utilization Model in Digital Education Environment)

  • 남기복;박구락;김재웅;이윤열;김동현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.17-18
    • /
    • 2019
  • 최근 4차 산업혁명의 핵심 분야 중 하나인 인공지능에 대한 많은 연구가 이루어지고 있다. 많은 기업들이 인공지능 스피커와 같은 제품을 출시하고 있으나 대부분 비서 역할만을 할 수 있도록 구성된 제품이 대부분이다. 그러나 학교와 같이 많은 사람이 존재하는 경우 시끄러운 환경에서 사용되고 있는 인공지능 스피커는 명령 인식이 제대로 되지 않아 실용도가 저하되는 단점을 가지고 있으며, 현재 인공지능 스피커는 단순한 질의응답 수준의 응대만 가능하여 다소 부족한 부분이 있다. 또한 인공지능의 급속한 발전으로 인공지능 스피커가 아닌 전자제품에 인공지능 비서 기능이 탑재된 제품도 새롭게 출시되어 인공지능 스피커가 필요 없을 수도 있기에, 본 논문에서는 학교와 같은 주변의 소음이 많이 발생하는 교육 환경에서도 소통이 가능한 인공지능 마이크를 활용할 수 있는 모델을 제안한다.

  • PDF

영상 콘텐츠의 오디오 분석을 통한 메타데이터 자동 생성 방법 (Method of Automatically Generating Metadata through Audio Analysis of Video Content)

  • 용성중;박효경;유연휘;문일영
    • 한국항행학회논문지
    • /
    • 제25권6호
    • /
    • pp.557-561
    • /
    • 2021
  • 영상 콘텐츠를 사용자에게 추천하기 위해서는 메타데이터가 필수적인 요소로 자리 잡고 있다. 하지만 이러한 메타데이터는 영상 콘텐츠 제공자에 의해 수동적으로 생성되고 있다. 본 논문에서는 기존 수동으로 직접 메타데이터를 입력하는 방식에서 자동으로 메타데이터를 생성하는 방법을 연구하였다. 기존 연구에서 감정 태그를 추출하는 방법에 추가로 영화 오디오를 통한 장르와 제작국가에 대한 메타데이터 자동 생성 방법에 대해 연구를 진행하였다. 전이학습 모델인 ResNet34 인공 신경망 모델을 이용하여 오디오의 스펙트로그램으로부터 장르를 추출하고, 영화 속 화자의 음성을 음성인식을 통해 언어를 감지하였다. 이를 통해 메타데이터를 생성 인공지능을 통해 자동 생성 가능성을 확인할 수 있었다.