• 제목/요약/키워드: Voice command

검색결과 94건 처리시간 0.026초

디스플레이 탑재형 음성 인터페이스를 통한 음성쇼핑 서비스 휴리스틱 개발 (The Development of Heuristics for Voice Shopping Service through Voice Interface with Display)

  • 권현정;이지연
    • 정보관리학회지
    • /
    • 제39권2호
    • /
    • pp.1-33
    • /
    • 2022
  • 음성을 통해 상품을 구매하는 음성쇼핑 서비스는 미래에 본격적으로 상용화될 것으로 예상된다. 본 연구에서는 음성쇼핑이 세계적으로 일상이 될 미래를 대비하여 디스플레이 탑재형 음성 인터페이스를 활용한 음성쇼핑 서비스 휴리스틱을 개발하였다. 첫째, 이론적 접근으로 '시각 인터페이스', '음성 인터페이스', '쇼핑 서비스'의 설계 원칙을 주제로 한 논문 50건을 읽고 문헌조사를 실시하여 총 29개의 설계 원칙 초안을 제작하였다. 둘째, 실증적 접근으로 소비자 의사결정과정에 따른 쇼핑 경험 및 쇼핑 맥락에서의 정보추구행위에 관한 포커스 그룹 인터뷰를 진행하여 문헌 연구에서 미흡했던 분야인 이용자 경험 측면을 보완한 휴리스틱 초안을 작성하였다. 셋째, 델파이 조사를 통해 위의 두 단계를 거쳐 개발된 휴리스틱 초안에 대하여 20명의 UX, 서비스기획, 인공지능 개발, 쇼핑 분야 전문가들에게 전문가 평가를 해줄 것을 요청하였다. 3회에 걸친 델파이 조사를 통해 최종 휴리스틱을 제안하였다.

Alexa를 이용한 대학안내 시스템 (The University Gusdance System using the Alexa)

  • 김태진;김동현
    • 한국정보통신학회논문지
    • /
    • 제21권11호
    • /
    • pp.2061-2066
    • /
    • 2017
  • 음성인식 기술은 사용자의 음성을 인식하여 명령을 실행하는 기술로 현재는 자연어 처리 기법과 접목되어 인공지능 음성인식 서비스로 제공되어 지고 있다. 이러한 인공지능 음성인식 서비스는 IoT기기를 제어하거나 뉴스 또는 날씨와 같은 정보 제공 분야에서 활용되고 있다. 정보 제공 분야의 하나인 대학 정보는 주로 웹을 통하여 제공되나 너무 많은 데이터를 제공하기 때문에 사용자가 신속하게 원하는 정보를 검색할 수 없는 문제가 있다. 이 논문에서는 사용자가 찾고자 하는 정보를 음성으로 인식하고 제공하기 위한 대학 안내 시스템을 설계하고 구현한다. 대학정보를 각 주제별로 분류하고 이를 제공하기 위한 람다 함수를 설계한다. 그리고 알렉사 스킬 키트를 이용하여 노드제이에스로 구현된 모듈을 아마존웹서비스에 업로드하여 음성인식을 이용하여 대학 정보를 제공한다.

음성인식을 이용한 개인환경의 스마트 미러 (Smart Mirror of Personal Environment using Voice Recognition)

  • 여운찬;박신후;문진완;안성원;한영오
    • 한국전자통신학회논문지
    • /
    • 제14권1호
    • /
    • pp.199-204
    • /
    • 2019
  • 본 논문에서는 개인의 일상생활에 필요한 컨텐츠를 제공하는 스마트 미러를 소개한다. 음성인식으로 지정해놓은 명령어를 입력하면 디스플레이에서 원하는 컨텐츠를 출력하는 스마트 미러를 제작하였다. 현재 제작한 스마트 미러의 컨텐츠는 시간과, 날씨, 지하철정보, 일정, 사진이 있다. 시중의 개인 가정용으로 판매하고 있는 스마트 미러는 비싼 가격으로 인해 보급이 어려운 상태이지만 본 논문에서 제시하는 스마트 미러 제작을 통해 제조 단가를 낮출 수 있으며, 음성인식으로 더 편리하게 이용할 수 있다.

상지장애인을 위한 시선 인터페이스에서 포인터 실행 방법의 오작동 비교 분석을 통한 Eye-Voice 방식의 제안 (A Proposal of Eye-Voice Method based on the Comparative Analysis of Malfunctions on Pointer Click in Gaze Interface for the Upper Limb Disabled)

  • 박주현;박미현;임순범
    • 한국멀티미디어학회논문지
    • /
    • 제23권4호
    • /
    • pp.566-573
    • /
    • 2020
  • Computers are the most common tool when using the Internet and utilizing a mouse to select and execute objects. Eye tracking technology is welcomed as an alternative technology to help control computers for users who cannot use their hands due to their disabilities. However, the pointer execution method of the existing eye tracking technique causes many malfunctions. Therefore, in this paper, we developed a gaze tracking interface that combines voice commands to solve the malfunction problem when the upper limb disabled uses the existing gaze tracking technology to execute computer menus and objects. Usability verification was conducted through comparative experiments regarding the improvements of the malfunction. The upper limb disabled who are hand-impaired use eye tracking technology to move the pointer and utilize the voice commands, such as, "okay" while browsing the computer screen for instant clicks. As a result of the comparative experiments on the reduction of the malfunction of pointer execution with the existing gaze interfaces, we verified that our system, Eye-Voice, reduced the malfunction rate of pointer execution and is effective for the upper limb disabled to use.

안드로이드폰용 사용자 정의 음성명령 앱 개발 (Development of a User-Customizable Voice Command Application for Android Phones)

  • 곽주리;이주현;임효진;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.1171-1174
    • /
    • 2014
  • 최근 Siri, S Voice 등과 같이 스마트폰에 음성으로 명령을 내리는 기능이 보편화되고 있다. 하지만 기존의 음성명령 시스템은 사전에 정의된 명령어가 아니면 사용이 불가능하며 어떤 명령어들이 사용가능한지 확인하기도 어렵다. 본 논문에서는 사용자에게 좀 더 편리한 인터페이스를 제공하기 위한 목적으로, 사용자가 직접 음성명령을 등록할 수 있는 안드로이드폰용 음성명령 앱을 개발한다. 본 논문에서 개발한 음성명령 앱은 사용자가 등록한 임의의 음성을 인식하여 안드로이드폰에 설치된 애플리케이션을 실행시키거나, 특정 번호로 전화를 걸거나, 특정 번호로 문자메시지를 보낼 수 있다. 본 논문에서 개발한 앱을 통해 사용자는 보다 편리하게 스마트폰에 음성명령을 내릴 수 있다.

얼굴인식을 통한 음성 명령 스마트 거울 시스템 (Voice Command through Facial Recognition Smart Mirror System)

  • 이세훈;김수민;박현규
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.253-254
    • /
    • 2019
  • 본 논문에서는 가정 등에서 사용자의 행동 반경에 가장 많이 있는 거울에 홈 제어 및 근처 전열 기구들을 보다 쉽게 제어 할 수 있도록 Google Speech API와 Open CV 라이브러리를 사용해 음성인식을 통한 홈 제어 방안을 제시하였다. 이를 통해서 바쁜 아침에 화장 등을 하는 경우 두 손을 자유롭게 사용하면서 디바이스를 음성으로 제어 할 수 있는 편리성을 제공하였다.

  • PDF

퍼지 추론을 이용한 음성 명령에 의한 커서 조작 (Cursor Moving by Voice Command using Fuzzy Inference)

  • 추명경;손영선
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 추계학술대회 학술발표 논문집
    • /
    • pp.209-212
    • /
    • 2000
  • 본 논문에서 마우스 대신에 음성으로 명령을 입력하여 퍼지 추론을 통해 윈도우 화면상의 커서를 이동시키는 인터페이스를 구현하였다. 입력된 음성이 대체로 짧은 언어이기에 이를 인식하기 위하여 고립단어 인식에 강한 DTW방식을 사용하였다. DTW방식의 단점중인 하나가 음성길이가 비슷한 명령을 입력하였을 때 표준패턴 중 오차 값이 가장 작은 패턴으로 인식하는 것이다. 예를들면 아주 많이 이동해 라는 음성이 입력되었을 때 동일한 음성길이를 가진 아주 많이 오른쪽으로 인식하는 경우가 있다. 이런 오류를 해결하고자 각 패턴의 DTW 오차 값 범위와 표준 패턴의 음성길이를 기준으로 임계값을 퍼지 추론하여 명령으로서 수락 여부를 결정하였다. 판단이 애매한 부분은 사용자에게 질의를 하여 응답에 따라 수락 여부를 결정하였다.

  • PDF

자율형 이동로봇을 위한 전방위 화자 추종 시스템 (Speaker Tracking System for Autonomous Mobile Robot)

  • 이창훈;김용호
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2002년도 합동 추계학술대회 논문집 정보 및 제어부문
    • /
    • pp.142-145
    • /
    • 2002
  • This paper describes a omni-directionally speaker tracking system for mobile robot interface in real environment. Its purpose is to detect a robust 360-degree sound source and to recognize voice command at a long distance(60-300cm). We consider spatial features, the relation of position and interaural time differences, and realize speaker tracking system using fuzzy inference process based on inference rules generated by its spatial features.

  • PDF

Automatic Vowel Sequence Reproduction for a Talking Robot Based on PARCOR Coefficient Template Matching

  • Vo, Nhu Thanh;Sawada, Hideyuki
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제5권3호
    • /
    • pp.215-221
    • /
    • 2016
  • This paper describes an automatic vowel sequence reproduction system for a talking robot built to reproduce the human voice based on the working behavior of the human articulatory system. A sound analysis system is developed to record a sentence spoken by a human (mainly vowel sequences in the Japanese language) and to then analyze that sentence to give the correct command packet so the talking robot can repeat it. An algorithm based on a short-time energy method is developed to separate and count sound phonemes. A matching template using partial correlation coefficients (PARCOR) is applied to detect a voice in the talking robot's database similar to the spoken voice. Combining the sound separation and counting the result with the detection of vowels in human speech, the talking robot can reproduce a vowel sequence similar to the one spoken by the human. Two tests to verify the working behavior of the robot are performed. The results of the tests indicate that the robot can repeat a sequence of vowels spoken by a human with an average success rate of more than 60%.

Interface Modeling for Digital Device Control According to Disability Type in Web

  • Park, Joo Hyun;Lee, Jongwoo;Lim, Soon-Bum
    • Journal of Multimedia Information System
    • /
    • 제7권4호
    • /
    • pp.249-256
    • /
    • 2020
  • Learning methods using various assistive and smart devices have been developed to enable independent learning of the disabled. Pointer control is the most important consideration for the disabled when controlling a device and the contents of an existing graphical user interface (GUI) environment; however, difficulties can be encountered when using a pointer, depending on the disability type; Although there are individual differences depending on the blind, low vision, and upper limb disability, problems arise in the accuracy of object selection and execution in common. A multimodal interface pilot solution is presented that enables people with various disability types to control web interactions more easily. First, we classify web interaction types using digital devices and derive essential web interactions among them. Second, to solve problems that occur when performing web interactions considering the disability type, the necessary technology according to the characteristics of each disability type is presented. Finally, a pilot solution for the multimodal interface for each disability type is proposed. We identified three disability types and developed solutions for each type. We developed a remote-control operation voice interface for blind people and a voice output interface applying the selective focusing technique for low-vision people. Finally, we developed a gaze-tracking and voice-command interface for GUI operations for people with upper-limb disability.