• 제목/요약/키워드: Voice conversational system

검색결과 15건 처리시간 0.052초

모바일 VoIP 음성통신을 위한 대화음질 측정 시스템 (Conversational Quality Measurement System for Mobile VoIP Speech Communication)

  • 조재만;김형국
    • 한국ITS학회 논문지
    • /
    • 제10권4호
    • /
    • pp.71-77
    • /
    • 2011
  • 본 논문에서는 고품질 모바일 VoIP 음성통신에 대한 객관적인 QoS를 제공하는 대화음질 측정시스템을 구현하였다. 대화음질 측정을 위해서 VoIP로 연결된 두 대의 스마트폰에 에코 및 잡음 제거, 음성 인코딩 및 디코딩, RTP (Real-TimeProtocol)을 적용한 패킷 생성, 지터버퍼 콘트롤, LC (Loss Concealment)를 포함한 POS (Play-out Schedule)로 구성된 VoIP음성 통화시스템을 구현하였다. 대화음질 측정 시스템은 VoIP로 연결된 두 스마트폰의 마이크, 그리고 스피커와 연결되어 각 화자별로 음성신호를 녹음한 후에, 녹음된 음성신호를 이용하여 CE (Conversational Efficiency), CS (Conversational Symmetry) 및 PESQ (Perceptual Evaluation of Speech Quality)를 측정하고, CE-CS-PESQ에 대한 상관관계를 측정한다. 본 논문에서는 다양한 SNR, IP 네트워크망 변동에 따른 지연, 손실 변화에 따른 CE, CS, PESQ를 측정하여 대화음질 측정시스템을 검증하였다.

대화형 음성 인식 항공정보 시스템에서의 ASP 모듈에 관한 연구 (A Study On the ASP Module in Conversational Automatic Speech Recognition Flight Information System)

  • 윤재석;장준식
    • 한국정보통신학회논문지
    • /
    • 제6권4호
    • /
    • pp.595-603
    • /
    • 2002
  • 본 연구에서는 VoiceXML을 이용하여 전화를 통한 대화형 음성인식 항공정보시스템을 개발하였으며 ASP(Active Server Page)모듈을 작성하여 VXML 코딩을 최적화하여 효율성을 증대시켰다. 그리고 GSL(Grammar Specific Language)을 사용하여 사람이 말하는 자연어를 어떻게 하면 컴퓨터가 잘 이해할 수 있게 만들 수 있는지에 연구의 중점을 두었으며 이렇게 설계된 시스템을 실험을 통해 그 효과를 검증해 보았다.

다양한 음성을 이용한 자동화자식별 시스템 성능 확인에 관한 연구 (Variation of the Verification Error Rate of Automatic Speaker Recognition System With Voice Conditions)

  • 홍수기
    • 대한음성학회지:말소리
    • /
    • 제43호
    • /
    • pp.45-55
    • /
    • 2002
  • High reliability of automatic speaker recognition regardless of voice conditions is necessary for forensic application. Audio recordings in real cases are not consistent in voice conditions, such as duration, time interval of recording, given text or conversational speech, transmission channel, etc. In this study the variation of verification error rate of ASR system with the voice conditions was investigated. As a result in order to decrease both false rejection rate and false acception rate, the various voices should be used for training and the duration of train voices should be longer than the test voices.

  • PDF

Interactive Adaptation of Fuzzy Neural Networks in Voice-Controlled Systems

  • Pulasinghe, Koliya;Watanabe, Keigo;Izumi, Kiyotaka;Kiguchi, Kazuo
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2002년도 ICCAS
    • /
    • pp.42.3-42
    • /
    • 2002
  • Fuzzy Neural Network (FNN) is a compulsory element in a voice-controlled machine due to its inherent capability of interpreting imprecise natural language commands. To control such a machine, user's perception of imprecise words is very important because the words' meaning is highly subjective. This paper presents a voice based controller centered on an adaptable FNN to capture the user's perception of imprecise words. Conversational interface of the machine facilitates the learning through interaction. The system consists of a dialog manager (DM), the conversational interface, a Knowledge base, which absorbs user's perception and acts as a replica of human understanding of imprecise words,...

  • PDF

차량용 음성대화 인터페이스의 Barge-in 기능이 주행 경험에 미치는 효과 연구 - 내비게이션 및 음악서비스 중심으로 - (The Effect of Barge-in Function of In-Vehicle Voice Conversational Interface on Driving Experience - Focus on Car Navigation and Music Services -)

  • 김택수;김지현;최준호
    • 디자인융복합연구
    • /
    • 제17권1호
    • /
    • pp.17-28
    • /
    • 2018
  • 운전 중 주행목적 외에 기기를 손으로 조작하는 행동은 사고위험을 높이는 주된 요인이며, 이를 보완할 수 있는 차량용 음성대화 인터페이스의 디자인이 최근 활발히 연구되고 있다. 이 연구는 차량용 음성대화 인터페이스의 Barge-in 기능의 사용이 사용자 경험에 미치는 영향을 확인하고자 하였다. 실험참가자를 대상으로 모의 주행을 하면서 내비게이션 조작과 음악재생 맥락으로 나누어 두 가지 태스크를 수행하도록 하도록 하였다. 각 참가자의 태스크 수행 후 기능 사용자 경험 측정을 위한 설문조사를 실시하였으며, 사용자 경험 요인으로 유용성, 사용성, 만족도, 감성을 측정하였다. 그 결과 대부분의 경험 요인에서 Barge-in 기능을 사용할 경우가 더 낫다고 평가되었다. 내비게이션 조작에서는 사용성 차원, 음악재생에서는 사용성, 감성 차원에서 유의미한 차이가 나타나 Barge-in 기능이 실제 사용자의 사용성과 감성 차원의 긍정적인 효과가 있음을 알 수 있었다.

대화형 에이전트 인식오류 및 신조어 탐지를 위한 알고리즘 개발: 한글 음절 분리 기반의 단어 유사도 활용 (Developing a New Algorithm for Conversational Agent to Detect Recognition Error and Neologism Meaning: Utilizing Korean Syllable-based Word Similarity)

  • 이정원;임일
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.267-286
    • /
    • 2023
  • 인공지능 스피커로 대표되는 대화형 에이전트는 사람-컴퓨터 간 대화형이기 때문에 대화 상황에서 오류가 발생하는 경우가 잦다. 에이전트 사용자의 발화 기록에서 인식오류는 사용자의 발화를 제대로 인식하지 못하는 미인식오류 유형과 발화를 인식하여 서비스를 제공하였으나 사용자가 의도한 바와 다르게 인식된 오인식오류 유형으로 나뉜다. 이 중 오인식오류의 경우, 서비스가 제공된 것으로 기록되기 때문에 이에 대한 오류 탐지가 별도로 필요하다. 본 연구에서는 텍스트 마이닝 기법 중에서도 단어와 문서를 벡터로 바꿔주는 단어 임베딩과 문서 임베딩을 이용하여 단순 사용된 단어 기반의 유사도 산출이 아닌 단어의 분리 방식을 다양하게 적용함으로써 연속 발화 쌍의 유사도를 기반으로 새로운 오인식오류 및 신조어 탐지 방법을 탐구하였다. 연구 방법으로는 실제 사용자 발화 기록을 활용하여 오인식오류의 패턴을 모델 학습 및 생성 시 적용하여 탐지 모델을 구현하였다. 그 결과, 오인식오류의 가장 큰 원인인 등록되지 않은 신조어 사용을 탐지할 수 있는 패턴 방식으로 다양한 단어 분리 방식 중 초성 추출 방식이 가장 좋은 결과를 보임을 확인하였다. 본 연구는 크게 두 개의 함의를 가진다. 첫째, 인식오류로 기록되지 않아 탐지가 어려운 오인식오류에 대하여 다양한 방식 별 비교를 통해 최적의 방식을 찾았다. 둘째, 이를 실제 신조어 탐지 적용이 필요한 대화형 에이전트나 음성 인식 서비스에 적용한다면 음성 인식 단계에서부터 발생하는 오류의 패턴도 구체화할 수 있으며, 오류로 분류되지 않더라도 사용자가 원하는 결과에 맞는 서비스가 제공될 수 있음을 보였다.

대화식 휴대용 영어학습기 개발 (Development of Portable Conversation-Type English Leaner)

  • 유재택;윤태섭
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2004년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.147-149
    • /
    • 2004
  • Although most of the people have studied English for a long time, their English conversation capability is low. When we provide them portable conversational-type English learners by the application of computer and information process technology, such portable learners can be used to enhance their English conversation capability by their conventional conversation exercises. The core technology to develop such learner is the development of a voice recognition and synthesis module under an embedded environment. This paper deals with voice recognition and synthesis, prototype of the learner module using a DSP(Digital Signal Processing) chip for voice processing, voice playback function, flash memory file system, PC download function using USB ports, English conversation text function by the use of SMC(Smart Media Card) flash memory, LCD display function, MP3 music listening function, etc. Application areas of the prototype equipped with such various functions are vast, i.e. portable language learners, amusement devices, kids toy, control by voice, security by the use of voice, etc.

  • PDF

가상 캐릭터를 활용하여 아동의 구어 대화를 유도하는 대화형 에이전트 (Embodied Conversational Agent Using a Virtual Character to Induce Children's Verbal Communication)

  • 최지영;정기철
    • 한국멀티미디어학회논문지
    • /
    • 제23권10호
    • /
    • pp.1296-1306
    • /
    • 2020
  • Childhood verbal communication impacts children's language skills and has a positive effect as partners use more vocabulary. But reduction in family time, caused by lowered age for private education and so on, has reduced the chance for children to speak with partners who have a proficient language skill. This vacancy was naturally occupied by the media, which has become one of the cornerstones of the growth of kids' contents. Kids contents are making various attempts to expand the breadth of services. But most contents still focus on unilateral visual information delivery yet, so there is a limit to satisfy the vacancy of conversation partners. Therefore this paper suggests an ECA(Embodied conversational agent) to induce children's spoken conversation using a virtual character frequently used in kids contents. This system is implemented by the voice bot and agent model produced using an IBM assistant and Unity. As a result of using ECA for 66 children of 5-9 years old, it showed meaningful results in terms of induction of verbal communication.

대화형 인공지능 아트 작품의 제작 연구 :진화하는 신, 가이아(An Evolving GAIA)사례를 중심으로 (Artificial Intelligence Art : A Case study on the Artwork An Evolving GAIA)

  • 노진아
    • 한국콘텐츠학회논문지
    • /
    • 제18권5호
    • /
    • pp.311-318
    • /
    • 2018
  • 본 논문에서는 대화형 인공지능 인터랙티브 아트인 "진화하는 신, 가이아" 작품을 중심으로 예술 의미적인 배경과 작품이 구현된 기술적 구조에 대해 제시한다. 최근 여러 분야에서 인공지능의 기술을 사용하면서 예술 분야에도 이러한 시도가 접목되고 있다. 또한 과학의 발달로 생체모방 기술이나 인공생명 기술이 발달하면서 기계와 인간의 구분이 모호해지고 있다. 본 논문에서는 이러한 기계 생명의 은유를 담고 있는 예술 작품 사례를 제시하고, 본 작품에서 차별적으로 구현된 대화 시스템에 대해 상세히 부각한다. 본 작품에서는 로봇이 관객과의 자연스러운 소통을 위해 관객을 인식하여 바라보고 눈을 맞추며, 관객의 음성을 직접 인식하고 이에 따른 적절한 응답을 음성 합성으로 출력한다. 본 작품의 대화 시스템은 작품 내에 내장된 안드로이드 클라이언트와 질문-대답 사전을 내장한 서버로 구성된 질의응답시스템으로 구현되었다. 본 작품은 이러한 인터랙션을 통해 넓은 의미에서의 생명에 대한 의미를 논하며 관객과의 공감을 이끌어낸다. 본 논문에서는 작품의 기계적 구조와 대화 시스템 등의 제작 방법 및 관객 반응을 살펴봄으로써 인공지능 예술 작품의 제작 및 전시 기획에 기여하고자 한다.

Generative Interactive Psychotherapy Expert (GIPE) Bot

  • Ayesheh Ahrari Khalaf;Aisha Hassan Abdalla Hashim;Akeem Olowolayemo;Rashidah Funke Olanrewaju
    • International Journal of Computer Science & Network Security
    • /
    • 제23권4호
    • /
    • pp.15-24
    • /
    • 2023
  • One of the objectives and aspirations of scientists and engineers ever since the development of computers has been to interact naturally with machines. Hence features of artificial intelligence (AI) like natural language processing and natural language generation were developed. The field of AI that is thought to be expanding the fastest is interactive conversational systems. Numerous businesses have created various Virtual Personal Assistants (VPAs) using these technologies, including Apple's Siri, Amazon's Alexa, and Google Assistant, among others. Even though many chatbots have been introduced through the years to diagnose or treat psychological disorders, we are yet to have a user-friendly chatbot available. A smart generative cognitive behavioral therapy with spoken dialogue systems support was then developed using a model Persona Perception (P2) bot with Generative Pre-trained Transformer-2 (GPT-2). The model was then implemented using modern technologies in VPAs like voice recognition, Natural Language Understanding (NLU), and text-to-speech. This system is a magnificent device to help with voice-based systems because it can have therapeutic discussions with the users utilizing text and vocal interactive user experience.