• 제목/요약/키워드: Real Utterances

검색결과 19건 처리시간 0.02초

Greeting, Function, and Music: How Users Chat with Voice Assistants

  • Wang, Ji;Zhang, Han;Zhang, Cen;Xiao, Junjun;Lee, Seung Hee
    • 감성과학
    • /
    • 제23권2호
    • /
    • pp.61-74
    • /
    • 2020
  • Voice user interface has become a commercially viable and extensive interaction mechanism with the development of voice assistants. Despite the popularity of voice assistants, the academic community does not utterly understand about what, when, and how users chat with them. Chatting with a voice assistant is crucial as it defines how a user will seek the help of the assistant in the future. This study aims to cover the essence and construct of conversational AI, to develop a classification method to deal with user utterances, and, most importantly, to understand about what, when, and how Chinese users chat with voice assistants. We collected user utterances from the real conventional database of a commercial voice assistant, NetEase Sing in China. We also identified different utterance categories on the basis of previous studies and real usage conditions and annotated the utterances with 17 labels. Furthermore, we found that the three top reasons for the usage of voice assistants in China are the following: (1) greeting, (2) function, and (3) music. Chinese users like to interact with voice assistants at night from 7 PM to 10 PM, and they are polite toward the assistants. The whole percentage of negative feedback utterances is less than 6%, which is considerably low. These findings appear to be useful in voice interaction designs for intelligent hardware.

실제 발화 상황에서 프랑스어와 한국어의 음절구조 비교 (A Comparative Study of Syllable Structures between French and Korean in Real Utterances)

  • 이은영
    • 음성과학
    • /
    • 제10권2호
    • /
    • pp.237-248
    • /
    • 2003
  • This paper compares the syllable structure of French and Korean analyzing the speech data of these two languages recorded during the actual speech. Reference to the syllable structure of French is made from F. Wioland's research data. As for the Korean data, the primary data are drawn from the 30-minute radio interview in which two male TV anchors in their early 60s talk to each other. The secondary source of the data is collected by having the primary data replicated by the two male announcers in their early 20's broadcasting in the university ra야o station of KAIST. With reference to the data collected in French and Korean, this paper provides the statistical frequency of each type of syllable structure in each language through the acoustic analysis of the spectrograms and renders a phonetic account of the characteristics of each syllable type in the two languages. Also discussed in this paper is the distributional condition in which each syllable structure is laid out in the speech context.

  • PDF

발화행태 특징을 활용한 응급상황 신고자 연령분류 (Age classification of emergency callers based on behavioral speech utterance characteristics)

  • 손귀영;권순일;백성욱
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권6호
    • /
    • pp.96-105
    • /
    • 2017
  • 본 논문에서는 실제 응급상황센터에 접수된 신고전화의 음성분석을 통하여 발화자의 연령을 분류하고자 한다. 2가지 발화행태적 특징요소인 무성휴지(Silent Pause), 대화반응시간(Turn-taking latency)를 활용하여 성인과 노인을 분류할 수 있는 특징에 대한 분류기준을 선정하고, 이를 기계학습 분류기인 SVM(Support Vector Machine)을 활용하여 분류정확도를 확인하였다. 먼저, 응급상황센터의 실제 신고전화에 대하여 발화행태적 특징 요소를 기반으로 청취분석을 통하여 발생길이에 대하여 성인과 노인사이에 통계적으로 유의하다는 것을 확인하였다(p<0.05). 또한, 성인과 노인 각 100개, 총 200개의 음성데이터를 5차 교차검증방법을 사용하여 기계학습을 실행한 결과, 2가지의 발화행태를 모두 사용한 복합기준(무성휴지+대화반응시간)일 경우, 70%의 가장 높은 분류정확도를 확인할 수 있었다. 본 연구의 결과는 음성에 기반한 연령을 분류하는 연구에 있어서, 기존의 음성정보와 더불어, 새로운 발화행태적 특징요소와의 결합을 통하여 연령구분을 가능하게 하는 새로운 방법으로 제안할 수 있을 것이다. 또한, 향후 음성기반 상황판단 시스템 기술 개발에 있어서 기초자료로 적용이 가능하며, 이를 통하여 신속한 연령분류를 판단을 통한 상황대처가 가능하도록 하는 데에 기여할 수 있을 것이다.

운율교육을 위한 운율이식기술 개선 방안 연구 (Improvement of Prosody Transplantation Technology for English Prosody Education and Its Application)

  • 이서배
    • 대한음성학회지:말소리
    • /
    • 제61호
    • /
    • pp.49-62
    • /
    • 2007
  • This study focused on the improvement of prosody transplantation technology to be used for effective prosody education. Issues making the technology a less acceptable tool for prosody education were addressed. Instead of merely copying the target pitch onto a learner's utterances, the target pitch was resealed in semitone before the transplantation. In so doing, distortion of a signal was minimized and the transplanted utterance could have the quality of sound not different from the learner's utterances. Instead of manual transplantation, an automatic procedure was proposed to increase the reliability and the consistency of the outcome and enable real time processing. The perceptual performance of the automatic transplantation was evaluated by the perception experiment showing the automatic ransplantation was as good as the manual process.

  • PDF

자질 선택 기법을 이용한 한국어 화행 결정 (Decision of the Korean Speech Act using Feature Selection Method)

  • 김경선;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.278-284
    • /
    • 2003
  • 화행(speech act)이란 화자의 발화를 통해 나타나는 화자의 의도를 가르키며 자연어로 된 발화를 이해하고 이에 대한 응답을 생성하기 위해 중요한 요소이다. 본 논문에서는 한국어 화행 결정의 성능을 높이기 위해 두 단계 방법을 제안한다. 첫 번째 단계는 형태소 분석결과만을 이용하여 추출된 문장자질과 이전 화행을 이용하여 추출된 문맥자질 중 정보량이 높은 자질을 선택하는 단계이다. 이 단계에서는 형태소 분석 시스템을 사용하여 전체 자질을 구성하고 문서분류 분야의 자질 선택에서 높은 성능을 보인 카이제곱 통계량을 이용하여 효과적인 자질 선택한다. 두 번째 단계는 선택된 자질과 신경망을 이용하여 화행을 분석하는 단계이다. 본 논문에서 제시한 방법은 형태소 분석 결과만을 이용하여 자동적으로 화행을 결정할 수 있는 가능성을 제시하였으며 효과적인 자질 선택을 통해 자질의 수를 감소시키고 정보량이 높은 자질을 사용하여 속도와 성능을 향상 시켰다 본 논문은 제안된 시스템을 실제 영역에서 수집되어 전사된 10,285개의 발화와 17개의 화행으로 이루어진 대화 코퍼스에 대해 실험하였다. 본 논문은 이 코퍼스에서 8,349개 발화를 학습 코퍼스로 사용하여, 실험 코퍼스의 1,936개 발화에 대해 1,709개에 대해 정확한 화행을 제시하여, 88.3%의 정확도를 보였다. 이는 자질 선택을 하지 않았을 때 보다 약 8%가 증가된 결과이다.

MatLab를 이용한 실시간 피치분석기 구현 (An Implementation of Realtime Pitch Analyzer Using MatLab)

  • 박일서;안혜영;김대현;조철우
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.147-150
    • /
    • 2002
  • This paper describes procedures to implement a real-time pitch analyzer using Matlab. Matlab is a multi-purpose signal-processing tool. Using this tool real-time analysis tool is implemented. To make it real-time we used data acquisition toolbox which comes with Matlab. Autocorrelation method was used as a basic algorithm. The resulting pitch informations are displayed in two different forms, i.e. instantaneous pitch plot and pitch track. V/UV decision is performed using zero crossing rate and energy Informations based on 500 utterances.

  • PDF

ETRI 방송뉴스음성인식시스템 소개 (Introduction of ETRI Broadcast News Speech Recognition System)

  • 박준
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 춘계 학술대회 발표논문집
    • /
    • pp.89-93
    • /
    • 2006
  • This paper presents ETRI broadcast news speech recognition system. There are two major issues on the broadcast news speech recognition: 1) real-time processing and 2) out-of-vocabulary handling. For real-time processing, we devised the dual decoder architecture. The input speech signal is segmented based on the long-pause between utterances, and each decoder processes the speech segment alternatively. One decoder can start to recognize the current speech segment without waiting for the other decoder to recognize the previous speech segment completely. Thus, the processing delay is not accumulated. For out-of-vocabulary handling, we updated both the vocabulary and the language model, based on the recent news articles on the internet. By updating the language model as well as the vocabulary, we can improve the performance up to 17.2% ERR.

  • PDF

프랑스 구어 교육을 위한 실제 발화 운율 단위의 실험 음성학적 고찰 (An Experimental Phonetic Study of Prosodics Units in Real Utterances for Spoken French Teaching)

  • 이은영;유혜옥;이경민
    • 대한음성학회지:말소리
    • /
    • 제47호
    • /
    • pp.15-29
    • /
    • 2003
  • When intonation in French is analysed in terms of a multi-dimentional and hierarchical structure, each of the prosodic units such as accent phrases(having different combinations of the basic tonemes L and H), pre-sentencial and post-sentencial long pauses, intonation phrases(containing boundary intonation), as well as intermediate phrases can be considered being realized on a separate tier. Unlike on the tiers where accent phrases and intonation phrases occur, an intonation rhythm consisting of plateaus is realised on that of intermediate phrases. This intonation rhythm consisting of plateaus is one of the significant factors that lead a basic French metrical rhythm. This paper first shows the types of combinations of the basic tonemes L and H found in French accent phrases. Secondly, this paper examines the roles intermediate phrases and plateaus play in French. Finally, this paper argues that intermediate phrases are the metrical units actually adopted as real utterance units in French.

  • PDF

음성명령에 의한 모바일로봇의 실시간 무선원격 제어 실현 (Real-Time Implementation of Wireless Remote Control of Mobile Robot Based-on Speech Recognition Command)

  • 심병균;한성현
    • 한국생산제조학회지
    • /
    • 제20권2호
    • /
    • pp.207-213
    • /
    • 2011
  • In this paper, we present a study on the real-time implementation of mobile robot to which the interactive voice recognition technique is applied. The speech command utters the sentential connected word and asserted through the wireless remote control system. We implement an automatic distance speech command recognition system for voice-enabled services interactively. We construct a baseline automatic speech command recognition system, where acoustic models are trained from speech utterances spoken by a microphone. In order to improve the performance of the baseline automatic speech recognition system, the acoustic models are adapted to adjust the spectral characteristics of speech according to different microphones and the environmental mismatches between cross talking and distance speech. We illustrate the performance of the developed speech recognition system by experiments. As a result, it is illustrated that the average rates of proposed speech recognition system shows about 95% above.

선행 발화의 중심 전이를 이용한 영형 생성 (Generation of Zero Pronouns using Center Transition of Preceding Utterances)

  • 노지은;나승훈;이종혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권10호
    • /
    • pp.990-1002
    • /
    • 2005
  • 자연스러운 텍스트를 생성하기 위해서는, 한번 언급된 대상을 지시하기 위한 대용화(pronominalization)과정이 필수적이며, 특히 한국어에 빈번히 발생하는 영형(zero pronoun)을 자연스럽게 생성하는 것이 중요하다. 본 논문에서는, 비용기반 중심화 이론(cost-based centering theory)을 적용하여, 선행 발화의 중심 전이(center transition)가 현 발화의 영형에 미치는 영향을 살펴본다. 이를 위해, 영형으로 실현될 수 있는 명사를 중심화 이론에 기반해 문장간 현저성, 문장내 현저성, 문장간/내 현저성을 가지는지의 여부로 4가지 유형(Npair, Ninter, Nintra, Nnon)으로 정의하고, 유형별로 영형 현상을 고찰하였다. 그 결과, 기존에 중심화 이론에서 배제되었던 명사들이 선행 발화의 중심 전이로 설명될 수 있음을 밝혔다. 또, 선행 발화의 중심 전이를 이용한 영형 생성 모델을 구축하여 다양한 자질을 적용한 영형 생성 모델의 성능과 비교하였다.