• Title/Summary/Keyword: backchannel prediction

Search Result 2, Processing Time 0.014 seconds

Joint streaming model for backchannel prediction and automatic speech recognition

  • Yong-Seok Choi;Jeong-Uk Bang;Seung Hi Kim
    • ETRI Journal
    • /
    • v.46 no.1
    • /
    • pp.118-126
    • /
    • 2024
  • In human conversations, listeners often utilize brief backchannels such as "uh-huh" or "yeah." Timely backchannels are crucial to understanding and increasing trust among conversational partners. In human-machine conversation systems, users can engage in natural conversations when a conversational agent generates backchannels like a human listener. We propose a method that simultaneously predicts backchannels and recognizes speech in real time. We use a streaming transformer and adopt multitask learning for concurrent backchannel prediction and speech recognition. The experimental results demonstrate the superior performance of our method compared with previous works while maintaining a similar single-task speech recognition performance. Owing to the extremely imbalanced training data distribution, the single-task backchannel prediction model fails to predict any of the backchannel categories, and the proposed multitask approach substantially enhances the backchannel prediction performance. Notably, in the streaming prediction scenario, the performance of backchannel prediction improves by up to 18.7% compared with existing methods.

Conversation Context-Aware Backchannel Prediction Model (대화 맥락을 반영한 백채널 예측 모델)

  • Yong-Seok Choi;Yo-Han Park;Wencke Liermann;Kong Joo Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.263-268
    • /
    • 2023
  • 백채널은 화자의 말에 언어 및 비언어적으로 반응하는 것으로 상대의 대화 참여를 유도하는 역할을 한다. 백채널은 보편형 대화 참여와 반응형 대화 참여로 나뉠 수 있다. 보편형 대화 참여는 화자에게 대화를 장려하도록 하는 단순한 반응이다. 반면에 반응형 대화 참여는 화자의 발화 의도를 파악하고 그에 맞게 반응하는 것이다. 이때 발화의 의미를 파악하기 위해서는 표면적인 의미뿐만 아니라 대화의 맥락을 이해해야 한다. 본 논문에서는 대화 맥락을 반영한 백채널 예측 모델을 제안하고 예측 성능을 개선하고자 한다. 대화 맥락을 요약하기 위한 방법으로 전체 요약과 선택 요약을 제안한다. 한국어 상담 데이터를 대상으로 실험한 결과는 현재 발화만 사용했을 때보다 제안한 방식으로 대화 맥락을 반영했을 때 성능이 향상되었다.

  • PDF