• 제목/요약/키워드: backchannel prediction

검색결과 2건 처리시간 0.014초

Joint streaming model for backchannel prediction and automatic speech recognition

  • Yong-Seok Choi;Jeong-Uk Bang;Seung Hi Kim
    • ETRI Journal
    • /
    • 제46권1호
    • /
    • pp.118-126
    • /
    • 2024
  • In human conversations, listeners often utilize brief backchannels such as "uh-huh" or "yeah." Timely backchannels are crucial to understanding and increasing trust among conversational partners. In human-machine conversation systems, users can engage in natural conversations when a conversational agent generates backchannels like a human listener. We propose a method that simultaneously predicts backchannels and recognizes speech in real time. We use a streaming transformer and adopt multitask learning for concurrent backchannel prediction and speech recognition. The experimental results demonstrate the superior performance of our method compared with previous works while maintaining a similar single-task speech recognition performance. Owing to the extremely imbalanced training data distribution, the single-task backchannel prediction model fails to predict any of the backchannel categories, and the proposed multitask approach substantially enhances the backchannel prediction performance. Notably, in the streaming prediction scenario, the performance of backchannel prediction improves by up to 18.7% compared with existing methods.

대화 맥락을 반영한 백채널 예측 모델 (Conversation Context-Aware Backchannel Prediction Model)

  • 최용석;박요한;;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.263-268
    • /
    • 2023
  • 백채널은 화자의 말에 언어 및 비언어적으로 반응하는 것으로 상대의 대화 참여를 유도하는 역할을 한다. 백채널은 보편형 대화 참여와 반응형 대화 참여로 나뉠 수 있다. 보편형 대화 참여는 화자에게 대화를 장려하도록 하는 단순한 반응이다. 반면에 반응형 대화 참여는 화자의 발화 의도를 파악하고 그에 맞게 반응하는 것이다. 이때 발화의 의미를 파악하기 위해서는 표면적인 의미뿐만 아니라 대화의 맥락을 이해해야 한다. 본 논문에서는 대화 맥락을 반영한 백채널 예측 모델을 제안하고 예측 성능을 개선하고자 한다. 대화 맥락을 요약하기 위한 방법으로 전체 요약과 선택 요약을 제안한다. 한국어 상담 데이터를 대상으로 실험한 결과는 현재 발화만 사용했을 때보다 제안한 방식으로 대화 맥락을 반영했을 때 성능이 향상되었다.

  • PDF