Acknowledgement
이 논문은 2023년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원(No. 2022-0-00608)과 정보통신산업진흥원(S0102-23-1008)의 지원을 받아 수행된 연구임
자연스러운 상호작용이 가능한 인공지능 에이전트를 개발하기 위해서는 언어적 표현뿐 아니라, 비언어적 표현 또한 고려되어야 한다. 본 논문에서는 한국어 발화문으로부터 비언어적 표현인 모션을 생성하는 연구를 소개한다. 유튜브 영상으로부터 데이터셋을 구축하고, Text to Motion의 기존 모델인 T2M-GPT와 이종 모달리티 데이터를 연계 학습한 VL-KE-T5의 언어 인코더를 활용하여 구현한 모델로 실험을 진행하였다. 실험 결과, 한국어 발화 텍스트에 대해 생성된 모션 표현은 FID 스코어 0.11의 성능으로 나타났으며, 한국어 발화 정보 기반 비언어 표현 정보 생성의 가능성을 보여주었다.
이 논문은 2023년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원(No. 2022-0-00608)과 정보통신산업진흥원(S0102-23-1008)의 지원을 받아 수행된 연구임