Research on Lyric Generation conditioned on Accompaniment using T5

T5 모델을 활용한 반주 기반 가사 생성 기법에 관한 연구

  • Gi-Tae Jang (Dept. of Computer Software, Dongseoul University) ;
  • Tae-Heon Jin (Dept. of Computer Software, Dongseoul University) ;
  • Doo-Sang Kim (Dept. of Computer Software, Dongseoul University)
  • 장기태 (동서울대학교 컴퓨터소프트웨어학과) ;
  • 진태헌 (동서울대학교 컴퓨터소프트웨어학과) ;
  • 김두상 (동서울대학교 컴퓨터소프트웨어학과)
  • Published : 2024.05.23

Abstract

본 논문은 T5(Text-To-Text Transfer Transformer) 모델을 활용한 반주 기반 가사 생성 기법을 제안하였다. 텍스트 이벤트 형식으로 변환한 정제된 반주를 "가사 생성" Task Token과 같이 T5에 적용하여 입력된 반주에 상응하는 가사를 생성하는 방식이다. 본 논문에서 제안한 방식의 성능 검증을 위해 Transformer, GPT-2, BART를 이용하여 가사를 생성한 출력물을 BLEU(Bilingual Evaluation Understudy) 값과 감정분석 일치도(Emotion Analysis Consistency) 결과값을 통해 비교 평가하였다. 본 논문에서 제안한 T5를 이용한 방식이 Transformer, GPT-2, BART를 사용하는 방식보다 우수한 결과를 얻었다.

Keywords

References

  1. Thomas Melistas et al., Lyrics and Vocal Melody Generation Conditioned on Accompaniment, 2nd Workshop on NLP for Music and Spoken Audio (NLPMusA), 2021, 18-23.
  2. Colin Raffel et al., Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Journal of Machine Learning Research (JMLR), 21, 140, 1-67, 2020.
  3. Papineni et al, BLEU: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002., 311-318