DOI QR코드

DOI QR Code

ICLAL: In-Context Learning-Based Audio-Language Multi-Modal Deep Learning Models

ICLAL: 인 컨텍스트 러닝 기반 오디오-언어 멀티 모달 딥러닝 모델

  • Jun Yeong Park (Dept. of AI-Based Convergence, Dankook University) ;
  • Jinyoung Yeo (Dept. of Artificial Intelligence, Yonsei University) ;
  • Go-Eun Lee (Dept. of Computer Engineering, Dankook University) ;
  • Chang Hwan Choi (Dept. of Computer Engineering, Dankook University) ;
  • Sang-Il Choi (Dept. of Computer Engineering, Dankook University)
  • 박준영 (단국대학교 인공지능융합학과 ) ;
  • 여진영 (연세대학교 인공지능학과) ;
  • 이고은 (단국대학교 컴퓨터학과) ;
  • 최창환 (단국대학교 컴퓨터공학과) ;
  • 최상일 (단국대학교 컴퓨터공학과 )
  • Published : 2023.11.02

Abstract

본 연구는 인 컨택스트 러닝 (In-Context Learning)을 오디오-언어 작업에 적용하기 위한 멀티모달 (Multi-Modal) 딥러닝 모델을 다룬다. 해당 모델을 통해 학습 단계에서 오디오와 텍스트의 소통 가능한 형태의 표현 (Representation)을 학습하고 여러가지 오디오-텍스트 작업을 수행할 수 있는 멀티모달 딥러닝 모델을 개발하는 것이 본 연구의 목적이다. 모델은 오디오 인코더와 언어 인코더가 연결된 구조를 가지고 있으며, 언어 모델은 6.7B, 30B 의 파라미터 수를 가진 자동회귀 (Autoregressive) 대형 언어 모델 (Large Language Model)을 사용한다 오디오 인코더는 자기지도학습 (Self-Supervised Learning)을 기반으로 사전학습 된 오디오 특징 추출 모델이다. 언어모델이 상대적으로 대용량이기 언어모델의 파라미터를 고정하고 오디오 인코더의 파라미터만 업데이트하는 프로즌 (Frozen) 방법으로 학습한다. 학습을 위한 과제는 음성인식 (Automatic Speech Recognition)과 요약 (Abstractive Summarization) 이다. 학습을 마친 후 질의응답 (Question Answering) 작업으로 테스트를 진행했다. 그 결과, 정답 문장을 생성하기 위해서는 추가적인 학습이 필요한 것으로 보였으나, 음성인식으로 사전학습 한 모델의 경우 정답과 유사한 키워드를 사용하는 문법적으로 올바른 문장을 생성함을 확인했다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 학석사연계 ICT 핵심인재양성사업의 연구결과로 수행되었음 (RS-2023-00259867)