Image captioning and video captioning using Transformer

Gi-Duk Kim;Geun-Hoo Lee;

Proceedings of the Korean Society of Computer Information Conference (한국컴퓨터정보학회:학술대회논문집)

2023.01a
/
Pages.303-305
/
2023

Korean Society of Computer Information (한국컴퓨터정보학회)

Image captioning and video captioning using Transformer

Transformer를 사용한 이미지 캡셔닝 및 비디오 캡셔닝

Gi-Duk Kim (3Ifuture) ;
Geun-Hoo Lee (3Ifuture)

김기덕 ((주)쓰리아이퓨처) ;
이근후 ((주)쓰리아이퓨처)

Published : 2023.01.11

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문에서는 트랜스포머를 사용한 이미지 캡셔닝 방법과 비디오 캡셔닝 방법을 제안한다. 트랜스포머의 입력으로 사전 학습된 이미지 클래스 분류모델을 거쳐 추출된 특징을 트랜스포머의 입력으로 넣고 인코더-디코더를 통해 이미지와 비디오의 캡션을 출력한다. 이미지 캡셔닝의 경우 한글 데이터 세트를 학습하여 한글 캡션을 출력하도록 학습하였으며 비디오 캡셔닝의 경우 MSVD 데이터 세트를 학습하여 학습 후 출력 캡션의 성능을 다른 비디오 캡셔닝 모델의 성능과 비교하였다. 비디오 캡셔닝에서 성능향상을 위해 트랜스포머의 디코더를 변형한 GPT-2를 사용하였을 때 BLEU-1 점수가 트랜스포머의 경우 0.62, GPT-2의 경우 0.80으로 성능이 향상됨을 확인하였다

Proceedings of the Korean Society of Computer Information Conference (한국컴퓨터정보학회:학술대회논문집)

Image captioning and video captioning using Transformer

Transformer를 사용한 이미지 캡셔닝 및 비디오 캡셔닝

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)