모달리티 반영 뷰를 활용하는 대조 학습 기반의 멀티미디어 추천 시스템

Multimedia Recommender System Based on Contrastive Learning with Modality-Reflective View

  • 반소희 (한양대학교 미래모빌리티학과 ) ;
  • 김태리 (한양대학교 컴퓨터소프트웨어학과) ;
  • 김상욱 (한양대학교 컴퓨터소프트웨어학과)
  • SoHee Ban (Dept. of Future Mobility, Hanyang University) ;
  • Taeri Kim (Dept. of Computer Science, Hanyang University) ;
  • Sang-Wook Kim (Dept. of Computer Science, Hanyang University)
  • 발행 : 2024.05.23


최근, 대조 학습 기반의 멀티미디어 추천 시스템들이 활발하게 연구되고 있다. 이들은 아이템의 다양한 모달리티 피처들을 활용하여 사용자와 아이템에 대한 임베딩들(뷰들)을 생성하고, 이들을 통해 대조 학습을 진행한다. 학습한 뷰들을 추천에 활용함으로써, 이들은 기존 멀티미디어 추천 시스템들보다 상당히 향상된 추천 정확도를 획득했다. 그럼에도 불구하고, 우리는 기존 대조 학습 기반의 멀티미디어 추천 시스템들이 아이템의 뷰들을 생성하는 데에 아이템의 모달리티 피처들을 올바르게 반영하는 것의 중요성을 간과하며, 그 결과 추천 정확도 향상에 제약을 갖는다고 주장한다. 이는 아이템 임베딩에 아이템 자신의 모달리티 피처를 올바르게 반영하는 것이 추천 정확도에 향상에 도움이 된다는 기존 멀티미디어 추천 시스템의 발견에 기반한다. 따라서 본 논문에서 우리는 아이템의 모달리티 피처들을 올바르게 반영할 수 있는 뷰(구체적으로, 모달리티 반영 뷰)를 통해 대조 학습을 진행하는 새로운 멀티미디어 추천 시스템을 제안한다. 제안 방안은 두 가지 실세계 공개 데이터 집합들에 대해 최신 멀티미디어 추천 시스템보다 6.78%까지 향상된 추천 정확도를 보였다.



이 논문은 2024 년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원과 한국연구재단의 지원을 받아 수행된 연구임(No.2022-0-00352, No.RS-2022-00155586, No.2018R1A5A7059549)


  1. Chae, Dong-Kyu, et al. "Rating augmentation with generative adversarial networks towards accurate collaborative filtering." The World Wide Web Conference. 2019.
  2. Chae, Dong-Kyu, et al. "AR-CF: Augmenting virtual users and items in collaborative filtering for addressing cold-start problems." Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2020.
  3. Kong, Taeyong, et al. "Linear, or non-linear, that is the question!." Proceedings of the fifteenth ACM international conference on web search and data mining. 2022.
  4. Lim, Hongjun, et al. "AiRS: a large-scale recommender system at naver news." 2022 IEEE 38th International Conference on Data Engineering (ICDE). IEEE, 2022.
  5. Rendle, Steffen, et al. "BPR: Bayesian personalized ranking from implicit feedback." arXiv preprint arXiv:1205.2618 (2012).
  6. Su, Yixin, et al. "Neural graph matching based collaborative filtering." Proceedings of the 44th international ACM SIGIR conference on research and development in information retrieval. 2021.
  7. Chen, Lei, et al. "Set2setRank: Collaborative set to set ranking for implicit feedback based recommendation." Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2021.
  8. He, Ruining, and Julian McAuley. "VBPR: visual bayesian personalized ranking from implicit feedback." Proceedings of the AAAI conference on artificial intelligence. Vol. 30. No. 1. 2016.
  9. Wei, Yinwei, et al. "MMGCN: Multi-modal graph convolution network for personalized recommendation of micro-video." Proceedings of the 27th ACM international conference on multimedia. 2019.
  10. Wei, Yinwei, et al. "Graph-refined convolutional network for multimedia recommendation with implicit feedback." Proceedings of the 28th ACM international conference on multimedia. 2020.
  11. Zhang, Jinghao, et al. "Mining latent structures for multimedia recommendation." Proceedings of the 29th ACM international conference on multimedia. 2021.
  12. Kim, Taeri, et al. "MARIO: modality-aware attention and modality-preserving decoders for multimedia recommendation." Proceedings of the 31st ACM International Conference on Information & Knowledge Management. 2022.
  13. Kim, Yungi, et al. "MONET: Modality-Embracing Graph Convolutional Network and Target-Aware Attention for Multimedia Recommendation." Proceedings of the 17th ACM International Conference on Web Search and Data Mining. 2024.
  14. Kipf, Thomas N., and Max Welling. "Semi-supervised classification with graph convolutional networks." arXiv preprint arXiv:1609.02907 (2016).
  15. Chen, Ting, et al. "A simple framework for contrastive learning of visual representations." International conference on machine learning. PMLR, 2020.
  16. Yu, Penghang, et al. "Multi-view graph convolutional network for multimedia recommendation." Proceedings of the 31st ACM International Conference on Multimedia. 2023.
  17. Yi, Zixuan, et al. "Multi-modal graph contrastive learning for micro-video recommendation." Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022.
  18. Zhang, Jinghao, et al. "Latent structure mining with contrastive modality fusion for multimedia recommendation." IEEE Transactions on Knowledge and Data Engineering (2022).
  19. Tao, Zhulin, et al. "Self-supervised learning for multimedia recommendation." IEEE Transactions on Multimedia (2022).
  20. Wei, Yinwei, et al. "Contrastive learning for cold-start recommendation." Proceedings of the 29th ACM International Conference on Multimedia. 2021.
  21. Zhou, Xin, and Zhiqi Shen. "A tale of two graphs: Freezing and denoising graph structures for multimodal recommendation." Proceedings of the 31st ACM International Conference on Multimedia. 2023.
  22. McAuley, Julian, et al. "Image-based recommendations on styles and substitutes." Proceedings of the 38th international ACM SIGIR conference on research and development in information retrieval. 2015.