DOI QR코드

DOI QR Code

CBIR-based Data Augmentation and Its Application to Deep Learning

CBIR 기반 데이터 확장을 이용한 딥 러닝 기술

  • Kim, Sesong (Department of Multimedia Engineering, Dongguk University) ;
  • Jung, Seung-Won (Department of Multimedia Engineering, Dongguk University)
  • 김세송 (동국대학교 멀티미디어공학과) ;
  • 정승원 (동국대학교 멀티미디어공학과)
  • Received : 2018.04.03
  • Accepted : 2018.05.14
  • Published : 2018.05.30

Abstract

Generally, a large data set is required for learning of deep learning. However, since it is not easy to create large data sets, there are a lot of techniques that make small data sets larger through data expansion such as rotation, flipping, and filtering. However, these simple techniques have limitation on extendibility because they are difficult to escape from the features already possessed. In order to solve this problem, we propose a method to acquire new image data by using existing data. This is done by retrieving and acquiring similar images using existing image data as a query of the content-based image retrieval (CBIR). Finally, we compare the performance of the base model with the model using CBIR.

딥 러닝의 학습을 위해서 일반적으로 많은 양의 데이터가 필요하다. 그러나 많은 양의 데이터 세트를 만드는 것은 쉽지 않기 때문에, 회전, 반전 (flipping), 필터링 (filtering) 등의 간단한 데이터 확장 (data augmentation) 기법을 통해 작은 데이터 세트를 좀 더 큰 데이터 세트로 만드는 여러 시도들이 있었다. 그러나 이러한 기법들은 이미 보유하고 있는 데이터 세트만을 이용하기 때문에 확장성에 제약을 갖는다. 이런 문제를 해결하기 위해 본고에서는 보유하고 있는 영상 데이터를 이용하여 새로운 영상 데이터를 획득하는 기술을 제안한다. 이는 기존 데이터 세트의 영상 데이터를 CBIR(Contents based image retrieval)의 쿼리로 이용하여 유사 영상들을 검색하여 획득하는 방식으로 이루어진다. 최종적으로 CBIR을 이용해 확장한 데이터를 딥 러닝으로 학습시켜 확장 전후의 성능을 비교하였다.

Keywords

References

  1. R. Datta, J. Li, and J.Z. Wang, "Content-Based Image Retrieval: Approaches and Trends of the New Age," Proceedings of the 7th ACM SIGMM international workshop on Multimedia information retrieval, ACM, New York, USA, pp.253-262, November, 2005, doi:10.1145/1101826.1101866.
  2. C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, "Going deeper with convolutions," Computer Vision and Pattern Recognition(CVPR), Boston, USA, June, 2015, doi:10.1109/CVPR.2015.7298594.
  3. G. Griffin, A. Holub, and P. Perona. "Caltech-256 object category dataset," California Institute of Technology, 2007.
  4. A. Krizhevsky, V. Nair, and G. Hinton, "The CIFAR-10 dataset," 2014, http://www.cs.toronto.edu/kriz/cifar.html.
  5. J. Cho, K. lee, E. Shin, G. Choy. S. Do "How much data is needed to train a medical image deep learning system to achieve necessary high accuracy?," 2015. https://arxiv.org/abs/1511.06348.
  6. K. Yee, K. Swearingen, K. Li, and M. Hearst, "Faceted metadata for image search and browsing," Proceedings of the SIGCHI conference on Human factors in computing systemsm, Florida, USA, April, 2003, doi:10.1145/642611.642681.
  7. A. Radford, M. Luke, and C. Soumith, "Unsupervised representation learning with deep convolutional generative adversarial networks," International Conference on Learning Representations(ICLR), San Juan, Puerto Rico, May, 2016.