Web Image Caption Extraction using Positional Relation and Lexical Similarity

위치적 연관성과 어휘적 유사성을 이용한 웹 이미지 캡션 추출

  • 이형규 (고려대학교 컴퓨터.전파통신공학과) ;
  • 김민정 (고려대학교 컴퓨터.전파통신공학과) ;
  • 홍금원 (고려대학교 컴퓨터.전파통신공학과) ;
  • 임해창 (고려대학교 컴퓨터통신공학부)
  • Published : 2009.04.15

Abstract

In this paper, we propose a new web image caption extraction method considering the positional relation between a caption and an image and the lexical similarity between a caption and the main text containing the caption. The positional relation between a caption and an image represents how the caption is located with respect to the distance and the direction of the corresponding image. The lexical similarity between a caption and the main text indicates how likely the main text generates the caption of the image. Compared with previous image caption extraction approaches which only utilize the independent features of image and captions, the proposed approach can improve caption extraction recall rate, precision rate and 28% F-measure by including additional features of positional relation and lexical similarity.

이 논문은 웹 문서의 이미지 캡션 추출을 위한 방법으로서 이미지와 캡션의 위치적 연관성과 본문과 캡션의 어휘적 유사성을 동시에 고려한 방법을 제안한다. 이미지와 캡션의 위치적 연관성은 거리와 방향 관점에서 캡션이 이미지에 상대적으로 어떻게 위치하고 있는지를 나타내며, 본문과 캡션의 어휘적 유사성은 이미지를 설명하고 있는 캡션이 어휘적으로 본문과 어느 정도 유사한지를 나타낸다. 이미지와 캡션을 독립적으로 고려한 자질만을 사용한 캡션 추출 방법을 기저 방법으로 놓고 제안하는 방법들을 추가적인 자질로 사용하여 캡션을 추출하였을 때, 캡션 추출 정확률과 캡션 추출 재현율이 모두 향상되며, 캡션 추출 F-measure가 약 28% 향상되었다.

Keywords

References

  1. N.C.Rowe and B.Frew, 'Automatic caption localization for photographs on World Wide Web pages,' Information Processing and Management, Vol.34, No.1, pp. 95-107, 1998 https://doi.org/10.1016/S0306-4573(97)00048-4
  2. N.C.Rowe, 'MARIE-4: A High-Recall Self-Impro ving Web Crawler That Finds Images Using Captions,' IEEE Intelligent Systems, 17(4), pp. 8-14, 2002a https://doi.org/10.1109/MIS.2002.1024745
  3. N.C.Rowe, 'Virtual Multimedia Libraries Built from the Web,' Proceedings of Joint Conference on Digital Libraries (JCDL), 2002b https://doi.org/10.1145/544220.544251
  4. N.C.Rowe, 'Exploiting captions for Web data mining,' Web mining: applications and techniques pp. 119-144, 2005
  5. Maderlechner et al., 'Finding Captions in PDFDocuments for Semantic Annotations of Images,' SSPR&SPR 2006, pp. 422-430, 2006
  6. 황지익 외, '텍스트 정보와 시각 특징 정보를 이용한 효과적인 웹 이미지 캡션 추출 방법', 한국컴퓨터종합 학술대회 논문집 Vol.33, No.1(B), pp. 346-348, 2006
  7. 조수선 외, '기계학습 기반의 웹 이미지 분류', 한국정보처리학회 논문지 B, Vol.9-B, No.06, pp. 759-764, 2002 https://doi.org/10.3745/KIPSTB.2002.9B.6.759
  8. 조수선, 'SOM 기반 웹 이미지 분류에서 고수준 텍스트 특징들의 효과', 한국정보처리학회논문지 B, Vol.13-B, No.02, pp. 121-126, 2006 https://doi.org/10.3745/KIPSTB.2006.13B.2.121
  9. S.Mukherjea et al., 'Automatically Determining Semantics for World Wide Web Multimedia Information Retrieval,' Journal of Visual Languages and Computing, 10, pp. 585-606, 1999 https://doi.org/10.1006/jvlc.1999.0147
  10. M.Cascia et al., 'Combining Textual and Visual Cues for Content-based Image Retrieval on the World Wide Web,' Proceedings of IEEE Workshop on Content-based Access of Image and Video Libraries, 1998
  11. S.Sclaroff et al., 'ImageRover: A Content-Based Image Browser for the World Wide Web,' Proceedings of IEEE Workshop on Content-based Access of Image and Video Libraries, pp. 2-9, 1997 https://doi.org/10.1109/IVL.1997.629714
  12. Z.Chen, et al., 'Web Mining for Web Image Retrieval,' Journal of the American Society for Information Science and Technology, Vol.52, No.10, pp. 831-839, 2001 https://doi.org/10.1002/asi.1132
  13. C.Frankel, et al., 'WebSeer: An Image Search Engine for the World Wide Web,' Proceedings of IEEE Computer Vision and Pattern Recognition Conference, 1997
  14. J.Smith et al., 'WebSeek: An Image and Video Search Engine for the World Wide Web,' in IS&T/SPIE Proceedings of Storage and Retrieval for Image and Video Database V, pp. 84-95, 1997
  15. C.D.Manning et al., 'Foundations of Statistical Natural Language Processing,' The MIT Press, 2003
  16. J.M.Ponte et al., 'A language modeling approach to information retrieval,' Proceedings of the ACM SIGIR, pp. 275-281, 1998 https://doi.org/10.1145/290941.291008
  17. A.L.Berger, V.J.D.Pietra, and S.A.D.Pietra, A Maximum Entropy Approach to Natural Language Processing, Computational Linguistics Vol.22, No.1, pp. 39-71, 1996