DOI QR코드

DOI QR Code

A Machine Learning Approach to Web Image Classification

기계학습 기반의 웹 이미지 분류

  • 조수선 (한국전자통신연구원 정보가전연구부) ;
  • 이동우 (한국전자통신연구원 정보가전연구부) ;
  • 한동원 (한국전자통신연구원) ;
  • 황치정 (충남대학교 컴퓨터과학과)
  • Published : 2002.12.01

Abstract

Although image occupies a large part of importance on the Web documents, there have not been many researches for analyzing and understanding it. Many Web images are used for carrying important information but others are not used for it. In this paper classify the Web images from presently served Web sites to erasable or non-erasable classes. based on machine learning methods. For this research, we have detected 16 special and rich features for Web images and experimented by using the Baysian and decision tree methods. As the results, F-measures of 87.09%, 82.72% were achived for each method and particularly, from the experiments to compare the effects of feature groups, it has proved that the added features on this study are very useful for Web image classification.

HTML 페이지로 대표되는 웹 문서에서 이미지는 매우 큰 비중을 차지하고 있지만 이에 대한 분석 및 이해에 관한 연구는 활발하게 진행되지 못하고 있다. 여러 가지 웹 이미지들은 중요한 정보를 전달하기도 하지만 그렇지 않은 것들도 있다. 본 논문에서는 현재 서비스중인 인터넷 사이트의 웹 이미지들을 수집하여 기계학습(machine learning)에 기반한 분류(classification)론 통해 제거 가능한 이미지와 제거 불가능한 이미지의 두가지 클래스로 분석해 본다. 이를 위해 16개의 독특하고 풍부한 웹 이미지 특징들을 발굴하고 베이지안 기법과 결정 트리 기법을 사용하여 실험하였다. 그 결과 각각의 기법에서 87.09%, 82.72%의 F-measure 값을 얻었으며 특히, 특징 그룹의 비교 실험을 통해 본 연구에서 추가한 특징들이 매우 유용한 것임을 입증하였다.

Keywords

References

  1. ADEW, 'HTML Analyser,' http://www.htmlanalyser.com/
  2. G. Penn, J. Hu, H. Luo and R. McDonald, 'Flexible web document analysis for delivery to narrow-bandwidth devices,' In Proc. 6th International Conference on Document Analysis and Recognition, Seattle, WA, USA, pp.1074-1078, September, 2001 https://doi.org/10.1109/ICDAR.2001.953951
  3. J. R. Smith, R. Mohan and C-S Li, 'Content-Based Transcoding of Images In The Internet,' In Proc. IEEE Inter. Conf. Image Processing, October, 1998 https://doi.org/10.1109/ICIP.1998.998987
  4. Knowledge Media Institute and The Open University, 'RoC: The Robust Bayesian Classifier,' http://kmi.open.ac.uk/projects/bkd/
  5. M. J Swain, C. Frankel and V. Athitsos, 'WebSeer : An Image Search Engine for the World Wide Web,' In Proc. IEEE Computer Vision and Pattern Recognition Conference, June, 1997
  6. Rulequest Research, 'Data Mining Tools See5 and C5.0,' http://www.rulequest.com/see5-info.html
  7. S. Chandra, A. Gehani, C. S. Ellis and A. Vahdat, 'Transcoding Characteristics of Web Images,' In Proc. Multimedia Computing and Networking, San Jose, CA, Vol.4312, pp. 135-149, January, 2001
  8. S. Chandra and C. S. Ellis, ']pEG Compression Metric as a Quality Aware Image Transcoding,' In Proc. USENIX 2nd Symposium on Internet Technologies and Systems, Boulder, CO, pp.81-92, October, 1999
  9. S. Paek, 'Detecting image purpose in World-Wide Web documents,' In Proc. IS&T/SPIE Symposium on Electronic Imaging: Science and Technology Document Recognition, San Jose, CA, USA, January, 1998
  10. T. M. Mitchell, 'Machine Learning', McGraw-Hill, 1997
  11. Y. Wang and]. Hu, 'A Machine Learning Based Approach for Table Detection on The Web,' In Proc. The n' International World Wide Web Conference, Honolulu, Hawaii, USA, pp.242-250, May, 2002 https://doi.org/10.1145/511446.511478
  12. 김명관, '2단계 분류기법을 이용한 영상분류기 개발', 한국컴퓨터산업교육학회논문집, Vol.3., No.5, pp.605-610, 2002