A Segment Algorithm for Extracting Item Blocks based on Mobile Devices in the Web Contents

웹 콘텐츠에서 모바일 디바이스 기반 아이템 블록을 추출하기 위한 세그먼트 알고리즘

  • 김수도 (부경대학교 누리사업단) ;
  • 박태진 (마산대학 조선메카트로닉스학과) ;
  • 박만곤 (부경대학교 전자컴퓨터정보통신공학부)
  • Published : 2009.03.30

Abstract

Users are able to search and read interesting items and hence click hyperlink linked to the item which is detailed content unit such as menu, login, news, video, etc. Small screen like mobile device is very difficult to viewing all web contents at once. Browsing and searching for interesting items by scrolling to left and right or up and down is discomfort to users in small screen. Searching and displaying directly the item preferred by users can reduces difficulty of interface manipulation of mobile device. To archive it, web contents based on desktop will be segmented on a per-item basis which component unit of web contents. Most segment algorithms are based on segment method through analysis of HTML code or mobile size. However, it is difficult to extract item blocks. Because present web content is getting more complicated and diversified in structure and content like web portal services. A web content segment algorithm suggested in this paper is based on extracting item blocks is component units of web contents.

사용자들은 웹 콘텐츠의 세부 내용단위인 메뉴, 로그인, 뉴스, 동영상 등 다양한 아이템에서 자신이 홍미있는 아이템을 찾아 읽고 아이템에 연결된 하이퍼렁크를 클릭한다. 모바일 디바이스처럼 작은 스크린에서는 데스크탑 기반의 웹 콘텐츠를 동시에 보여주기 힘들어 사용자는 좌우 또는 상하 스크롤링을 통해 아이템을 찾아 헤매는 검색의 불편함이 발생한다. 사용자가 자주 사용하거나 또는 원하는 아이템을 찾아 먼저 표현하여 모바일 인터페이스 조작의 불편함을 감소시킬 수 있다. 그러기 위해 웹 콘텐츠는 세부 내용단위인 아이템 별로 세그먼트되어야 한다. 기존 대부분의 세그먼트 알고리즘들은 웹 콘텐츠의 HTML 코드와 모바일 사이즈에 기반하여 세그먼트하고 있어 다양한 아이템들이 구조적으로 더욱 복잡하게 형성되고 있는 현대의 웹 콘텐츠에서 내용 단위인 아이템 블록으로 세그먼트하는데 여러 어려움이 있다. 본 논문에서는 데스크탑 웹 콘텐츠에서 내용 단위에 기반한 아이템 블록 추출을 위한 세그먼트 알고리즘을 제안한다.

Keywords

References

  1. Muriel Bowie, Adaptation of a Webshop for Mobile Devices, Master Thesis, Computer Science, Fribourg University, October 2005.
  2. 제갈병직, “모바일 풀 브라우저 시장 동향,” IITA 주간기술동향 1278호, 한국전자통신연구원, 2006.
  3. V. Roto, "Browsing on Mobile Phones," Nokia Research Center, http://www.research.att.com/~rjana/WF12_aperl.pdf.
  4. V. Roto, Web Browsing on Mobile Phones-Characteristics of User Experience, Doctoral Dissertation, Dep, Computer Science and Engineering, Helsinki University, 2006.
  5. 김수도, 박만곤, “모바일 환경에서 유형기반 웹페이지 적응화를 시스템 아키텍쳐,” 한국멀티미디어학회, 10권 2호, pp. 108-1111, 2007.
  6. Su-do Kim and Man-Gon Park, "A Study on the M-learning System on CC/PP for Multimedia Messaging Service Adaptation," Journal of Korea Multimedia Society, Vol.11, No.6, 2008.
  7. J. Kang and J. Choi, "Detecting Informative Web Page Blocks for Efficient Information Extraction Using Visual Block Segmentation," 2007 International Symposium on Information Technology Convergence, pp. 306-310, 2007.
  8. P. F. Xiang et al., "Effective Page Segmentation Combining Pattern Analysis and Visual Separators for Browsing on Small Screens," Int'l Conf. on Web Intellegence, pp. 831-840, 2006.
  9. C. Wu, G. Zeng, and G. Xu, "A Web Page Segmentation Algorithm for Extracting Product Information," Int'l Conf. on Information Acquisition, pp. 1374-1379, 2006.
  10. Timo Laakko and Tapio Hiltunen, "Adapting Web Content to Mobile User Agents," IEEE Internet Computing Magazine, Vol.9, pp. 46-53, Apr. 2005. https://doi.org/10.1109/MIC.2005.29
  11. Y. Hwang, J. Kim, and E. Seo, "Structure-Aware Web Transcoding for Mobile Devices," IEEE Internet Computing Magazine, Vol.7, pp. 14-21, Oct. 2003. https://doi.org/10.1109/MIC.2003.1232513
  12. D. Cai, S. Yu, J. Web, and W. Ma, "VIPS: a Vision-based Page Segmentation Algorithm," Microsoft Technical Report, MSR-TR-2003-79, Microsoft Research, Nov. 2003.
  13. Y. Chen, X. Xie, W. Ma, and H. Zhang, "Adapting Web Pages for Small-Screen Devices," IEEE Internet Computing Magazine, Vol.9, pp. 50-56, Feb. 2005.
  14. Y. Chen, W. Y. Ma, and H. J. Zhang, "Detecting Web Page Structure for Adaptive Viewing on Small Form Factor Devices," Proc. 12th Int'l World Wide Web Conf., May 2003.
  15. Andrew W. Cole, Proposed Component Tools for Corpus Map Utilityto Characterize Large File Systems, Master Thesis, Dep, Computer Information Systems, Pennsylvania University, 2002.