A Queriable XML Compression using Inferred Data Types

추론한 데이타 타입을 이용한 질의 가능 XML 압축

  • 박명제 (한국과학기술원 전자전산학과) ;
  • 민준기 (한국기술교육대학교 인터넷미디어공학부) ;
  • 정진완 (한국과학기술원 전자전산학과)
  • Published : 2005.08.01

Abstract

HTML is mostly stored in native file systems instead of specialized repositories such as a database. Like HTML, XML, the standard for the exchange and the representation of data in the Internet, is mostly resident on native file systems. However. since XML data is irregular and verbose, the disk space and the network bandwidth are wasted compared to those of regularly structured data. To overcome this inefficiency of XML data, the research on the compression of XML data has been conducted. Among recently proposed XML compression techniques, some techniques do not support querying compressed data, while other techniques which support querying compressed data blindly encode data values using predefined encoding methods without considering the types of data values which necessitates partial decompression for processing range queries. As a result, the query performance on compressed XML data is degraded. Thus, this research proposes an XML compression technique which supports direct and efficient evaluations of queries on compressed XML data. This XML compression technique adopts an encoding method, called dictionary encoding, to encode each tag of XML data and applies proper encoding methods for encoding data values according to the inferred types of data values. Also, through the implementation and the performance evaluation of the XML compression technique proposed in this research, it is shown that the implemented XML compressor efficiently compresses real-life XML data lets and achieves significant improvements on query performance for compressed XML data.

HTML은 데이타베이스와 같은 특수한 형태의 저장소 대신, 전형적인 파일 시스템에 저장되는 경우가 대부분이다. 이와 마찬가지로, 최근 인터넷 상에서의 데이타 교환 및 표현의 표준으로 부각되는 XML 역시 파일 시스템을 통하여 저장되는 경우가 현저하다. 하지만, XML 문서가 지니는 비정규적인 구조와 장황성 때문에, 디스크 공간이나 네트워크 상의 대역폭의 사용이 정규적인 구조를 지니는 데이터에 비해 크다. 이러한 XML 문서의 비효율성을 해결하고자, XML 문서의 압축에 관한 연구가 진행되었다. 최근에 연구된 XML 압축 기법들을 살펴보면, 압축된 XML 문서에 대한 질의를 전혀 지원하지 않거나, 질의를 지원하더라도 XML 문서 내의 데이타 값들의 특성을 고려하지 않고 단순히 기존의 압축 방법들을 적용하기 때문에 영역 질의를 지원하기 위해서는 압축의 일부를 복원해야 한다. 그 결과, 압축된 XML 문서에 대한 질의 성능이 저하되었다. 따라서, 본 연구에서는 압축된 XML 문서에 직접적이고 효율적인 질의를 지원하는 XML 압축 기법을 제안하고자 한다. XML 문서의 각 태그를 사전 압축 방법을 사용하여 압축하고자 하며, 태그 별로 데이타들의 타입을 추론하여 추론된 타입에 적절한 압축 방법을 사용하여 데이타 값들을 압축하고자 한다. 또한, 제안하는 압축 기법의 구현 및 성능 평가를 통하여, 구현한 XML 압축기가 실생활에 사용되는 XML 문서들을 효율적으로 압축하며 압축된 XML 문서에 대해 향상된 질의 성능을 제공하는 것을 보인다.

Keywords

References

  1. T. Bray, J. Paoli, C. M. Sperberg-McQueen, and E. Maler, 'Extensible Markup Language(XML) 1.0 W3C Recommendation,' http://www.w3c.org/TR/REC-XML, 1998
  2. D. Florescu, and D. Kossman, 'Storing and Querying XML Data using an RDBMS,' IEEE Data Engineering Bulletin, Vol. 22, No. 3, pp. 27-34, 1999
  3. T. Shimura, M. Yoshikawa, and S. Uemura, 'Storing and Retrieval of XML Documents using Object-Relational Databases.' Proc. of 10th International Conference, DEXA, pp. 206-217, 1999
  4. Igor Tatarinov, et. al, 'Storing and querying ordered XML using a relational database system', Proc. of ACM SIGMOD, pp. 204-215, 2002 https://doi.org/10.1145/564691.564715
  5. M. Fernandez and D. Suciu, Optimizing Regular path expressions Using Graph Schemas, Proc. of Int. Conf. on Data Engineering, 1998 https://doi.org/10.1109/ICDE.1998.655753
  6. R. Goldman and J. Widom, 'DataGuides: Enable Query Formulation and Optimization in Semistructured DataBases,' Proc. of 23rd International Conference on Very Large Data Bases, pp. 436-445, 1997
  7. M. F. Fernandez, W. C. Tan, and D. Suciu, 'SilkRoute: trading between relations and XML,' WWW9/Computer Networks, Vol. 33, No. 1-6, pp. 723-745, 2000 https://doi.org/10.1016/S1389-1286(00)00061-X
  8. J. Shanmugasundaram, E. J. Shekita, R. Barr, M. J. Carey, B. G. Lindsay, H. Pirahesh, and B. Reinwald, 'Efficiently Publishing Relational Data as XML Documents,' Proc. of 26th International Conference on Very Large Data Bases, pp. 65-76, 2000
  9. J. Clark and S. DeRose, 'XML Path Language(XPath) Version 1.0, W3C Recommendation,' http://www.w3.org/TH/xpath, 1999
  10. S. Boag, D. Chamberlin, M. F. Fernandez, D. Florescu; J. Robie, and J. Simeon, 'XQuery 1.0: An XML Query Language, Working Draft,' http://www.w3.org/TR/2002/WD-xquery-20020816, 2002
  11. D. Raggett, A. L. Hors, and I. Jacobs, 'HTML 4.01 Specification, W3C Recommendation,' http://www.w3.org/TR/html4/, 1999
  12. H. Liefke and D. Suciu, 'XMill: An Efficient Compressor for XML Data,' Proc. of the 2000 ACM SIGMOD International Conference on Management of Data, pp. 153-164, 2000
  13. P. M. Tolani and J. R. Haritsa, 'XGRIND: A Query-friendly XML Compressor,' Proc. of 18th International Conference on Database Engineering, pp. 225-234, 2002 https://doi.org/10.1109/ICDE.2002.994712
  14. J. Gailly and M. Adler, zlib 1.1.4, http://www.gzip.org/zlib/, 2002
  15. P. G. Howard and J. S. Vitter, 'Analysis of Arithmetic Coding for Data Compression,' Proc. of the IEEE Data Compression Conference, pp. 3-12, 1991
  16. D. Salomon, 'Data Compression, the complete reference,' Springer-Verlag, New York, 1998
  17. D. A. Huffman, 'A Method for the Construction of Minimum Redundancy Codes,' Proc. of the Institute of Radio Engineers 40, pp. 1098-1101, 1952
  18. Anonymous, http://www.cs.washington.edu/research/projects/xmJtk/www/xmlproperties.html
  19. E. R. Harold, Long Baseball Examples from The XML Bible. ibiblio, http://www.ibiblio.org/xml/examples/baseball/
  20. R. Cover, The XML Cover Pages, http://www.oasis-open.org/cover/xml.html, 2001