An Efficient Sequence Matching Method for XML Query Processing

XML 질의 처리를 위한 효율적인 시퀀스 매칭 기법

  • 서동민 (한국과학기술원 전산학과 연수연수원) ;
  • 송석일 (충주대학교 컴퓨터공학과) ;
  • 유재수 (충북대학교 전기전자컴퓨터공학부)
  • Published : 2008.08.15

Abstract

As XML is gaining unqualified success in being adopted as a universal data representation and exchange format, particularly in the World Wide Web, the problem of querying XML documents poses interesting challenges to database researcher. Several structural XML query processing methods, including XISS and XR-tree, for past years, have been proposed for fast query processing. However, structural XML query processing has the problem of requiring expensive Join cost for twig path query Recently, sequence matching based XML query processing methods, including ViST and PRIX, have been proposed to solve the problem of structural XML query processing methods. Through sequence matching based XML query processing methods match structured queries against structured data as a whole without breaking down the queries into sub queries of paths or nodes and relying on join operations to combine their results. However, determining the structural relationship of ViST is incorrect because its numbering scheme is not optimized. And PRIX requires many processing time for matching LPS and NPS about XML data trees and queries. Therefore, in this paper, we propose efficient sequence matching method u sing the bottom-up query processing for efficient XML query processing. Also, to verify the superiority of our index structure, we compare our sequence matching method with ViST and PRIX in terms of query processing with linear path or twig path including wild-card('*' and '//').

인터넷 상에서 정보 표현 및 교환의 표준으로 XML이 대두되면서 데이타베이스 연구 분야에서는 XML 질의 처리에 대한 중요성이 커지고 있다. 그리고 과거 몇 년간 빠른 XML 질의 처리를 위해 XISS, XR-트리와 같은 구조적 XML 질의 처리 기법이 제안되었다. 하지만 구조적 XML 질의 처리는 가지 경로 질의 처리를 위해 많은 조인 비용이 요구되는 문제를 가지고 있다. 최근에는 구조적 XML 질의 처리 기법의 조인 문제를 해결하기 위해 ViST와 PRIX와 같은 시퀀스 매칭 기반의 XML 질의 처리 기법이 제안되었다. 시퀀스 매칭 기반의 XML 질의 처리 기법은 가지 경로 질의를 다수의 부질의로 분리하지 않고 질의 시퀀스가 문서 내에 포함되는지만 비교하기 때문에 조인 비용이 요구되지 않는 장점을 가지고 있다. 하지만 ViST는 최적화되지 못한 번호부여 기법을 사용함으로써 질의 처리 시 구조 관계를 정확하게 판단하지 못하고, PRIX는 질의와 문서의 NPS와 LPS를 비교하는데 많은 비용이 요구된다. 따라서 본 논문에서는 XML 질의 처리 성능 향상을 위해 상향식 질의 처리를 사용하는 효율적인 시퀀스 매칭 기법을 제안한다. 또한 본 논문의 성능 평가에서는 제안하는 기법을 ViST PRIX와 비교하여 제안하는 기법이 와일드-카드('*'와 '//')를 포함하는 선형 경로 질의뿐만 아니라 가지 경로 질의 처리에 대해 향상된 성능을 나타냄을 보인다.

Keywords

References

  1. World Wide Web Consortium, "Extensible Markup Language (XML) 1.0," http://www.w3.org/TR/REC- xml, 2006
  2. World Wide Web Consortium, "XML Path Language (XPath) Version 2.0," http://www.w3.org/ TR/xpath20, 2007
  3. World Wide Web Consortium, "XQuery 1.0: An XML Query Language," http://www.w3.org/TR/ xquery, 2007
  4. M. Fernandez and D. Sucju, "Optimizing Regular Path Expressions using Graph Schema," In 1998 ICDE, pp.14-23, 1998
  5. C. W. Chung, J. K. Min, K. S. Shim, "APEX: An Adaptive Path Index for XML Data," In Proceedings of the 2002 ACM SIGMOD Conference, pp.121-132, 2002
  6. Q. Li and B. Moon, "Indexing and Querying XML Data for Regular Path Expressions," In Proceedings of the 27VLDB, pp.361-370, 2001
  7. S. Al-Khalifa, H. V. Jagadish, N. Koudas, J. M. Patel, D. Srivastava, and Y. Wu, "Structural Joins: A Primitive for Efficient XML Query Pattern Matching," In Proceedings of the 18th IEEE International Conference on Data Engineering, pp.141- 152, 2002
  8. S. -Y. Chien, Z. Vagena, D. Zhang, V. Tsotras, and C. Zaniolo, "Efficient Structural Joins on Indexed XML Documents," In Proceedings of the 28th VLDB Conference, pp.263-274, 2002
  9. H. Wang, S. Park, W. Fan, and P. S. Yu, "ViST: A Dynamic Index Method for Qu- erying XML Data by Tree Structures," In Proceedings of the 2003 ACM SIGMOD Conference, pp.110-121, 2003
  10. P. Rao and B. Moon, "Sequencing XML Data and Query Twig for Fast Pattern M- atching," ACM Transactions on Database Systems(TODS), pp.299- 345, 2006
  11. P. F. Dietz, "Maintaining Order in a Linked List," In Proceedings of the Fourteenth Annual ACM Symposium on Theory of Computing, pp.122-127, 1982
  12. J. M. Hellerstein, J. F. Naughton, and A. Pfeffer, "Generalized Search Trees for Database Systems," In Proceedings of the 21th VLDB Conference, pp.562-573, 1995
  13. P. Rao and B. Moon, "PRIX Project," http://www. cs.arizona.edu, 2006
  14. G. Miklau, "UW XML Repository," http://www.cs. washington.edu/research/xmldata- sets, 2006