Estimating Join Selectivity of Global XQuery Queries in Distributed Environments

분산 환경에서 전역 XQuery 질의의 조인 선택치 추정 방법

  • Published : 2007.12.15

Abstract

One of the methods for integrating XML data in distributed environments is using XML view. User can query toward distributed local XML views by using global XQuery queries in XQuery which is a standard query language for searching XML data. The global XQuery queries naturally contain join operations because of integrating and searching distributed heterogeneous data. Since join operations are generally expensive for processing a query, its processing technique is very important for efficient processing of global XQuery queries. Therefore there are some studies on the efficient processing of join operations and one of these studies is that selects minimum join cost by estimating a join selectivity. In case of SQL, there are already some researches for estimating a join selectivity and join cost of global SQL queries. However we can not apply their methods for estimating the selectivity of join operations in SQL queries into XQuery queries because of the structural difference between relational data and XML data. Therefore this paper proposes a method for estimating a selectivity of join operations in XQuery queries using the information of XML views. Our contribution is three threefold. First, we define the difference point for estimating join selectivity between SQL and XQuery. Second, we estimate join selectivity in XQuery queries by referring XML views. Third, we evaluate our estimating method.

분산환경에 XML 데이타들을 통합하기 위한 한가지 방법은 XML 뷰를 사용하는 것이다. 사용자는 XML을 위한 표준 질의어인 XQuery를 사용하여 분산된 XML 뷰들을 대상으로 전역 XQuery질의를 생성할 수 있다. 이렇게 생성된 전역 XQuery 질의는 분산된 이종 데이타들을 통합하고 검색하기 위하여 자연스럽게 지역 시스템들 사이의 조인 연산들을 포함한다. 그러나 조인은 비용이 많이 드는 연산자이므로 조인 연산을 효율적으로 처리하는 것은 전역 질의의 처리 성능과 직결된다. 그러므로 조인 연산을 처리하기 위한 다양한 연구들이 존재하며, 그 가운데 하나는 조인의 선택치를 추정하여 최소의 비용을 갖는 조인 순서를 선택하는 것이다. SQL 질의의 경우, 이미 전역 질의의 조인 선택치를 추정하고 이를 기반으로 그 처리 순서를 결정하기 위한 연구가 존재한다. 그러나, 테이블 구조의 데이타를 검색하기 위한 SQL 질의의 조인 선택치 추정 방법을 구조적인 XML 데이타를 검색하기 위한 XQuery질의를 위해서 그대로 사용하기에는 데이타의 구조적인 차이로 인해 문제가 있다. 그러므로 본 논문에서는 질의의 대상이 되는 XML 뷰들의 정보를 이용하여 XQuery 질의의 특성을 고려한 조인 선택치 추정 방법을 제안한다. 본 논문의 기여는 다음과 같다. 첫째, SQL 질의의 조인 선택치 추정 방법과 XQuery 질의의 방법 사이에 차이점을 분석한다. 둘째, XML 뷰를 참조하여 XQuery 질의의 처리를 위한 조인 선택치 추정 방법을 제안한다. 마지막으로, 성능 평가를 수행하여 제안하는 조인 선택치 추정 방법의 효율성을 입증한다.

Keywords

References

  1. W3C, Extensible Markup Language (XML) 1.1 (Second Edition) W3C Recommendation 16 August 2006, (http://www.w3.org/TR/2006/REC-x ml11-20060816)
  2. W3C, XML Schema Part 0: Primer Second Edition W3C Recommendation 28 October 2004, (http://www.w3.org/TR/2004/REC-xmlschema -0-20041028)
  3. W3C, XQuery 1.0: An XML Query Language, W3C Recommendation 23 January 2007, (http://www.w3.org/TR/2007/REC-xquery-20070123)
  4. S. Groppe, & S. Bottcher, 'Schema-based Query Optimization for XQuery Queries,' Proc. ADBIS 2005, Tallinn, Estonia, September, 2005
  5. I. Manolescu, D. Florescu & D Kossmann, 'Answering XML Queries over Heterogeneous Data Sources,' Proc. 27th International Conference on Very Large Data Bases, Roma, Italy, pp. 241-250, September 11-14, 2001
  6. L. Wang, M. Mulchandani & E. A. Rundensteiner, 'Updating XQuery Views Published over Relational Data : A Roundtrip Case Study,' Xsym 2003, pp. 223-237, Berlin, Germany, September 8, 2003
  7. M. Steinbrunn, G. Moerkotte, & A. Kemper, 'Optimizing Join Orders,' Technical Report MIP-9307, Faculty of Mathematic, Univ. of Passau, Passau, Germany, 1993
  8. C. Shahabi, L. Khan, & D. McLeod, 'A Probe-Based Technique to Optimize Join Queries in Distributed Internet Databases,' Knowledge and Information Systems, pp. 373-385, 2001
  9. X. Lin & M. E. Orlowska, 'An Efficient Processing of a Chain Join with the Minimum Communication Cost in Distributed Database Systems,' Distributed and Parallel Databases 3, pp. 69-83, 1995 https://doi.org/10.1007/BF01263657
  10. M. J. Yu & P. C.-Y. Sheu, 'Adaptive Join Algorithms in Dynamic Distributed Databases,' Distrib. Parallel Databases, Vol.5, No.1, pp. 5-30, January, 1997 https://doi.org/10.1023/A:1008619705079
  11. L. Liu, C. Pu & K. Richine, 'Distributed Query Scheduling Service: An Architecture and Its Implementation,' IJCIS, Vol.7, No.2-3, pp. 123-166, 1998
  12. I. Eldosouky, H. Arafat, & A. A. Eldin, 'New Heuristic Approaches for Improving Dis-tributed Query Processing based on The Enhancement of Semi-Join Strategies,' Proc. the International Conference on Statistics, Computer Science, and Operational Research, Egypt Dec, 2001
  13. A. Halverson, J. Burger, L. Galanis, A. Kini, R. Krishnamurthy, A. N. Rao, F. Tian, S. D. Viglas, Y. Wang, J. F. Naughton, & D. J. DeWitt, 'Mixed Mode XML Query Processing,' VLDB 2003
  14. N. May, S. Helmer, C. C. Kanne, G. Moerkotte, 'XQuery Processing in Natix with an Emphasis on Join Ordering,' Proc. 1st Int. Workshop on XIME-P 2004, Paris, France, June 17-18, 2004
  15. W3C, XQuery 1.0 and XPath 2.0 Functions and Operators, W3C Recommendation 23 January 2007, (http://www.w3.org/TR/2007/REC-xpath-functions-20070123/)
  16. A. Aboulnaga, A. R. Alameldeen, & J. F. Naughton, 'Estimating the selectivity of XML path expressions for internet scale applications,' Proc. 27th VLDB, Roma, Italy, 2001
  17. J. Freire, J. Haritsa, M. Ramanath, P. Roy, & J. Simeon, 'Statix: Making XML count,' Proc. of ACM SIGMOD Intl. Conf. on Management of Data, pp. 181-191, 2002
  18. M. Steinbrunn, G. Moerkotte & A. Kemper, 'Heuristic and Randomized Optimization for the Join Ordering Problem,' VLDB Journal, 6(3), pp. 191-208, 1997 https://doi.org/10.1007/s007780050040
  19. A. N. Swami & K. B. Schiefer, 'On the Estimation of Join Result Sizes,' Proc. EDBT 1994, pp. 287-300, Cambridge, March 28-31, 1994
  20. S. B. Navathe & R. Elmasri, 'Fundamentals of Database Systems,' fourth edition, Addi-son Wesley, 2003