DOI QR코드

DOI QR Code

구조화 문서 검색을 위한 다단계 역색인 기법

A Multi-level Inverted Index Technique for Structural Document Search

  • 김종익 (전북대학교 전자정보공학부)
  • 발행 : 2008.08.29

초록

XML로 대표되는 구조화된 문서의 검색을 위해서는 구조 조인 기법이 많이 사용되며 구조 조인 기법을 사용하기 위해서는 구조 조인에 참여하는 엘리먼트들을 추출하는 과정이 선행되어야 한다. 이 과정을 위해서 일반적으로 동일한 태그 값을 가지는 엘리먼트들을 리스트 형태로 추출해 주는 역색인을 사용한다. 하지만 이러한 기존의 기법은 경로 질의 내의 부모-자식 관계나 조상-후손 관계를 비교적 비용이 비싼 구조 조인으로 모두 처리해야 하기 때문에 경로의 길이가 길어질수록 질의 처리 비용이 크게 증가하는 단점을 가지고 있다. 본 논문에서는 기존의 역색인과는 달리 엘리먼트 추출과정에서 부모-자식 관계에 있는 엘리먼트들을 처리할 수 있는 단계별 역색인을 제안한다. 본 논문에서 제안하는 단계별 역색인은 경로 질의 내의 부모-자식 관계를 가지는 엘리먼트 쌍(pair)들의 리스트를 추출해 준다. 또한 단계별 역색인으로부터 추출된 엘리먼트 쌍들의 리스트를 처리하기 위해 기존의 구조 조인과는 다른 변형된 구조 조인 기법을 제안하며 실험을 통해 제안된 기법이 기존의 기법보다 2배에서 4배 가량의 성능향상이 있는 것을 확인하였다.

In general, we can use an inverted index for retrieving element lists from structured documents. An inverted index can retrieve a list of elements that have the same tag name. In this approach, however, the cost of query processing is linear to the length of a path query because all the structural relationships (parent-child and ancestor-descendant) should be resolved by structural join operations. In this paper, we propose an inverted index technique and a novel structural join technique for accelerating XML path query evaluation. Our inverted index can retrieve element lists for path segments in a parent-child relationship. Our structural join technique can handle lists of element pairs while the existing techniques handle lists of elements. We show through experiments that these two proposed techniques are integrated to accelerate evaluation of XML path queries.

키워드

참고문헌

  1. T. Bray, J. Paoli and C.M. Sperberg-McQueen, “Extensible Markup Language (XML) 1.0,” Technical Report, W3C Recommendation, 1998
  2. D. Chamberlin, D. Florescu, J. Robie, J. Simeon and M. Stefanescu, “XQuery: A Query Language for XML,” Technical report, W3C Working Draft, Feb. 2001
  3. J. Clark and S. DeRose, “XML Path Language (XPath),” Technical report, W3C Recommendation, 1999
  4. N. Bruno, N. Koudas and D. Srivastava, “Holistic Twig Joins: Optimal XML Pattern Matching,” In Proceedings of the ACM SIGMOD International Conference on the Management of Data, pp.310-321, 2002
  5. Q. Li and B. Moon, “Indexing and Querying XML Data for Regular Path Expressions,” In Proceedings of the Conference on Very Large Data Bases, pp.361-370, 2001
  6. C. Zhang, J. Naughton, D. DeWitt, Q. Luo and G. Lohman, “On Supporting Containment Queries in Relational Database Management Systems,” In Proceedings of the ACM SIGMOD International Conference on the Management of Data, pp. 425-430, 2001 https://doi.org/10.1145/375663.375722
  7. J. Kim and H.-J. Kim, “Efficient Processing of Regular Path Joins using PID,” Information and Software Technology, Vol.45, No.5, pp.241-251, 2003 https://doi.org/10.1016/S0950-5849(02)00208-2
  8. S. Al-Khalifa, H.V. Jagadish, N. Koudas, J.M. Patel, D. Srivastava and Y. Wu., “Structural Joins: A Primitive for Efficient XML Query Pattern Matching,” In Proceedings of IEEE International Conference on Data Engineering, pp. 141-152, 2002
  9. S.-Y. Chien, Z. Vagena, D. Zhang, V.J. Tsotras and C. Zaniolo, “Efficient Structural Joins on Indexed XML Documents,” In Proceedings of the Conference on Very Large Data Bases, pp.263-274, 2002
  10. H. Jiang, H. Lu, W. Wang and B.C. Ooi, “XR-Tree: Indexing XML Data for Efficient Structural Joins,” In Proceedings of IEEE International Conference on Data Engineering, pp.253-264, 2003
  11. H. Jiang, W. Wang, H. Lu and J.X. Yu, “Holistic Twig Joins on Indexed XML Documents,” In Proceedings of the Conference on Very Large Data Bases, pp.273-284, 2003
  12. J. Kim, “Advanced Structural Joins using Element Distribution," Information Sciences, Vol.176, No.22, pp.1063-1068, 2006 https://doi.org/10.1016/j.ins.2006.01.002
  13. Y. Wu, J.M. Patel and H.V. Jagadish, “Estimating Answer Sizes for XML Queries,” In Proceedings of the International Conference on Extending Database Technology, pp.590-608, 2002
  14. Y. Wu, J.M. Patel and H.V. Jagadish, “Structural Join Order Selection for XML Query Optimization,” In proceedings of IEEE International Conference on Data Engineering, pp. 443-454, 2003
  15. C.-W. Chung, J.-K. Min and K. Shim, “APEX: an Adaptive Path Index for XML Data,” In proceedings of ACM SIGMOD International Conference on the Management of Data, pp. 321-132, 2002
  16. Xmark, “The XML Benchmark Project.” http://monetdb.cwi.nl/xml/
  17. T. Milo and D. Suciu, “Index Structures for Path Expressions,” In proceedings of the International Conference on Database Theory, pp.277-295, 1999 https://doi.org/10.1007/3-540-49257-7_18