Partitioning and Merging an Index for Efficient XML Keyword Search

효율적 XML키워드 검색을 인덱스 분할 및 합병

  • 김성진 (서울대학교 전기컴퓨터공학부) ;
  • 이형동 (서울대학교 전기컴퓨터공학부) ;
  • 김형주 (서울대학교 전기컴퓨터공학부)
  • Published : 2006.12.15

Abstract

In XML keyword search, a search result is defined as a set of the smallest elements (i.e., least common ancestors) containing all query keywords and a granularity of indexing is an XML element instead of a document. Under the conventional index structure, all least common ancestors produced by the combination of the elements, each of which contains a query keyword, are considered as a search result. In this paper, to avoid unnecessary operations of producing the least common ancestors and reduce query process time, we describe a way to construct a partitioned index composed of several partitions and produce a search result by merging those partitions if necessary. When a search result is restricted to be composed of the least common ancestors whose depths are higher than a given minimum depth, under the proposed partitioned index structure, search systems can reduce the query process time by considering only combinations of the elements belonging to the same partition. Even though the minimum depth is not given or unknown, search systems can obtain a search result with the partitioned index, which requires the same query process time to obtain the search result with non-partitioned index. Our experiment was conducted with the XML documents provided by the DBLP site and INEX2003, and the partitioned index could reduce a substantial amount of query processing time when the minimum depth is given.

일반적으로 XML 키워드 검색에서 검색 결과는 질의 키워드들을 모두 포함하는 가장 작은 원소(최소 공통 선조)로 정의되며 색인의 기본 단위는 XML 원소가 된다. 기존의 인덱스 구조 하에서는 질의 키워드를 포함한 각 원소의 조합으로 생성된 모든 최소 공통 선조가 검색 결과로 고려된다. 본 논문에서는-불필요한 최소 공통 선조 산출 연산을 피하고 검색 시간을 단축시키기 위한 목적으로-인덱스를 파티션이라고 불리는 물리적 단위로 분할하고 질의 처리 시 필요에 따라 파티션을 동적으로 합병하여 검색 결과를 산출하는 기법을 기술한다. 주어진 깊이 이상의 최소 공통 선조가 검색 결과로 반환되어야할 경우, 검색 시스템은 제안된 인덱스 구조 하에서 동일 파티션에 속한 원소들 간의 조합만으로 검색 결과를 반환함으로써 검색 시간을 단축시킬 수 있다. 검색 결과에 대한 깊이 제한이 주어지지 않을 경우에도 검색 시스템은 분할된 인덱스를 사용하여 검색 결과를 얻을 수 있으며, 이때 분할되지 않은 기존의 인덱스를 사용하는 검색과 동일한 시간이 소요된다. 실험은 DBLP 사이트와 INEX2003에서 제공되는 XML 문서들로 진행되었으며, 제안된 인덱스는 검색 결과의 최소 깊이가 주어질 경우 질의 처리 시간을 상당히 감소시켰다.

Keywords

References

  1. WWW Consortium, http://www.w3.org/XML/
  2. Salton, G., and McGrill, M.J., 'Introduction to Modern Information Retrieval,' McGraw-Hill, New York, 1983
  3. Carmel, D., Maarek, Y,S., Mandelbrod, M., Mass, Y., and Soffer, A., 'Searching XML Documents via XML Fragments,' In Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 151-158, 2003 https://doi.org/10.1145/860435.860464
  4. Cohen, S., Mamou, J., Kanza, Y., and Sagiv, Y., 'XSEarch: A Semantic Search Engine for XML,' In Proceedings of 29th International Conference on Very Large Data Bases, pp.45-56, 2003
  5. Guo, L., Shao, F., Botev, C., and Shanmugasundaram, J., 'XRANK: Ranked Keyword Search over XML Documents,' In Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data, pp.16-27, 2003 https://doi.org/10.1145/872757.872762
  6. Hritidis, V., Papakonstantinou, P., and Balmin, A., 'Keyword Proximity Search on XML Graph,' In Proceedings of the 19th International Conference on Data Engineering, pp.367-378, 2003
  7. Theobald, A., and Weikum, G., 'Adding Relevance to XML,' In Proceedings of the 3th International Workshop on the Web and Databases, pp.105-124, 2000
  8. Xu, Y., and Papakonstantinou, Y., 'Efficient Keyword Search for Smallest LCAs in XML Databases,' In Proceedings of the 2005 ACM SIGMOD international conference on Management of data, pp.527-538, 2005 https://doi.org/10.1145/1066157.1066217
  9. Mignet, L., Barbosa, D., and Veltri, P., 'The XML Web: a First Study,' In Proceedings of the 12th International World Wide Web Conference, pp.500-510, 2003 https://doi.org/10.1145/775152.775223
  10. Anh, V., Krester, O., and Moffat, A., 'Vector-Space Ranking with Effective Early Termination,' In Proceedings of the 24th Annual International ACM SIGIR Confenfrence on Research and Development in Information Retrieval, pp.35-42, 2001 https://doi.org/10.1145/383952.383957
  11. Florescu, D., Kossmann, D., and Manolescu, L., 'Integrating Keyword Search into XML Query Processing,' Computer Networks, Vol.33, No.1-6, pp.119-135, 2000
  12. Moffat, A., and Zobel, J., 'Self-Indexing Inverted Files for Fast Text Retrieval,' ACM Transactions on Database Systems, Vol.14, No.4, pp.349-379, 1996 https://doi.org/10.1145/237496.237497
  13. Putz, S., Using a Relational Database for an Inverted Text Index. XEROX Technical Report '91
  14. DBLP, http://www.informatik.uni-trier.de/~ley/db/index.html
  15. Initiative for the evaluation of XML retrieval, http://inex.is.informatik.uni-duisburg.de:2003/
  16. BerkeylyDB, http://www.sleepycat.com