PrimeFilter: An Efficient XML Data Filtering based on Prime Number Indexing

PrimeFilter: 소수 인덱싱 기법에 기반한 효율적 XML 데이타 필터링

  • 김재훈 (서강대학교 컴퓨터공학과) ;
  • 김상욱 (삼성전자 정보통신총괄) ;
  • 박석 (서강대학교 컴퓨터공학과)
  • Published : 2008.10.15

Abstract

Recently XML is becoming a de facto standard for online data exchange between heterogeneous systems and also the research of streaming XML data filtering comes into the spotlight. Since streaming XML data filtering technique needs rapid matching of queries with XML data, it is required that the query processing should be efficiently performed. Until now, most of researches focused only on partial sharing of path expressions or efficient predicate processing and they were work for time and space efficiency. However, if containment relationship between queries is previously calculated and the lowest level query is matched with XML data, we can easily get a result that high level queries can match with the XML data without any other processing. That is, using this containment technique can be another optimal solution for streaming XML data filtering. In this paper, we suggest an efficient XML data filtering based on prime number indexing and containment relationship between queries. Through some experimental results, we present that our suggested method has a better performance than the existing method. All experiments have shown that our method has a more than two times better performance even though each experiment has its own distinct test purpose.

최근 이질적인 시스템 사이에서의 정보교환의 표준으로 널리 사용되는 XML을 사용하는 Publish/Subscribe 시스템의 스트리밍 XML 데이타 필터링 기법이 활발히 연구되었다. 스트리밍 XML 데이타 필터링 기법은 사용자가 등록한 질의에 대해서 신속한 질의-데이타 매칭을 목적으로 하기 때문에 효율적인 질의 처리 메커니즘이 요구된다. 현재까지 대부분의 연구는 질의 경로 표현식의 부분적인 공유를 꾀하거나 프레디킷을 효율적으로 처리함으로써 질의 처리의 시간적, 공간적 효율을 목적으로 하였다. 하지만 만약 질의간의 포함 관계를 알 수 있다면 질의 처리시에 가장 하위의 질의가 매칭되면 그 질의를 포함하고 있는 상위의 질의들은 별도의 처리 과정 없이 매칭됨을 알 수 있게 된다. 이러한 질의 포함 관계를 이용한 질의 처리 방식은 XML 스트리밍 데이타를 처리하는 또 하나의 효율적 방식이 될 수 있다. 본 논문에서는 소수 인덱싱 기법과 목표 질의 노드 중심의 포함 관계 설정에 기반하여 효율적인 스트리밍 XML 데이타 필터링을 수행하는 새로운 방법을 소개한다. 그리고 몇 가지 실험을 통하여 기존 방법과의 비교 분석 및 효율성을 보인다. 비록 각각의 실험은 서로 다른 실험 요소에 대하여 수행되었지만, 모두 제안 방법이 기존의 방법보다 두 배 이상 더 나은 성능을 가짐을 보여 주었다.

Keywords

References

  1. Y. Diao, M. Altinel, M. J. Franklin, H. Zhang, and P. Fischer, "Path sharing and predicate evaluation for high-performance XML filtering," ACM Transactions on Database Systems, Vol.28, No.4, pp. 467-516, 2003 https://doi.org/10.1145/958942.958947
  2. K. S. Candan, W. Hsiung, S. Chen, J. Tatemura, D. Agrawal, "AFilter: Adaptable XML filtering with prefix-caching and suffix-clustering," Proc. 32th VLDB, Seoul, Korea, pp. 559-570, 2006
  3. J. Kim and S. Park, "PosFilter: An efficient filtering technique of XML documents based on postfix sharing," Proc. 24th BNCOD, Glasgow, Scotland, pp. 70-81, 2007
  4. P.Th. Eugster, P. Felber, R. Guerraoui, A. M. Kermarrec, "The Many Faces of Publish/Subscribe," ACM computing surveys, 2003
  5. J. Clark, S. DeRose, "XML Path Language (XPath) Version 1.0," http://www.w3.org/TR/xpath, November, 1999
  6. Y. Chen, S. Davidson, and Y. Zheng, "An efficient XPath query processor for XML streams," Proc. of the 22nd International Conference on Data Engineering (ICDE), pp. 77, 2006
  7. J. Kwon, P. Rao, B. Moon, and S. Lee, "Fist: scalable XML document filtering by sequencing twig patterns," In Proc. of the 31th VLDB, pp. 217-228, 2005
  8. C.-Y. Chan, P. Felber, M. Garofalakis, and R. Rastogi, "Efficient Filtering of XML Documents with XPath Expressions," Proc. of the 18th International Conference on Data Engineering (ICDE), pp. 235-244, Feb. 2002
  9. X. Wu, M. L. Lee, W. Hsu, "A Prime Number Labeling Scheme for Dynamic Ordered XML Trees," Proc. of the 20th International Conference on Data Engineering (ICDE), pp. 66-78, 2004
  10. M. Franklin, Y. Diao, S. Rizvi, A. Edakkunni, M. Altinel, P. Fischer, R. To, and P. Hwang, "YFilter 1.0 release," 2003, available at http://yfilter.cs.umass. edu/code_release.htm