스트리밍 XML 데이타에서 영역 윈도우를 사용한 조인 질의의 범위 최소화 기법

Scope Minimization of Join Queries using a Range Window on Streaming XML Data

  • 박석 (서강대학교 컴퓨터학과) ;
  • 김미선 (LG전자 단말연구소)
  • 발행 : 2006.04.01

초록

XML이 인터넷 상에서 데이타 교환의 표준으로 자리매김하면서 스트리밍 환경의 XML 데이타에 대한 효과적인 조인 질의 처리도 증가하고 있다. 튜플 단위로 처리하는 기존의 데이타베이스 기법을 스트리밍 XML 데이타에 적용했을 때 제한된 메모리 사용에 따른 메모리 한계를 초과하는 문제가 발생한다. 또한 구조적인 특징을 가지는 XML 데이타에 대한 질의 경로 탐색 및 특정 부분 데이타에 대한 접근에 소모되는 처리 비용이 급격히 증가하는 문제가 발생하게 된다. 근본적으로 전체 데이타가 아닌 부분 데이타를 저장하고 질의 처리해야 하는 스트리밍 환경에 적용하기에는 부적절하다. 따라서 스트리밍 XML 데이타에 맞는 저장 기법으로 적은 메모리의 사용을 통해 빠르게 조인 프레디킷을 만족하는 부분 스트리밍 데이타를 검색할 수 있는 새로운 기법이 요구된다. 본 논문에서는 적은 메모리 사용을 위한 저장 기법을 위해 PCDATA와 CDATA에 해당되는 부분만을 추출하여 저장한다. 그리고 빠른 조인 프레디킷(Predicate) 비교를 위해 DTD의 구조정보 중 지시자(Cardinality) "*" 와 "+"를 기초하여 영역 윈도우(Range Window)를 설정하여 질의에 만족하는 윈도우만을 선택적으로 조인하는 기법을 제안하여 문제를 해결한다.

As XML became the standard of data exchange in the internet, the needs for effective query processing for XML data in streaming environment is increasing. Applying the existing database technique which processes data with the unit of tuple to the streaming XML data causes the out-of-memory problem due to limited memory volume. Likewise the cost for searching query path and accessing specific data may be remarkably increased because of special structure of XML. In a word it is unreasonable to apply the existing database system to the streaming environment that processes query for partial data, not the whole one. Thus, it should be able to search partial streaming data that rapidly satisfies join predicate through using low-capacity memory, based on a store technique suitable to streaming XML data. In this thesis, in order to study the store technique for low-capacity memory, the PCDATA and the CDATA-related parts, which can be used as predicate on join query, were fetched and saved. In addition, in an attempt to compare rapid join predicates, the range window of streaming XML data was set with the object of selectively joining windows that satisfies the query, based on Cardinality * and + among the structure information of DTD.

키워드

참고문헌

  1. Brian Babcock, Shivnath Babu, Mayur Datar, Rajeev Motwani and Jennifer Widom, 'Model and Issues in Data Stream Systems,' In Proceedings of 21st ACM Symposium on Principles of Database Systems (PODS), pp. 1-16, 2002 https://doi.org/10.1145/543613.543615
  2. Lukasz Golab and M. Tamer Ozsu, 'Processing Sliding Window Multi-Joins in Countinuous Queries over Data Streams,' In Proceedings of the 29th VLDB Conference, pp. 500-511, 2003
  3. Lukasz Golab and M. Tamer Ozsu, 'Data Stream Management Issues - A Survey,' Technical Report, 2003. http://db.uwaterloo.ca/~ddbms/publications/stream/streamsurvey.pdf
  4. Lukasz Golab, Shaveen Garg and M. Tamer Ozsu, 'On Indexing Sliding Windows over On-line Data Streams,' In Proceedings of the International Conference on Extending DataBase Technology (EDBT), pp. 712-729, 2004 https://doi.org/10.1007/978-3-540-24741-8_41
  5. Jaewoo Kang, Jeffrey F. Naughton and Stratis D. Viglas, 'Evaluating Window Joins over Unbounded Streams,' In Proceedings of the IEEE International Conference on Data Engineering (ICDE), pp. 341-352, 2003
  6. Richard Atterer, 'Efficient Storage of XML Data Streams,' http://atterer.net/uni/thesis/efficient-xml-storage.pdf
  7. T. Bray, J. Paoli, C. M. Sperberg-McQueen, E. Maler and F. Yergeau, 'Extensible Markup Language (XML) 1.0,' http://www.w3.org/TR/REC-xml/, World Wide Web Consortium (W3C), February 2004
  8. Sujoe Bose, Leonidas Fegaras, David Levine and Vamsi Chaluvadi, 'A Query Algebra for Fragmented XML Stream Data,' In Proceedings of the 9th International Workshop on Data Base Programming Languages (DBPL), pp. 195-215, 2003 https://doi.org/10.1007/978-3-540-24607-7_13
  9. D. Florescu, D. Kossman, 'Storing and Querying XML Data using an RDMBS,' IEEE Data Engineering Bulletin 22(3), pp. 27-34, 1999
  10. Jayavel Shanmugasundaram, Kristin Tufte, Gang He, Chun Zhang, David De Witt and Jeffrey Naughton, 'Relational Databases for Querying XML Documents: Limitations and Opportunities,' In Proceedings of the 25th VLDB Conference, pp. 302-314, 1999
  11. Paul F. Dietz, 'Maintaining order in a linked list,' In Proceedings of the 14th Annual ACM Symposium on Theory of Computing, pp. 62-69, 1982
  12. Igor Tatarinov, Stratis D. Viglas, Kevin Beyer, Jayavel Shanmugasundaram, Eugene Shekita and Chun Zhang, 'Storing and Querying Ordered XML Using a Relational Database System,' In Proceedings of the 2002 ACM SIGMOD international conference on Management of data, pp. 204-215, 2002 https://doi.org/10.1145/564691.564715
  13. Quanxhong Li and Bongki Moon, 'Indexing and Querying XML Data for Regular Path Expressions,' In Proceedings of the 27th VLDB Conference, pp. 361-370, 2001