DOI QR코드

DOI QR Code

An Efficient Indexing Scheme Considering the Characteristics of Large Scale RDF Data

대규모 RDF 데이터의 특성을 고려한 효율적인 색인 기법

  • 김기연 (충북대학교 정보통신공학부) ;
  • 윤종현 (충북대학교 정보통신공학부) ;
  • 김천중 (충북대학교 정보통신공학부) ;
  • 임종태 (충북대학교 정보통신공학부) ;
  • 복경수 (충북대학교 정보통신공학부) ;
  • 유재수 (충북대학교 정보통신공학부)
  • Received : 2014.11.11
  • Accepted : 2014.12.05
  • Published : 2015.01.28

Abstract

In this paper, we propose a new RDF index scheme considering the characteristics of large scale RDF data to improve the query processing performance. The proposed index scheme creates a S-O index for subjects and objects since the subjects and objects of RDF triples are used redundantly. In order to reduce the total size of the index, it constructs a P index for the relatively small number of predicates in RDF triples separately. If a query contains the predicate, we first searches the P index since its size is relatively smaller compared to the S-O index. Otherwise, we first searches the S-O index. It is shown through performance evaluation that the proposed scheme outperforms the existing scheme in terms of the query processing time.

본 논문에서는 RDF 데이터 특성을 고려하여 대규모 데이터에 대한 질의 처리를 향상시키기 위한 새로운 색인 기법을 제안한다. 제안하는 기법은 RDF 트리플 중 주어와 술어의 값이 중복적으로 사용되는 특징을 이용하여 주어와 목적어를 S-O 색인으로 구성한다. 또한, 트리플 중 상대적으로 가장 적은 수의 값을 갖고 있는 술어는 별도의 P 색인으로 구성하여 총 색인의 크기를 최소화한다. 술어를 포함한 질의 요청시 크기가 작은 P 색인을 우선 검색하고 술어를 포함하지 않은 질의 요청에 대해서는 S-O 색인을 우선 검색한다. 성능평가를 통해 제안하는 기법이 기존 기법에 비해 질의처리 속도 관점에서 성능이 우수함을 보인다.

Keywords

References

  1. Anupriya Ankolekar, Markus Krotzsch, Thanh Tran, and Denny Vrandecic, "The two cultures: Mashing up Web 2.0 and the Semantic Web," In Proceedings of the 16th WWW, pp.825-834, 2007.
  2. http://semanticweb.org
  3. Tim Berners Lee, James Hendler, and Ora Lassila, "The Sementic Web," In Proceedings of the Scientific American, Vol.284, No.5, pp.34-43, 2001.
  4. 고훈준, 유원희, "응용프로그램의 검색을 위한 RDF 메타데이터 시스템의 설계", 한국콘텐츠학회논문지, 제5권, 제6호, pp.1-9, 2005.
  5. Dongmin Seo, Seungwoo Lee, Pyung Kim, Hanmin Jung, Mikyoung Lee, and Won-Kyung Sung, "RDF Labeling Scheme for Quickly Determining RDF Structural Relationships," 한국콘텐츠학회논문집, pp.259-260, 2010.
  6. Shijie Zhang, Shirong Li, and Jing Yang, "GADDI: Distance Index based Subgraph Matching in Biological Networks," In Proceedings of the 12th international conference on extending database technology, 2009.
  7. Medha Atre, Vineet Chaoji, Mohammed J. Zaki, and James A. Hendler, "Matrix "Bit"loaded: A Scalable Lightweight Join Query Processor for RDF Data," In Proceedings of the WWW, pp.41-50, 2010.
  8. Jiewen Huang, Daniel J. Abadi, and Kun Ren, "Scalable SPARQL Querying of Large RDF Graphs," In Proceedings of the PVLDB, Vol.4, No.11, pp.1123-1134, 2011.
  9. Andreas Harth and Stefan Decker, "Optimized index structures for querying RDF from the web," In Proceedings of the 3rd LA-WEB, pp.71-80, 2005.
  10. Cathrin Weiss, Panagiotis Karras, and Abraham Bernstein, "HexaStore: sextuple indexing for semantic web data management," In Proceedings of the VLDB Endowment, Vol.1, No.1, pp.1008-1019, 2008.
  11. Thomas Neumann and Gerhard Weikum, "RDF-3X:a RISC-style enginee for RDF," In Proceedings of the PVLDB Endowment, Vol.1, No.1, pp.647-659, 2008.
  12. Seungseok Kang, Junho Shim, and Sang goo Lee, "Tridex: A lightweight triple index for relational database-based semantic web data management," Expert Systems with Applications, Vol.40, No.9, pp.3421-3431, 2013. https://doi.org/10.1016/j.eswa.2012.12.050
  13. George H. L. Fletcher and Peter W. Beck, "Scalable indexing of RDF graphs for efficient join processing," In Proceedings of the 18th ACM conference on Information and knowledge management, CIKM, pp.1513-1516, 2009.
  14. http://www.w3.org/TR/rdf-sparql-query
  15. http://www.w3.org/TR/rdf-schema
  16. http://www.w3.org/TR/2011/WD-rdf-concepts-20110830
  17. http://swat.cse.lehigh/edu/projects/lubm
  18. http://dev.isp-sib.ch/projects/uniprot-rdf