TripleDiff: 트리플 저장소에서 RDF 문서에 대한 점진적 갱신 알고리즘

TripleDiff: an Incremental Update Algorithm on RDF Documents in Triple Stores

  • 이태휘 (서울대학교 전기, 컴퓨터공학부) ;
  • 김기성 (서울대학교 전기, 컴퓨터공학부) ;
  • 유상원 (서울대학교 전기, 컴퓨터공학부) ;
  • 김형주 (서울대학교 전기, 컴퓨터공학부)
  • 발행 : 2006.10.15

초록

시멘틱 웹(semantic web)과 함께 등장한 RDF는 웹 상의 메타데이타 및 데이타를 나타내는 표준으로 자리매김 하고 있다. 이에 따라 RDF에 대한 저장 및 질의 처리에 대한 연구가 많이 이루어졌으며, 대표적인 시스템으로 Sesame, Jena 등이 있다. 그러나 아직 갱신 방법에 대한 연구는 부족하다. RDF 데이타가 지속적으로 갱신이 이루어지는 경우에는 저장된 RDF를 갱신해야 하는 상황이 발생한다. 현존하는 RDF 저장소에서 데이타를 갱신하기 위해서는 기존의 데이타를 모두 삭제한 후 새로운 데이타를 처음부터 다시 저장해야 하는데, 이러한 상황에서는 매우 비효율적이다. 또한 한 RDF 저장소에 여러 RDF가 저장되어 있는 경우에는 갱신 문제가 더욱 복잡해진다. 이에 본 논문에서는 RDF 데이타를 점진적으로 갱신하는 기법을 제안하고자 한다. 제안한 기법은 텍스트 비교 알고리즘을 통해 얻은 결과를 보완하여 기존 RDF 데이타에서 변화된 트리플 문장만을 추출하여 갱신한다. 실제 RDF 데이터를 이용한 실험을 통해 제안한 방법을 사용하여 갱신을 효율적으로 할 수 있음을 보였다.

The Resource Description Framework(RDF), which emerged with the semantic web, is settling down as a standard for representing information about the resources in the World Wide Web Hence, a lot of research on storing and query processing RDF documents has been done and several RDF storage systems, such as Sesame and Jena, have been developed. But the research on updating RDF documents is still insufficient. When a RDF document is changed, data in the RDF triple store also needs to be updated. However, current RDF triple stores don't support incremental update. So updating can be peformed only by deleting the old version and then storing the new document. This updating method is very inefficient because RDF documents are steadily updated. Furthermore, it makes worse when several RDF documents are stored in the same database. In this paper, we propose an incremental update algorithm on RDF, documents in triple stores. We use a text matching technique for two versions of a RDF document and compensate for the text matching result to find the right target triples to be updated. We show that our approach efficiently update RDF documents through experiments with real-life RDF datasets.

키워드

참고문헌

  1. Graham Klyne, Jeremy J. Carroll, and Brian McBride. Resource Description Framework (RDF): Concepts and Abstract Syntax, W3C Recommendation, 2004
  2. Gene Ontology Consortium, http://www.geneontology.org
  3. UniProt RDF, http://www.isb-sib.ch/%7Eejain/rdf/
  4. Jeen Broekstra, et. al. Sesame: A Generic Architec-ture for Storing and Querying RDF and RDF Schema, In Proceedings of the International Semantic Web Conference, 2002
  5. Kevin Wilkinson, et. al. Efficient RDF Storage and Retrieval in Jena2. In Proceedings of the first International Workshop on Semantic Web and Databases, 2003
  6. 김기성,유상원, 이태휘,김형주 RDFS 함의 규칙적용 순서를 고려한 전방향 RDFS 추론 엔진의 최적화. 정보과학회논문지:데이타베이스,33(2),2006
  7. Michael Klein, et. al. Ontology Versioning and Change Detection on the Web. In Proceedings of the 13th International Conference on Knowledge Engineering and Knowledge Management, 2002
  8. Jeremy J. Carroll. Matching RDF Graphs. In Proceedings of the International Semantic Web Conference, 2002
  9. Jeremy J. Carroll. Signing RDF Graphs. In Proceedings of the International Semantic Web Conference, 2003
  10. Tim Berners-Lee and Dan Connolly. Delta: An Ontology for the Distribution of Differences Between RDF Graphs. httpv/www.wd.org/DesignIssues/Diff
  11. GNU diff, http://www.gnu.org/software/diffutils/diffutils.html
  12. Sudarshan S. Chawathe, et. al. Change Detection in Hierarchically Structured Information. In Proceedings of the ACM SIGMOD International Conference on Management of Data, 1996 https://doi.org/10.1145/233269.233366
  13. David MacKenzie, Paul Eggert and Richard Stallman. Comparing and Merging Files. http://www. fnal.gov/docs/products/diffutils/diff_toc.html