DOI QR코드

DOI QR Code

Structural Change Detection Technique for RDF Data in MapReduce

맵리듀스에서의 구조적 RDF 데이터 변경 탐지 기법

  • 이태휘 (한국전자통신연구원 빅데이터SW플랫폼연구부) ;
  • 임동혁 (호서대학교 컴퓨터정보공학부)
  • Received : 2014.03.28
  • Accepted : 2014.06.19
  • Published : 2014.08.31

Abstract

Detecting and understanding the changes between RDF data is crucial in the evolutionary process, synchronization system, and versioning system on the web of data. However, current researches on detecting changes still remain unsatisfactory in that they did neither consider the large scale of RDF data nor accurately produce the RDF deltas. In this paper, we propose a scalable and effective change detection using a MapReduce framework which has been used in many fields to process and analyze large volumes of data. In particular, we focus on the structure-based change detection that adopts a strategy for the comparison of blank nodes in RDF data. To achieve this, we employ a method which is composed of two MapReduce jobs. First job partitions the triples with blank nodes by grouping each triple with the same blank node ID and then computes the incoming path to the blank node. Second job partitions the triples with the same path and matchs blank nodes with the Hungarian method. In experiments, we show that our approach is more accurate and effective than the previous approach.

RDF 데이터의 변경 내용을 탐지하고 이해하는 것은 데이터 웹의 진화 프로세스, 동기화 시스템, 버전 관리 시스템에서 매우 중요한 역할을 한다. 하지만 현재의 연구들은 대용량 데이터를 고려하지 않거나 정확하게 변경 내용을 탐지하지 못한다는 점에서 여전히 미흡하다. 본 논문에서는 대용량 데이터의 처리, 분석을 위해 여러 분야에서 사용되는 맵리듀스 프레임워크 기반의 확장가능하며 효과적인 변경 탐지 기법을 제안한다. 특히, RDF 데이터의 공노드를 비교하는 구조적인 변경 탐지에 초점을 둔다. 이를 위해, 두 개의 맵리듀스 작업으로 이루어진 방법을 사용한다. 첫 번째 작업에서는 공노드에 부여된 내부 아이디가 같은 트리플들을 그룹화하여 공노드에 연결된 경로를 계산한다. 두 번째 작업에서는 같은 경로를 가지는 트리플들을 그룹화하여 헝가리안 메소드를 이용하여 공노드 매칭을 수행한다. 실험을 통해 제안한 방법이 기존 방법보다 더 정확하고 효과적임을 보인다.

Keywords

References

  1. G. Klyne and J. J. Carroll, "Resource Description Framework (RDF): Concepts and Abstract", http://www.w3.org/TR/rdf11-concepts/, 2004.
  2. D. H. Lee, D. H. Im, H. J. Kim, "A Change Detection Technique Supporting Nested Blank Nodes of RDF Document," Journal of KIISE : Database, Vol.34, No.6, pp. 518-527, 2007.
  3. T. Berners-Lee and D. Connolly, "Delta: An Ontology for the Distribution of Differences between RDF Graphs," http://w3.org/DesignIssues/Diff
  4. D. Zeginis Y. Tzitzikas, and V. Christophides, "On Computing Deltas of RDF/S Knowledge Bases," ACM Transactions on the Web(TWEB), 2011.
  5. D. H. Im, S. W. Lee, and H. J. Kim, "A version management framework for RDF triple stores," International Journal of Software Engineering and Knowledge Engineering, Vol.22, No.1, pp.85-106, 2012. https://doi.org/10.1142/S0218194012500040
  6. J. Dean and S. Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters," in Proceedings of the 6th USENIX Symposium on Operating Systems Design and Implementation, pp.137-150, 2004.
  7. J. H. Ahn, D. H. Im, J. W. Jung, N. Zong, K. S. Ha, H. G. Kim, "Design and implementation of change detection for Linked Data using mapreduce framework," HCI KOREA, 2013.
  8. Y. Tzitzikas, C. Lantzaki, and D. Zeginis, "Blank Node Matching and RDF/S Comparison Functions," in Proceedings of the 11th International Semantic Web Conference(ISWC'12), 2012.
  9. D. H. Im, S. W. Lee, and H. J. Kim, "Backward inference and pruning for RDF change detection using RDBMS," Journal of Information Science, Vol.39, No.2, pp.238-255, 2013. https://doi.org/10.1177/0165551512463650
  10. J. Myung, J. Yeon, and S. Lee, "SPARQL basic graph pattern processing with iterative MapReduce," in Proceedings of MDAC, pp.6:1-6:6, 2010.
  11. M. Husain et al., "Heuristics based Query Processing for Large RDF Graphs using Cloud Computing," IEEE TKDE, Vol.23, No.9, pp.1322-1327, 2011.
  12. J. Urbani et al, "Webpie: A web-scale parallen inference engine using mapreduce", Journal of Web Semantics, Vol. 10, pp.59-75, 2012. https://doi.org/10.1016/j.websem.2011.05.004
  13. M. Schmidt et al, "SP2Bench: A SPARQL Performance Benchmark," in Proceedings of ICDE, pp.222-233, 2009.
  14. DBLP computer science bibliography. http://www.informatik.uni-trier.de/-ley/db/