Abstract
Provenance means the meta data that represents the history or lineage of a data in collaboration storage environments. Therefore, as provenance has been accruing over time, it takes several ten times as large as the original data. The schemes for effciently compressing huge amounts of provenance are required. In this paper, we propose a provenance compression scheme considering the RDF graph patterns. The proposed scheme represents provenance based on a standard PROV model and encodes provenance in numeric data through the text encoding. We compress provenance and RDF data using the graph patterns. Unlike conventional provenance compression techniques, we compress provenance by considering RDF documents on the semantic web. In order to show the superiority of the proposed scheme, we compare it with the existing scheme in terms of compression ratio and the processing time.
프로버넌스 데이터는 데이터의 근원 정보나 변경 이력을 표현하는 메타데이터이다. 프로버넌스 정보는 변경 이력 정보가 쌓이면서 원본데이터와 비교하여 수십 배에 달하는 양을 차지한다. 따라서 대용량의 프로버넌스 데이터를 효율적으로 압축하기 위한 기법이 요구된다. 본 논문에서는 RDF 그래프 패턴을 고려한 프로버넌스 압축 기법을 제안한다. 제안하는 기법은 표준 PROV 모델을 기반으로 프로버넌스를 표현하고 텍스트 인코딩을 통해 프로버넌스 데이터를 숫자로 인코딩한다. 그래프 패턴을 이용하여 RDF 데이터와 프로버넌스 데이터를 압축한다. 제안하는 기법은 기존 프로버넌스 압축 기법과는 달리 시맨틱 웹상의 RDF 문서를 고려하여 프로버넌스 데이터를 압축한다. 압축률, 처리시간에 대한 성능 평가를 통해 제안하는 기법의 우수성을 증명한다.