DOI QR코드

DOI QR Code

Effective Keyword Search on Semantic RDF Data

시맨틱 RDF 데이터에 대한 효과적인 키워드 검색

  • 박창섭 (동덕여자대학교 컴퓨터학과)
  • Received : 2017.07.27
  • Accepted : 2017.08.23
  • Published : 2017.11.28

Abstract

As a semantic data is widely used in various applications such as Knowledge Bases and Semantic Web, needs for effective search over a large amount of RDF data have been increasing. Previous keyword search methods based on distinct root semantics only retrieve a set of answer trees having different root nodes. Thus, they often find answer trees with similar meanings or low query relevance together while those with the same root node cannot be retrieved together even if they have different meanings and high query relevance. We propose a new method to find diverse and relevant answers to the query by permitting duplication of root nodes among them. We present an efficient query processing algorithm using path indexes to find top-k answers given a maximum amount of root duplication a set of answer trees can have. We show by experiments using a real dataset that the proposed approach can produce effective answer trees which are less redundant in their content nodes and more relevant to the query than the previous method.

최근 지식 베이스, 시맨틱 웹 등 여러 응용 분야에서 시맨틱 데이터의 활용이 증가함에 따라 대규모 RDF 데이터에 대한 효과적인 검색 방법의 필요성이 커지고 있다. 기존의 개별 루트 시맨틱에 기반한 키워드 검색 방법들은 서로 다른 루트 노드를 갖는 결과 트리들의 집합만을 검색함에 따라, 의미적으로 유사하거나 연관성이 낮은 결과 트리들이 함께 검색되고, 동일한 루트 노드를 공유하되 의미적으로 다르고 질의 연관도가 높은 결과들은 함께 검색될 수 없는 문제점이 있다. 이를 개선하기 위해 본 논문에서는 결과 트리들의 루트 노드의 중복을 제한적으로 허용하여 질의 연관도가 높으면서 다양한 결과들을 함께 검색하는 방법을 제안한다. 이를 위해 결과 트리 집합의 루트 중복도 척도를 정의하고, 주어진 키워드 질의와 최대 루트 중복도에 따라 제한적인 루트 중복성을 가지면서 연관도가 높은 top-k 결과 트리들을 효율적으로 구하기 위한 검색 알고리즘을 제시한다. 실 데이터를 이용한 성능 실험 결과, 제안한 방법이 기존 방법보다 콘텐트 노드들의 중복이 적은 다양한 결과 트리들을 검색할 뿐만 아니라 결과 트리들의 루트 노드의 중복을 허용함으로써 질의 연관도가 더 높은 결과들을 생성할 수 있음을 보였다.

Keywords

Acknowledgement

Supported by : 동덕여자대학교

References

  1. RDF- Semantic Web Standards, https://www.w3.org/2001/sw/wiki/RDF
  2. SPARQL Query Language for RDF, http://www.w3.org/TR/rdf-sparql-query/
  3. V. Kacholia, S. Pandit, S. Chakrabarti, S. Sudarshan, R. Desai, and H. Karambelkar, "Bidirectional expansion for keyword search on graph databases," Proc. Of the 31st Int. Conf. on VLDB, pp.505-516, 2005.
  4. H. He, H. Wang, J. Yang, and P. S. Yu, "BLINKS: ranked keyword searches on graphs," ACM SIGMOD Conference, pp.305-316, 2007.
  5. B. Ding, J. X. Yu, S. Wang, L. Qin, X. Zhang, and X. Lin, "Finding top-k min-cost connected trees in databases," Proc. Of ICDE, pp.836-845, 2007.
  6. B. B. Dalvi, M. Kshirsagar, and S. Sudarshan, "Keyword search on external memory data graphs," Proc. of the VLDB Endowment, Vol.1, No.11, pp.1189-1204, 2008. https://doi.org/10.14778/1453856.1453982
  7. K. Golenberg, B. Kimelfeld, and Y. Sagiv, "Keyword proximity search in complex data graphs," Proc. of ACM SIGMOD Conference, pp.927-940, 2008.
  8. J. X. Yu, Qin, and L. Chang, "Keyword search in relational databases: : a survey," Bulletin of the IEEE CS Technical Committee on Data Engineering, Vol.33, No.1, pp.67-78, 2010.
  9. C. Park and S. Lim, "Efficient processing of keyword queries over graph databases for finding effective answers," Information Proc. and Management, Vol.51, No.1, pp.42-57, 2015. https://doi.org/10.1016/j.ipm.2014.08.002
  10. 박창섭, "그래프 데이터에 대한 비-중복적 키워드 검색 방법," 한국콘텐츠학회논문지, 제16권, 제6호, pp.205-214, 2016. https://doi.org/10.5392/JKCA.2016.16.06.205
  11. C. Liu, L. Yao, J. Li, R. Zhou, and Z. He, "Finding smallest k-Compact tree set for keyword queries on graphs using mapreduce," World Wide Web, Vol.19, No.3, pp.499-518, 2016. https://doi.org/10.1007/s11280-015-0337-1
  12. M. Kargar, A. An, and X. Yu, "Efficient duplication free and minimal keyword search in graphs," IEEE Trans. on Knowledge and Data Engineering, Vol.26, No.7, pp.1657-1669, 2014. https://doi.org/10.1109/TKDE.2013.85
  13. T. Tran, S. Rudolph, P. Cimiano, and H. Wang, "Top-k exploration of query candidates for efficient keyword search on graph-shaped (RDF) data," Proc. of the 25th ICDE, pp.405-416, 2009.
  14. W. Le, F. Li, A. Kementsietsidis, and S. Duan, "Scalable Keyword Search on Large RDF Data," IEEE Trans. On Knowledge and Data Engineering, Vol.26, No.11, pp.2774-2788, 2014. https://doi.org/10.1109/TKDE.2014.2302294
  15. S. Buttcher, C. Clarke, and G. Cormack, Information retrieval: implementing and evaluating search engine, MIT Press, 2010.
  16. R. Fagin, A. Lotem, and M. Naor, "Optimal aggregation algorithms for middleware," Journal of Computer and System Sciences, Vol.66, No.4, pp.614-656, 2003. https://doi.org/10.1016/S0022-0000(03)00026-6