DOI QR코드

DOI QR Code

A Method for Non-redundant Keyword Search over Graph Data

그래프 데이터에 대한 비-중복적 키워드 검색 방법

  • 박창섭 (동덕여자대학교 컴퓨터학과)
  • Received : 2016.01.15
  • Accepted : 2016.02.12
  • Published : 2016.06.28

Abstract

As a large amount of graph-structured data is widely used in various applications such as social networks, semantic web, and bio-informatics, keyword-based search over graph data has been getting a lot of attention. In this paper, we propose an efficient method for keyword search over graph data to find a set of top-k answers that are relevant as well as non-redundant in structure. We define a non-redundant answer structure for a keyword query and a relevance measure for the answer. We suggest a new indexing scheme on the relevant paths between nodes and keyword terms in the graph, and also propose a query processing algorithm to find top-k non-redundant answers efficiently by exploiting the pre-calculated indexes. We present effectiveness and efficiency of the proposed approach compared to the previous method by conducting an experiment using a real dataset.

최근 소셜 네트워크, 시맨틱 웹, 바이오 인포매틱스 등 여러 응용 분야에서 그래프 구조를 갖는 대용량 데이터들에 활용됨에 따라 이런 데이터들에 대한 키워드 기반 검색 방법이 많은 관심을 받고 있다. 본 논문에서는 그래프 구조 데이터에 대한 키워드 질의에 대해 질의와 연관성이 높으면서 구조적인 중복성을 갖지 않는 top-k 결과 집합을 효율적으로 검색하는 방법을 제안한다. 키워드 질의에 대한 비-중복적인 결과 트리 구조와 그것의 연관도 척도를 정의하고, 그래프 내에 포함된 유용한 경로 정보들에 대한 효과적인 인덱싱 방법을 제안한다. 그리고 기 생성된 인덱스를 활용하여 주어진 키워드 질의에 대해 비-중복적이면서 연관도가 큰 top-k 결과 집합을 생성하는 효율적인 질의 처리 알고리즘을 제시한다. 실 데이터를 이용한 실험을 통해 제안한 방법의 효과와 성능을 기존 방법과 비교 분석한다.

Keywords

References

  1. G. Bhalotia, A. Hulgeri, C. Nakhe, S. Chakrabarti, and S. Sudarshan, "Keyword searching and browsing in databases using BANKS," Proc. of ICDE, pp.431-440, 2002.
  2. V. Kacholia, S. Pandit, S. Chakrabarti, S. Sudarshan, R. Desai, and H. Karambelkar, "Bidirectional expansion for keyword search on graph databases," Proc. of the 31st Int. Conf. on VLDB, pp.505-516, 2005.
  3. H. He, H. Wang, J. Yang, and P. S. Yu, "BLINKS: ranked keyword searches on graphs," ACM SIGMOD Conference, pp.305-316, 2007.
  4. B. Ding, J. X. Yu, S. Wang, L. Qin, X. Zhang, and X. Lin, "Finding top-k min-cost connected trees in databases," Proc. of ICDE, pp.836-845, 2007.
  5. B. B. Dalvi, M. Kshirsagar, and S. Sudarshan, "Keyword search on external memory data graphs," Proc. of the VLDB Endowment, Vol.1, No.1, pp.1189-1204, 2008.
  6. K. Golenberg, B. Kimelfeld, and Y. Sagiv, "Keyword proximity search in complex data graphs," Proc. of ACM SIGMOD Conference, pp.927-940, 2008.
  7. L. Qin, J. X. Yu, L. Chang, and Y. Tao, "Querying communities in relational databases," Proc. of the 25th ICDE, pp.724-735, 2009.
  8. T. Tran, S. Rudolph, P. Cimiano, and H. Wang, "Top-k exploration of query candidates for efficient keyword search on graph-shaped (RDF) data," Proc. of the 25th ICDE, pp.405-416, 2009.
  9. M. Kargar and A. An, "Keyword search in graphs: finding r-cliques," Proc. of the VLDB Endowment, Vol.4, No.10, pp.681-692, 2011.
  10. C. Park and S. Lim, "Efficient processing of keyword queries over graph databases for finding effective answers," Information Proc. and Mgmt, Vol.51, No.1, pp.42-57, 2015. https://doi.org/10.1016/j.ipm.2014.08.002
  11. J. X. Yu, L. Qin, and L. Chang, "Keyword search in relational databases: a survey," Bulletin of the IEEE CS Technical Committee on Data Engineering, Vol.33, No.1, pp.67-78, 2010.
  12. R. Fagin, A. Lotem, and M. Naor, "Optimal aggregation algorithms for middleware," Journal of Computer and System Sciences, Vol.66, No.4, pp.614-656, 2003. https://doi.org/10.1016/S0022-0000(03)00026-6
  13. S. Buttcher, C. Clarke, and G. Cormack, Information retrieval: implementing and evaluating search engine, MIT Press, 2010.