DOI QR코드

DOI QR Code

SWOSpark : Spatial Web Object Retrieval System based on Distributed Processing

SWOSpark : 분산 처리 기반 공간 웹 객체 검색 시스템

  • 양평우 (군산대학교 컴퓨터정보공학과) ;
  • 남광우 (군산대학교 컴퓨터정보통신공학부)
  • Received : 2017.05.23
  • Accepted : 2017.11.05
  • Published : 2018.01.15

Abstract

This study describes a spatial web object retrieval system using Spark, an in - memory based distributed processing system. Development of social networks has created massive amounts of spatial web objects, and retrieval and analysis of data is difficult by using exist spatial web object retrieval systems. Recently, development of distributed processing systems supports the ability to analyze and retrieve large amounts of data quickly. Therefore, a method is promoted to search a large-capacity spatial web object by using the distributed processing system. Data is processed in block units, and one of these blocks is converted to RDD and processed in Spark. Regarding the discussed method, we propose a system in which each RDD consists of spatial web object index for the included data, dividing the entire spatial region into non-overlapping spatial regions, and allocating one divided region to one RDD. We propose a system that can efficiently use the distributed processing system by dividing space and increasing efficiency of searching the divided space. Additionally by comparing QP-tree with R-tree, we confirm that the proposed system is better for searching the spatial web objects; QP-tree builds index with both spatial and words information while R-tree build index only with spatial information.

본 논문은 인 메모리 기반의 분산처리 시스템인 Spark를 이용하여 공간 웹 객체 검색 시스템을 구현한 논문이다. 소셜 네트워크의 발전은 방대한 양의 공간 웹 객체를 생성하게 되었고, 기존의 공간 웹 객체 검색 시스템을 이용한 데이터 검색이나 분석은 힘들어졌다. 최근에 분산처리 시스템의 발전은 대용량의 데이터를 빠르게 분석하고 검색하는 기능을 지원해준다. 따라서 대용량의 공간 웹 객체를 검색하기 위해서는 분산 처리 시스템을 이용한 방법이 필요하다. 분산 처리 시스템에서는 데이터가 블록 단위로 처리되고, 이러한 블록 하나를 Spark에서는 데이터를 RDD로 변환하여 처리한다. 본 논문에서는 위의 방법에 착안하여 전체 공간 영역을 기반으로 서로 겹치지 않는 공간영역으로 분할을 하고, 분할된 영역 하나당 하나의 파티션을 할당하고 각각의 파티션은 자신이 포함하고 있는 데이터에 대한 공간 웹 객체 인덱스로 구성하는 시스템을 제안한다. 즉, 본 논문에서는 공간 분할을 이용하여 분산처리 시스템을 효율적으로 이용하고, 분할된 공간에 대한 검색의 효율성을 높일 수 있는 시스템을 제안한다. 또한, 데이터의 검색을 위하여 공간 정보와 단어 정보를 같이 사용하여 인덱스를 구축하는 QP-tree를 적용한 방법과 공간 정보만을 이용하여 인덱스를 구축하는 R-tree를 적용한 방법과의 비교를 통하여 제안한 시스템이 공간 웹 객체의 검색에 더 우수한 성능을 보여주는 것을 확인할 수 있다.

Keywords

Acknowledgement

Supported by : 국토교통부, 한국연구재단

References

  1. I. D. Felipe, V. Hristidis, and N. Rishe, "Keyword search on spatial databases," Proc. of the IEEE 24th International Conference on Data Engineering, pp. 656-665, 2008.
  2. D. Zhang, Y. M. Chee, A. Mondal, A. K. H. Tung, and M. Kitsuregawa, "Keyword search in spatial databases: Towards searching by document," Proc. of the 25th IEEE International Conference on Data Engineering, pp. 688-699, 2009.
  3. Y. Zhou, X. Xie, C. Wang, Y. Gong, and W.-Y. Ma, "Hybrid index structures for location-based web search," CIKM, pp. 155-162, 2005.
  4. M. R. Evans, D. Oliver, X. Zhou and S. Shekhar, "Spatial big data," Hassan A. K. (eds.), Big data: techniques and technologies in geoinformatics, Taylor & Francis Group, UK, pp. 149-156. 2014.
  5. Apache Hadoop, http://hadoop.apache.org
  6. A. Aji, H. Wang, H. Vo, R. Lee, Q. Liu, X. Zhang, and J. Saltz, "Hadoop GIS : a high performance spatial data warehousing system over mapreduce," Proc. of the VLDB Endowment, Vol. 6, No. 11, pp. 1009-1020, 2013. https://doi.org/10.14778/2536222.2536227
  7. A. Eldawy and M. F. Mokbel, "SpatialHadoop: A MapReduce framework for spatial data," Proc. of IEEE 31st International conference on Data Engineering, pp. 1352-1363, 2015.
  8. M. Zaharia, M. Chowdhury, T. Das, A. Dave, J. Ma, M. McCauley, M. J. Franklin, S. Shenker, I. Stoica, "Resilient distributed datasets: a fault-tolerant abstraction for in-memory cluster computing," Proc. of the 9th USENIX Symposium on networked systems design and implementation, USENIX Association, San Jose, USA, pp. 2-2, 2012.
  9. Apahce Spark, [Online] Available: http://spark.apache.org/
  10. M. Tang, Y. Yu, Q. M. Halluhi, M. Ouzzani and W. G. Aref, "LocationSpark: a distributed in-memory data management system for big spatial data," Proc of the VLDB Endowment, Vol. 9, No. 13, pp. 1565-1568, 2016. https://doi.org/10.14778/3007263.3007310
  11. J. Yu, J. Wu and M. Sarwat, "GeoSpark: a cluster computing framework for processing large-scale spatial data," Proc. of the 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems, pp. 70-70, 2015.
  12. Y. Simin, J. Zhang, and L. Gruenwald, "Large-scale spatial join query processing in cloud," Proc. of IEEE 31st International conference on Data Engineering, pp. 34-41, 2015.
  13. D. Wu, G. Cong and C. S. Jensen, "A framework for efficient spatial web object retrieval," The VLDB Journal : The International Journal on Very Large Data Bases, Vol. 21, No. 6, pp. 797-822, 2012. https://doi.org/10.1007/s00778-012-0271-0
  14. A. Cary, O. Wolfson, and N. Rishe, "Efficient and scalable method for processing top-k spatial boolean queries," International Conference on Scientific and Statistical Database Management, pp. 87-95, 2010.
  15. P. W. Yang, K. W. Nam, "An Efficient Retrieval Technique for Spatial Web Object," Journal of KIISE, Vol. 42, No. 3, pp. 390-398, Mar. 2015. (in Korean) https://doi.org/10.5626/JOK.2015.42.3.390
  16. Y. Lee, K. W. Nam, K. H Ryu, "Fast mining of spatial frequent wordset from social database," Spatial Information Research, Vol. 25, No. 2, pp. 271-280, 2017. https://doi.org/10.1007/s41324-017-0094-6