DOI QR코드

DOI QR Code

Data Partitioning on MapReduce by Leveraging Data Utility

맵리듀스에서 데이터의 유용성을 이용한 데이터 분할 기법

  • Received : 2013.04.30
  • Accepted : 2013.05.14
  • Published : 2013.05.31

Abstract

Today, many aspects of our lives are characterized by the rapid influx of large amounts of data from various application domains. The applications that produce this massive of data span a large spectrum, from social media to business intelligence or biology. This massive influx of data necessitates large scale parallelism for efficiently supporting a large class of analysis tasks. Recently, there have been extensive studies in using MapReduce framework to support large parallelism. While this technique has produced impressive results in diverse applications, the same can not be said for multimedia applications where most of users are interested in a small number of results having high or low score. Thus, in this paper, we develop the data partitioning algorithm which is able to efficiently process large data set having different data utility. The experiment results show that the proposed technique provides significant execution time gains over the existing solution.

현대사회는 소셜 미디어, 비즈니스, 바이오 인포메틱스 같은 다양한 응용프로그램에서 지속적으로 생산되어 지고 있는 수많은 데이터의 빠른 유입으로 특징지어 지고 있다. 이에 따라 폭발적으로 증가하고 있는 대규모 데이터를 보다 효율적으로 분석하고 처리 할 수 있는 방법이 그 어느 때보다 강조 되고 있다. 지난 몇 년간 학계에서는 배치 지향 시스템 (batch oriented system) 환경 내에서 병렬 처리를 효과적으로 지원할 수 있는 맵리듀스 기법이 활발히 연구 되어 왔으며, 맵리듀스 기법은 다양한 분야에서 성공적으로 사용되고 있다. 그러나 이 기법은 데이터의 상대적 유용성 (data utility)을 고려하지 않기 때문에, 멀티미디어 응용프로그램 사용자의 특성 (즉, 높은 혹은 낮은 스코어를 가지는 몇몇 결과물에 관심을 가지는 사용자들의 특성)으로 인하여 효과적인 성능을 보여 주지 못하고 있다. 따라서 본 논문에서는 이러한 문제점을 해소하기 위해, 맵리듀스 상에서의 데이터 분할 방식을 제안한다. 또한, 제안된 분할 방식에 대한 성능 실험을 통하여 우리가 제안하는 데이터 분할 방식이 기존 방식보다 성능 향상을 자져올 수 있음을 보여준다.

Keywords

References

  1. J. Dean and S. Ghemawat. MapReduce: Simplified Data Processing on Large Clusters, Symposium on Opearting Systems Design and Implementation, pp. 137-150, 2004.)
  2. Yahoo, Hadoop, http://hadoop.apache.org, 2013
  3. Hive. http://wiki.apache.org/hadoop/Hive/ 2013.
  4. G. DeCandia, D. Hastorun, M. Jampani, G. Kakulapat, A. Lakshman, A. Pilchin, S. Sivasubramanian, P, Vosshall, and W. Vogels, "Dynamo: Amazon's Highly Available Key-Value Store," Proc. the 21st ACM SIGOPS Symposium on Operating Systems Principles, pp. 205-220, 2007.
  5. R. Chaiken, B. Jenkins, P. Larson, B. Ramsey, D. Shakib, S. Weaver, and J. Zhou, "SCOPE: Easy and Efficient Parallel Processing of Massive Data Sets," Proc. the International Conference on Very Large Data Bases, pp. 1265-1276, 2008.
  6. B. Cooper, R. Ramakrishnan, U. Srivastava, A. Silberstein, P. Bohannon, H. Jacobsen, N. Puz, D. Weaver, and R. Yerneni, "PNUTS: Yahoo!'s Hosted Data Serving Platform," Proc. the International Conference on Very Large Data Bases, pp. 1277-1288, 2008.
  7. B. Panda, J.S. Herbach, S. Basu, and R.J. Bayardo, "PLANET: Massively Parallel Learning of Tree Ensembles with MapReduce," Proc. the International Conference on Very Large Data Bases, pp. 1426-1437, 2009.
  8. J. Lin. "Brute Force and Indexed Approaches to Pairwise Document Similarity Comparisons with MapReduce," Proc. the international ACM SIGIR conference, pp. 155-162, 2009.
  9. K.S. Candan, J.W. Kim, P. Nagarkar, M. Nagendra, and R. Yu. "RanKloud: Scalable Multimedia Data Processing in Server Clusters," IEEE MultiMedia, Vol. 18, Issue 1, pp. 64-77, 2011. https://doi.org/10.1109/MMUL.2010.70
  10. R. Yu, M. Nagendra, P. Nagarkar, K.S. Candan, and J.W. Kim. "Data-Utility Sensitive Query Processing on Server Clusters to Support Scalable Data Analysis Services," Lecture Notes in Business Information Processing Vol. 74, pp 155-184, 2011. https://doi.org/10.1007/978-3-642-19294-4_7
  11. R. Raghu and G. Johannes, "Database Management Systems," McGraw-Hill Higher Education, 2nd edition, Boston, MA, 2000.
  12. Internet Movie Database, http://www.imdb. com/interfaces, 1990.
  13. M. Zaharia, D. Borthakur, J.S. Sarma, K. Elmeleegy, S. Shenker, and I. Stoica, Job Scheduling for Multi-User MapReduce Clusters, Technical Report No. UCB/EECS-2009-55, 2009.
  14. S. Ibrahim, H. Jin, L. Lu, S. Wu, B. He, and L. Qi. "LEEN: Locality/Fairness- Aware Key Partitioning for MapReduce in the Cloud." IEEE Second International Conference on Cloud Computing Technology and Science, pp. 17-24, 2010.
  15. Y.C. Kwon, M. Balazinska, B. Howe, and J. Rolia, "Skew-resistant Parallel Processing of Feature-extracting Scientific User-defined Functions," Proc. ACM Sympo. Cloud Computing, pp. 75-86, 2010.
  16. B. Gurfler, N. Augsten, A. Reiser, and A. Kemper. "Handling Data Skew in MapReduce," Proc. Cloud Computing and Services Science, pp. 574-583, 2011.
  17. J.H. Kim and M. Kim, "A Filter Lining Scheme for Efficient Skyline Computation," Journal of Korea Multimedia Society, Vol. 14, n. 12, pp 1591-1600, 2011 https://doi.org/10.9717/kmms.2011.14.12.1591

Cited by

  1. Effective Indexing for Evolving Data Collection by Using Ontology vol.17, pp.2, 2014, https://doi.org/10.9717/kmms.2014.17.2.240
  2. Efficient Top-K Queries Computation for Encrypted Data in the Cloud vol.18, pp.8, 2015, https://doi.org/10.9717/kmms.2015.18.8.915
  3. 하둡 분산 환경 기반 프라이버시 보호 빅 데이터 배포 시스템 개발 vol.20, pp.11, 2013, https://doi.org/10.9717/kmms.2017.20.11.1785