DOI QR코드

DOI QR Code

Processing Method of Mass Small File Using Hadoop Platform

하둡 플랫폼을 이용한 대량의 스몰파일 처리방법

  • 김창복 (가천대학교 에너지 IT학과) ;
  • 정재필 (가천대학교 전자공학과)
  • Received : 2014.07.22
  • Accepted : 2014.08.23
  • Published : 2014.08.30

Abstract

Hadoop is composed with MapReduce programming model for distributed processing and HDFS distributed file system. Hadoop is suitable framework for big data processing, but processing of mass small files have many problems. The processing of mass small file in hadoop have problems to created one mapper per one file, and it have problems to needed many memory for store of meta information of file. This paper have comparison evaluation processing method of mass small file with various method in hadoop platform. The processing of general compression format is inadequate because of processing by one mapper regardless of data size. The processing of sequence and hadoop archive file is removed memory problem of namenode by compress and combine of small file. Hadoop archive file is faster then sequence file about combine time of small file. The processing using CombineFileInputFormat class is needed not combine of small file, and it have similar speed big data processing method.

하둡(Hadoop)은 맵리듀스(MapReduce) 분산처리 프로그래밍 모델과 HDFS(Hadoop distributed file system) 분산 파일시스템으로 구성된다. 하둡은 빅데이터 처리에 적합한 프레임워크로서, 대량의 스몰파일 처리에 문제점이 있다. 하둡에서 대량의 스몰파일 처리는 하나의 파일마다 매퍼가 생성되며, 파일의 메타정보를 저장하기 위해 많은 메모리가 필요한 문제점이 있다. 본 논문은 하둡 플랫폼에서 다양한 방법으로 대량의 스몰파일 처리방법을 비교 검토하였다. 일반 압축은 데이터의 크기와 상관없이 하나의 매퍼로 처리해야 하기 때문에, 하둡 처리 포맷으로 적절하지 않다. 시퀀스 와 하둡 아카이브 파일의 처리는 스몰파일을 압축 및 병합을 통해 네임노드의 메모리 문제가 제거되었다. 하둡 아카이브 파일은 스몰파일의 병합시간이 시퀀스 파일보다 빠른 속도를 보였다. CombineFileInputFormat 클래스를 이용한 처리는 병합과정이 필요 없으며, 빅데이터 처리방법과 유사한 속도를 보였다.

Keywords

References

  1. C. W. An, and S. K. Hwang, "Big data technologies and main issues," Journal of Korean Institute of Information Scientists and Engineers, Vol. 30, No. 6, pp.10-17, Jun. 2012.
  2. Apache Hadoop, http://hadoop.apache.org/
  3. K. Shvachko, H. Kuang, S. Radia, and R. Chansler, "The hadoop distributed file system," in Mass Storage Systems and Technologies (MSST), 2010 IEEE 26th Symposium on IEEE, Las Vegas: NV, pp. 1-10, 2010.
  4. J. Dean and S. Ghemawat, "MapReduce: simplified data processing on large clusters," Communications of the ACM, Vol. 51, Issue 1, pp. 107-113, Jan. 2008.
  5. B. G. Gu, "FiVE: File Virtual Expanding technique to efficiently process small data on Hadoop," Journal of Korean Institute of Information Technology, Vol 10, No.10, pp.69-78, Oct. 2012.
  6. G. Mackey, S. Sehrish, and J. Wang. "Improving metadata management for small files in HDFS," in Cluster Computing and Workshops, 2009. CLUSTER'09. IEEE International Conference on IEEE, New Orleans: LA, pp. 1-4, Aug. 2009.
  7. J. H. Jung, "Beginning, Hadoop Programming," Wikibooks, Oct. 2012.
  8. C. He, Y. Lu, and D. Swanson, "Matchmaking: a new MapReduce scheduling technique," Proceedings of Cloud Computer'11, pp. 40-47, 2011.
  9. http://code.google.com/p/snappy
  10. http://blog.cloudera.com/blog/2011/01/hadoop-io-sequence-map-set-array-bloommap-files/
  11. http://blog.cloudera.com/blog/2009/02/the-small-files-problem

Cited by

  1. A Study on the Improving Performance of Massively Small File Using the Reuse JVM in MapReduce vol.18, pp.9, 2015, https://doi.org/10.9717/kmms.2015.18.9.1098
  2. 하둡 프레임워크 기반 분산시스템 내의 작은 파일들을 효율적으로 처리하기 위한 방법의 설계 vol.10, pp.10, 2014, https://doi.org/10.13067/jkiecs.2015.10.10.1115