Abstract
In this paper, we propose the distributed cache management scheme to efficiently access small files in Hadoop Distributed File Systems(HDFS). The proposed scheme can reduce the number of metadata managed by a name node since many small files are merged and stored in a chunk. It is also possible to reduce the file access costs, by keeping the information of requested files using the client cache and data node caches. The client cache keeps small files that a user requests and metadata. Each data node cache keeps the small files that are frequently requested by users. It is shown through performance evaluation that the proposed scheme significantly reduces the processing time over the existing scheme.
본 논문에서는 소형 파일을 효율적으로 접근하기 위한 분산 캐시 관리 기법을 제안한다. 제안하는 기법은 다수의 소형 파일을 병합하여 청크에 저장함으로써, 네임 노드에서 관리해야 할 메타데이터 수를 감소시킨다. 또한, 클라이언트와 데이터 노드의 캐시를 사용하여 요청된 파일들의 정보를 유지함으로써 소형 파일 접근 비용을 줄인다. 이때, 클라이언트의 캐시에는 사용자가 요청한 소형 파일과 메타데이터가 유지되며, 각 데이터 노드의 캐시에는 여러 사용자들이 빈번하게 요청했던 소형 파일을 유지한다. 성능 평가를 통해 제안하는 분산 캐시 관리 기법이 기존 기법에 비해 소형 파일 접근 비용을 크게 감소시킴을 보인다.