Abstract
In this paper, we propose a new caching strategy for web servers. The proposed algorithm collects on]y the statistics of the requested file, for example the popularity, when a request arrives. And, at times, only files with higher popularity are cached all together. Because the cache remains unchanged until the cache is made newly, web server can use very efficient data structure for cache to determine whether a file is in the cache or not. This increases greatly tile efficiency of cache manipulation. Furthermore, the experiment that is performed with real log files built by web servers shows that the cache hit ratio and the cache hit ratio are better than those produced by LRU. The proposed algorithm has a drawback such that the cache hit ratio may decrease when the popularity of files that is not in the cache explodes instantaneously. But in our opinion, such explosion happens infrequently, and it is easy to implement the web servers to adapt them to such unusual cases.
본 논문에서는 파일이 요청된 순간에는 파일의 선호도만을 조사하고, 일정 시간이 흐른 후에 선호도가 높은 파일들을 일괄적으로 캐싱하는 새로운 캐싱 전략을 소개한다. 이 전략에서는 일정 기간 동안 캐시의 상태가 변하지 않기 때문에 캐시 조작 비용이 거의 들지 않는 매우 효과적인 자료 구조의 사용이 가능하다는 장점을 가지고 있다. 뿐만 아니라, 국내외 5개 웹 서버로부터 수집한 log 파일을 대상으로 실험한 결과에 의하면, LRU를 사용하였을 때보다 오히려 캐시 히트율이 증가하였으며, 캐시 내 자료 재사용율도 증가하는 장점을 보석 주고 있다. 본 논문에서 제안하는 선호도 기반 게으른 캐싱전략(Popularity Based Lazy Caching Strategy)은 캐시에 포함되지 못한 파일의 선호도가 크게 증가하는 경우에 성능이 떨어지는 단점을 가지고는 있다. 그러나 이러한 경우는 자주발생하지 않으며, 웹 서버를 적응적으로 구현하여 해결할 수 있다.