DOI QR코드

DOI QR Code

Effect of Sampling for Multi-set Cardinality Estimation

멀티셋의 크기 추정 기법에서 샘플링의 효과

  • ;
  • 양대헌 (인하대학교 컴퓨터정보공학과) ;
  • 이경희 (수원대학교 전기공학과)
  • Received : 2014.07.17
  • Accepted : 2014.09.30
  • Published : 2015.01.31

Abstract

Estimating the number of distinct values is really well-known problems in network data measurement and many effective algorithms are suggested. Recent works have built upon technique called Linear Counting to solve the estimation problem for massive sets or spreaders in small memory. Sampling is used to reduce the measurement data, and it is assumed that sampling gives bad effect on the accuracy. In this paper, however, we show that the sampling on multi-set estimation sometimes gives better results for CSE with sampling than for MCSE that examines all the packets without sampling in terms of accuracy and estimation range. To prove this, we presented mathematical analysis, conducted experiment with real data, and compared the results of CSE, MCSE, and CSES.

멀티셋에서 중복을 제외한 서로 다른 원소의 수를 추정하는 것은 네트워크 트래픽 측정 분야에서 매우 잘 알려진 문제이며, 많은 알고리즘들이 제안되었다. 최근에는 선형 카운팅 기법(Linear Counting)에 기반해서 매우 작은 메모리만을 이용해서 멀티셋의 크기를 추정하는 알고리즘이 개발되었다. 너무 많은 데이터를 처리하기 어려운 경우 전체 데이터를 처리하지 않고, 패킷의 일부를 샘플링해서 사용하는데, 이 샘플링은 일반적으로 정확도에 부정적인 영향을 주는 것으로 알려져있다. 하지만, 이 논문에서는 멀티셋의 크기를 추정하는데 있어서 CSE를 이용하는 경우 샘플링이 정확도와 측정 범위의 측면에서 오히려 전수조사를 하는 MCSE보다 더 좋은 결과를 낼 수 있음을 보였다. 이를 입증하기 위해 수학적 분석, 실제 데이터를 이용한 실험을 수행하고, CSE, MCSE 그리고 CSES를 비교하였다.

Keywords

References

  1. Z. Bar-Yossef and T. Jayram. "Counting distinct elements in a data stream", Randomization and Approximation Techniques in Computer Science, pp.1-10, 2002.
  2. A. Chen and J. Cao. "Distinct counting with a self-learning bitmap," Journal of the American Statistical Association, pp. 1171-1174, Mar., 2011.
  3. P. Flajolet, E. Fusy, O. Gandouet, and F. Meunier. "HyperLogLog: the analysis of a near-optimal cardinality estimation algorithm", DMTCS Proceedings, 2008.
  4. P. Flajolet and G. Nigel Martin. "Probabilistic counting algorithms for data base applications," Journal of Computer and System Sciences, pp.182-209, Oct., 1985.
  5. D. Kane, J. Nelson, and D. Woodruff. "An optimal algorithm for the distinct elements problem," Proceedings of the twenty-ninth ACM, pp.41-52, 2010.
  6. J. Cao, Y. Jin, A. Chen, T. Bu, and Z.-L. Zhang. "Identifying high cardinality internet hosts," INFOCOM 2009, IEEE, pp. 810-818, 2009.
  7. C. Estan, G. Varghese, and M. Fisk. "Bitmap algorithms for counting active flows on high speed links", Proceedings of the 3rd ACM SIGCOMM, pp.925-937, Oct., 2003.
  8. X. Shi, D. Chiu, and J. Lui. "An online framework for catching top spreaders and scanners", Computer Networks, pp. 1375-1388, June, 2010.
  9. Q. Zhao, J. Xu, and A. Kumar. "Detection of Super Sources and Destinations in High-Speed Networks: Algorithms, Analysis and Evaluation", IEEE Journal on Selected Areas in Communications, pp.1840-1852, Oct., 2006.
  10. M. Yoon, T. Li, S. Chen, and J. Peir, "Fit a spread estimator in small memory", INFOCOM 2009, IEEE, 2009.
  11. T. Li, S. Chen, and W. Luo, "Spreader classification based on optimal dynamic bit sharing", Networking, IEEE/ACM Transactions on, pp.817-830, 2013.
  12. K.-Y. Whang, B. T. Vander-Zanden, and H. M. Taylor, "A linear-time probabilistic counting algorithm for database applications", ACM Transactions on Database Systems, pp. 208-229, June, 1990.
  13. B. Choi and S. Bhattacharyya, "Observations on cisco sampled net flow", ACM SIGMETRICS Performance Evaluation pp.18-23, 2005.