• 제목/요약/키워드: Cardinality Estimation

검색결과 4건 처리시간 0.015초

Count-Min HyperLogLog : 네트워크 빅데이터를 위한 카디널리티 추정 알고리즘 (Count-Min HyperLogLog : Cardinality Estimation Algorithm for Big Network Data)

  • 강신정;양대헌
    • 정보보호학회논문지
    • /
    • 제33권3호
    • /
    • pp.427-435
    • /
    • 2023
  • 카디널리티 추정은 실생활의 많은 곳에서 사용되며, 큰 범위의 데이터를 처리하는 데 근본적 문제이다. 인터넷이 빅데이터의 시대로 넘어가며 데이터의 크기는 점점 커지고 있지만, 작은 온칩 캐시 메모리만을 이용하여 카디널리티 추정이 이뤄진다. 메모리를 효율적으로 사용하기 위해서, 지금까지 많은 방법이 제안되었다. 그러나, 이러한 알고리즘에서는 estimator 간의 노이즈 발생으로 인해 정확도가 떨어지는 일이 발생한다. 이 논문에서는 노이즈를 최소화하는데 중점을 뒀다. 우리는 여러 개의 데이터 구조를 제안하여 각 estimator가 데이터 구조 수만큼의 추정값을 가지고, 이 중 가장 작은 값을 선택하여 노이즈를 최소화한다. 실험을 통해 이 방법이 이전의 가장 좋은 방법과 비교했을 때, 플로우당 1 bit와 같은 작은 메모리를 사용하면서 더 좋은 성능을 보이는 것을 확인했다.

Efficient distributed estimation based on non-regular quantized data

  • Kim, Yoon Hak
    • 전기전자학회논문지
    • /
    • 제23권2호
    • /
    • pp.710-715
    • /
    • 2019
  • We consider parameter estimation in distributed systems in which measurements at local nodes are quantized in a non-regular manner, where multiple codewords are mapped into a single local measurement. For the system with non-regular quantization, to ensure a perfect independent encoding at local nodes, a local measurement can be encoded into a set of a great number of codewords which are transmitted to a fusion node where estimation is conducted with enormous computational cost due to the large cardinality of the sets. In this paper, we propose an efficient estimation technique that can handle the non-regular quantized data by efficiently finding the feasible combination of codewords without searching all of the possible combinations. We conduct experiments to show that the proposed estimation performs well with respect to previous novel techniques with a reasonable complexity.

멀티셋의 크기 추정 기법에서 샘플링의 효과 (Effect of Sampling for Multi-set Cardinality Estimation)

  • ;양대헌;이경희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제4권1호
    • /
    • pp.15-22
    • /
    • 2015
  • 멀티셋에서 중복을 제외한 서로 다른 원소의 수를 추정하는 것은 네트워크 트래픽 측정 분야에서 매우 잘 알려진 문제이며, 많은 알고리즘들이 제안되었다. 최근에는 선형 카운팅 기법(Linear Counting)에 기반해서 매우 작은 메모리만을 이용해서 멀티셋의 크기를 추정하는 알고리즘이 개발되었다. 너무 많은 데이터를 처리하기 어려운 경우 전체 데이터를 처리하지 않고, 패킷의 일부를 샘플링해서 사용하는데, 이 샘플링은 일반적으로 정확도에 부정적인 영향을 주는 것으로 알려져있다. 하지만, 이 논문에서는 멀티셋의 크기를 추정하는데 있어서 CSE를 이용하는 경우 샘플링이 정확도와 측정 범위의 측면에서 오히려 전수조사를 하는 MCSE보다 더 좋은 결과를 낼 수 있음을 보였다. 이를 입증하기 위해 수학적 분석, 실제 데이터를 이용한 실험을 수행하고, CSE, MCSE 그리고 CSES를 비교하였다.

시공간 겹침 조인 연산을 위한 선택도 추정 기법 (Selectivity Estimation for Spatio-Temporal a Overlap Join)

  • 이명술;이종연
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권1호
    • /
    • pp.54-66
    • /
    • 2008
  • 시공간 데이타베이스에서 조인 연산은 매우 많은 비용이 소요되며, 시공간 조인 연산의 효율적인 질의 실행 계획을 세우기 위해 조인 연산에 대한 정확한 선택도 추정은 질의처리 성능에 결정적이다. 주어진 두 이산 데이타집합 $S_1,\;S_2$의 타임스탬프 $t_q$에서 시공간 조인 연산은 타임스탬프 $t_q$에서 서로 교차하는 모든 객체 쌍을 검색하는 것이다. 시공간 조인 연산의 선택도 추정치는 검색된 객체 쌍의 수를 $|S_1{\times}S_2|$로 나눈 값이다. 이 논문은 공간 조인 연산의 선택도 추정 기법인 기하 히스토그램 기법을 확장하여 시공간 조인 선택도 추정을 위한 시공간 히스토그램을 제안한다. 균일 데이타 집합과 편중 데이타 집합 모두를 사용하여 제안된 히스토그램 기법으로 시공간 조인 연산의 선택도를 정확하게 추정할 수 있다는 것을 증명하였다. 본 논문의 기여도는 먼저 이산 데이타 집합에 대한 시공간 조인 선택도 추정 연구의 첫 시도를 하였으며 다음으로 이산 객체의 유효시간 동안의 공간 통계정보를 압축하여 히스토그램을 재구축하는 효율적인 유지기법을 제안하였다.