• 제목/요약/키워드: Query Result Size Estimation

검색결과 9건 처리시간 0.028초

공간 데이터베이스에서 질의 결과 크기 추정을 위한 공간 분할 (Spatial Partitioning for Query Result Size Estimation in Spatial Databases)

  • 황환규
    • 전자공학회논문지CI
    • /
    • 제41권2호
    • /
    • pp.23-32
    • /
    • 2004
  • 질의 최적화기의 중요 기능 중에 하나는 질의가 주어졌을 때 질의 조건을 만족하는 입력 레코드의 개수를 추정하는 일이다. 관계 데이터베이스와 마찬가지로 공간 데이터베이스에서 질의 결과 크기 추정은 입력 데이터 공간을 버켓으로 불리는 작은 영역으로 분할한 후 분할된 영역에 대해서 질의 결과 ■기를 추정한다. 추정의 정확도는 작은 영역으로 분할할 때 근사 계산한 데이터와 실제 데이터의 차이에 의해서 결정되며 이것은 공간 분할을 어떻게 분할하는가에 달려 있다. 기존의 방법은 일차원에 많이 사용되는 데이터의 범위를 균일하게 하는 너비 균등 방법과 빈도수의 합을 일정하게 하는 높이 균등 방법을 공간상의 이차원에 적용한 면적 균등 분할과 개수 균등 분할 방법에 기초를 두고 있다. 본 논문에서 제안한 방법은 공간을 분할할 때 데이터의 범위와 빈도수의 곱을 면적으로 나타낸 후 면적 값의 차이가 가장 큰 순서로 버켓을 정하는 방법으로 데이터 범위와 빈도수를 동시에 고려하여 최적의 버켓을 결정한다. 본 논문에서는 제안한 방법과 기존의 방법을 실제 데이터와 인위데이터를 사용하여 질의 크기, 버켓수, 데이터 개수, 데이터 크기의 변화에 대해서 질의 결과 추정에 대한 정확도를 비교, 분석하여 제안한 방법의 성능 우수성을 확인한다.

공간 질의 최적화를 위한 힐버트 공간 순서화에 따른 공간 분할 (Spatial Partitioning using filbert Space Filling Curve for Spatial Query Optimization)

  • 황환규;김현국
    • 정보처리학회논문지D
    • /
    • 제11D권1호
    • /
    • pp.23-30
    • /
    • 2004
  • 공간 질의 크기에 대한 근사치를 구하기 위해서는 입력 데이터 공간을 분할한 후 분할된 영역에 대하여 질의 결과 크기를 추정한다. 본 논문에서는 데이터 편재가 심한 공간 데이터에 대한 질의 크기 추정의 문제를 논의한다. 공간을 분할하는 기법으로 관계 데이터베이스에서 많이 사용되는 너비 균등, 높이 균등 히스토그램에 해당되는 면적 균등, 개수 균등 분할에 대한 방법을 검토하고 공간 인덱싱에 기초한 공간 분할방법에 대해서 알아본다. 본 논문에서는 공간 순서화 기법인 힐버트 공간 채움 곡선을 이용한 공간 분할을 제안한다. 제안한 방법과 기존의 방법을 실제 데이터와 인위 데이터를 사용하여 편재된 공간 데이터에 대한 질의 결과 크기의 추정에 대한 정확도를 비교한다. 본 실험에서 힐버트 채움 곡선에 의한 공간 분할이 공간 질의 크기 버켓 수의 변화, 데이터 위치 편재도의 변화, 데이터 크기의 변화에 대해서 기존의 분할 방법보다 질의 결과 크기 추정에 대해서 우수한 성능을 보였다.

Initial Slot-Count Selection Scheme with Tag Number Estimation in Gen-2 RFID System

  • Lim, In-Taek;Ryu, Young-Tae
    • Journal of information and communication convergence engineering
    • /
    • 제8권5호
    • /
    • pp.519-523
    • /
    • 2010
  • In Gen-2 RFID system, the initial value of $Q_{fp}$, which is the slot-count parameter of Q-algorithm, is not defined in the standard. In this case, if the number of tags within the reader's identification range is small and we let the initial $Q_{fp}$ be large, the number of empty slot will be large. On the other hand, if we let the initial $Q_{fp}$ be small in spite of many tags, almost all the slots will be collided. As a result, the performance will be declined because the frame size does not converge to the optimal point quickly during the query round. In this paper, we propose a scheme to allocate the optimal initial $Q_{fp}$ through the tag number estimation before the query round begins. Through computer simulations, it is demonstrated that the proposed scheme achieves more stable performance than Gen-2 Q-algorithm.

태그 수 추정을 이용한 EPCglobal Class-1 Gen-2 Q-알고리즘 (EPCglobal Class-1 Gen-2 Q-Algorithm with Tag Number Estimation)

  • 임인택
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 추계학술대회
    • /
    • pp.723-725
    • /
    • 2016
  • Gen-2 Q-알고리즘에서는 태그의 수가 적은 상태에서 초기 $Q_{fp}$ 값을 크게 하면 빈 슬롯이 많이 발생하고, 태그의 수가 많은 상태에서 초기 $Q_{fp}$ 값을 적게 하면 충돌이 많이 발생한다. 또한 적절하지 못한 가중치를 선택할 경우 빈 슬롯 또는 충돌 슬롯이 많이 발생할 수 있다. 이로 인하여 질의 라운드 동안 최적의 프레임 크기에 수렴하는 속도가 늦어지므로 성능이 저하되는 문제점이 있다. 본 논문에서는 태그 수를 추정하여 현재의 슬롯-카운트 크기에 따라 가중치를 결정하는 기법을 제안하고, 이에 대한 성능을 분석한다.

  • PDF

질의 결과 크기 추정을 위한 효과적인 공간 분할 기법 (Effective Spatial Partitioning Technique for Query Result Size Estimation)

  • 김현국;김학자;황환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.55-57
    • /
    • 2002
  • 공간 데이터베이스의 규모는 매우 방대하여 질의 처리에 많은 비용이 발생한다. 따라서 효율적인 질의 처리를 위해서는 질의 수행 결과의 예측이 필요하다. 이를 위해 실제 공간 데이터의 특성을 근접하게 나타내는 요약 데이터를 생성하여 그 결과를 통해 질의 결과의 크기를 추정하게 된다. 기존의 공간 데이터 요약 기법으로는 면적 균등 분할 기법, 개수 균등 분할 기법, 인덱스 분활 기법 등이 있다. 본 논문에서는 기존에 연구된 다양한 분말 기법에 대해 알아보고, 힐버트 공간 재움 곡선 방법에 개수 균등 분말 기법을 적용시킨 새로운 공간 분할 방법을 제안하여 기존의 방법과 새로운 방법의 성능을 비교한다.

  • PDF

EPCglobal Class-1 Gen-2 RFID 시스템에서 고속 태그 식별을 위한 개선된 Q-알고리즘 (Enhanced Q-Algorithm for Fast Tag Identification in EPCglobal Class-1 Gen-2 RFID System)

  • 임인택
    • 한국정보통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.470-475
    • /
    • 2012
  • EPCglobal Class-1 Gen-2 RFID 시스템의 Q-알고리즘에서는 슬롯-카운트 매개변수인 $Q_{fp}$ 값에 대한 초기 값이 정의되어 있지 않고, 슬롯-카운트의 크기를 증감시키기 위한 매개변수인 가중치 C의 값이 정해져 있지 않다. 따라서 태그의 수가 적은 상태에서 초기 $Q_{fp}$ 값을 크게 하면 빈 슬롯이 많이 발생하고, 태그의 수가 많은 상태에서 초기 $Q_{fp}$값을 적게 하면 충돌이 많이 발생한다. 또한 적절하지 못한 가중치를 선택할 경우 빈 슬롯 또는 충돌 슬롯이 많이 발생할 수 있다. 이로 인하여 질의 라운드 동안 최적의 프레임 크기에 수렴하는 속도가 늦어지므로 성능이 저하되는 문제점이 있다. 본 논문에서는 태그 수를 추정하여 최적의 초기 $Q_{fp}$ 값을 할당하고 현재의 슬롯-카운트 크기에 따라 가중치를 결정하는 기법을 제안하고, 이에 대한 성능을 분석한다.

그리드 분할에 의한 다차원 데이터 디클러스터링 성능 분석 (Performance Analysis on Declustering High-Dimensional Data by GRID Partitioning)

  • 김학철;김태완;이기준
    • 정보처리학회논문지D
    • /
    • 제11D권5호
    • /
    • pp.1011-1020
    • /
    • 2004
  • 대규모의 데이터를 다루는 여러 시스템에서 데이터를 다수의 병렬 디스크에 분산시켜 저장한 후 질의 처리시 동시에 여러 개의 디스크를 접근함으로써 입출력 성능의 향상을 위한 많은 노력들이 행해져 왔다. 대부분 이전 연구들은 데이터 공간을 이루는 각 차원이 겹치지 않는 여러개의 구간으로 나누어져 전체 데이터 공간이 그리드 형태로 분할되어 있다는 가정하에 각 차원의 구간 번호로 결정되는 그리드 셀에 대해서 효과적으로 디스크 번호를 할당하는 알고리즘 개발에 집중되었다. 하지만, 그들은 데이터 공간을 그리드 형태로 분할하는 방법이 전체 디클러스터링 알고리즘 성능에 미치는 영향을 간과하였다. 본 논문에서 우리는 효과적인 그리드 분할을 통하여 매핑 함수를 이용하는 디클러스터링 알고리즘의 성능을 향상 시켰다. 이를 위하여 영역 질의 크기가 주어졌을 때 겹치는 그리드 셀의 수를 예측하는 모델을 제시하였으며 이를 이용하여 가능한 그리드 분할 방법들 중에서 질의 크기를 감소시키는 분할 방법을 선택하였다. 일반적으로, 다차원 데이터에 대해서는 이진 분할을 하지만 본 논문에서는 더 작은 수의 차원을 선택해서 여러 번 분할함으로써 질의를 만족하는 그리드 셀의 수를 감소시켰다. 다양한 실험 결과에 의하면 본 논문에서 제시한 예측 모델은 질의 크기와 차원에 관계없이 0.5% 이내의 에러율을 보이는 것으로 나타났다. 또한 효과적인 그리드 분할을 통하여 다차원 데이터에 대해서 가장 성능이 좋은 것으로 소개되고 있는 Kronecker sequence 매핑 함수를 이용하는 디클러스터링 알고리즘의 성능을 최대 23배까지 향상시킬 수 있음을 알 수 있었다.

비순서화된 스트림 처리를 위한 적응적 버퍼 제어 기법 (Adaptive Buffer Control over Disordered Streams)

  • 김현규;김철기;이충호;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권5호
    • /
    • pp.379-388
    • /
    • 2007
  • 비순서화된 스트림은 윈도우 기반의 질의를 처리할 때 부정확하거나 지연된 결과를 유발할 수 있다. 기존의 방식에서는 일반적으로 버퍼를 이용하여 비순서화된 스트림을 정렬하며, 버퍼의 크기를 추정하기 위해 네트워크 지연의 최대값에 기반한 방식을 이용한다. 그러나 이러한 방식은 버퍼의 크기를 불필요하게 큰 값으로 추정할 수 있으며, 지연된 질의 결과를 발생시킬 수 있다. 본 논문에서는 네트워크 지연의 변화에 따라 적응적으로 버퍼의 크기를 추정하기 위한 확률론적인 접근 방법을 제안한다 제안하는 방법에서는 튜플의 생성이 포아송 분포를 따르며 네트워크 지연은 정규 분포를 따른다고 가정한다. 그리고 이러한 가정을 바탕으로 추정식을 유도한다. 추정식은 튜플의 손실율을 입력인자로 요구하며, 이는 실시간에 튜플의 손실에 있어서 허용 가능한 백분율을 나타낸다. 사용자는 손실율을 질의문에서 정의함으로써, 응용의 요구에 따라 질의 결과의 정확성이나 처리속도 중 원하는 특성에 중점을 둘 수 있다. 본 논문의 실험 결과는 제안한 추정식이 기존의 네트워크 지연의 최대값에 기반한 추정식에 비해 적응성이 우수함을 보인다.

ValueRank: Keyword Search of Object Summaries Considering Values

  • Zhi, Cai;Xu, Lan;Xing, Su;Kun, Lang;Yang, Cao
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권12호
    • /
    • pp.5888-5903
    • /
    • 2019
  • The Relational ranking method applies authority-based ranking in relational dataset that can be modeled as graphs considering also their tuples' values. Authority directions from tuples that contain the given keywords and transfer to their corresponding neighboring nodes in accordance with their values and semantic connections. From our previous work, ObjectRank extends to ValueRank that also takes into account the value of tuples in authority transfer flows. In a maked difference from ObjectRank, which only considers authority flows through relationships, it is only valid in the bibliographic databases e.g. DBLP dataset, ValueRank facilitates the estimation of importance for any databases, e.g. trading databases, etc. A relational keyword search paradigm Object Summary (denote as OS) is proposed recently, given a set of keywords, a group of Object Summaries as its query result. An OS is a multilevel-tree data structure, in which node (namely the tuple with keywords) is OS's root node, and the surrounding nodes are the summary of all data on the graph. But, some of these trees have a very large in total number of tuples, size-l OSs are the OS snippets, have also been investigated using ValueRank.We evaluated the real bibliographical dataset and Microsoft business databases to verify of our proposed approach.