• 제목/요약/키워드: aggregation query

검색결과 59건 처리시간 0.026초

SPEC : 데이타 웨어하우스를 위한 저장 공간 효율적인 큐브 (SPEC: Space Efficient Cubes for Data Warehouses)

  • 전석주;이석룡;강흠근;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권1호
    • /
    • pp.1-11
    • /
    • 2005
  • 군집 질의는 사용자에 의해 명시된 질의 영역 내에서 큐브상의 군집 정보를 계산한다. 프리픽스-섬 기법에 기초한 기존의 방법론은 데이타의 누적된 합을 저장하기 위해 프리픽스-섬 큐브(PC)로 불리는 부가적인 큐브를 사용하므로 높은 저장공간 오버헤드를 초래한다. 이러한 저장공간 오버헤드는 기억장치의 추가적인 비용뿐만 아니라 업데이트의 부가적인 증식(propagation)과 더 많은 물리적 장치로의 접근시간을 유발시킨다. 본 논문에서는 대용량 데이타 웨어하우스에서 PC의 저장공간을 획기적으로 감소시킬 수 있는 'SPEC'으로 불리는 새로운 프리픽스-섬 큐브를 제안한다. SPEC은 PC내 셀들간의 종속에 의한 업데이트 증식을 감소시킨다. 이를 위해 대용량 데이타 큐브로부터 조밀한 서브큐브들을 발견하는 효과적인 알고리즘을 개발한다 다양한 차원의 데이타 큐브와 여러 가지 크기의 질의에 대해 폭 넓은 실험을 행하여 본 논문에서 제안한 방법의 효과와 성능을 조사한다. 실험적인 결과는 SPEC이 적절한 질의 성능을 유지하면서도 PC 저장공간을 상당히 감소시킴을 보여준다.

효율적인 XML질의 처리를 위한 XQuery 질의의 정규화 (Normalization of XQuery Queries for Efficient XML Query Processing)

  • 김서영;이기훈;황규영
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제10권5호
    • /
    • pp.419-433
    • /
    • 2004
  • XML이 웹 상에서의 정보 표현, 통합, 교환을 위한 표준이 됨에 따라 다양한 XML 질의 언어들이 제안되었으며, World Wide Web Consortium(W3C)은 XQuery를 XML 질의 언어의 표준으로 권고하였다. XQuery는 SQL과 유사하게 중첩 질의를 허용하므로, 중첩된 XQuery 질의를 동일한 의미를 가지면서 보다 효율적으로 실행될 수 있는 질의로 변환하는 정규화 규칙들이 제안되었다. 하지만 제안된 정규화 규칙들은 제한적인 형태의 중첩 질의에만 적용되는 문제점을 가지고 있다. 특히, FLWR 표현식의 where 절에 있는 중첩을 처리할 수 없다. 본 논문에서는 SQL 질의의 정규화 규칙들을 확장하여 XQuery 질의의 정규화 규칙들을 제안한다. 제안한 정규화 규칙들은 FLWR 표현식의 모든 절에 나타나는 중첩을 처리할 수 있다. 본 논문의 주요 공헌은 다음과 같다. 첫째, 상관과 집계의 유무에 따라 XQuery 질의의 중첩 유형을 분류하고, 각 유형 별로 정규화 규칙들을 제안한다. 둘째, 중첩된 XQuery 질의에 정규화 규칙들을 적용하는 세부 알고리즘들을 제안한다.

변경 집합을 이용한 온톨로지 버전 관리 기법 (Ontology Versions Management Schemes using Change Set)

  • 윤홍원;이중화;김정원
    • Journal of Information Technology Applications and Management
    • /
    • 제12권3호
    • /
    • pp.27-39
    • /
    • 2005
  • The Semantic Web has increased the interest in ontologies recently Ontology is an essential component of the semantic web and continues to change and evolve. We consider versions management schemes in ontology. We study a set of changes based on domain changes, changes in conceptualization, metadata changes, and temporal dimension. Our change specification is represented by a set of changes. A set of changes consists of instance data change, structural change, and identifier change. In order to support a query in ontology versions, we consider temporal dimension includes valid time. Ontology versioning brings about massive amount of versions to be stored and maintained. We present the ontology versions management schemes that are 1) storing all the change sets, 2) storing the aggregation of change sets periodically, and 3) storing the aggregation of change sets using an adaptive criterion. We conduct a set of experiments to compare the performance of each versions management schemes. We present the experimental results for evaluating the performance of the three version management schemes from scheme 1 to scheme 3. Scheme 1 has the least storage usage. The average response time in Scheme 1 is extremely large, those of Scheme 3 is smaller than Scheme 2. Scheme 3 shows a good performance relatively.

  • PDF

서비스경계라인 속성을 이용한 스패닝 트리 집단화 (Spanning Tree Aggregation Using Attribute of Service Boundary Line)

  • 권소라;전창호
    • 정보처리학회논문지C
    • /
    • 제18C권6호
    • /
    • pp.441-444
    • /
    • 2011
  • 본 논문은 망 상태 정보를 효율적으로 집단화하는 방법을 제시하였다. 이것은 비대칭 망에서 링크의 QoS(Quality of Service) 파라미터가 두개 이상일 때 기존 집단화 방법들이 갖는 정보의 부정확성을 줄이기 위한 방법이다. 제안 방법은 공간 복잡도를 줄이기 위해 다단계 토폴로지 변형 시 토폴로지를 구성하는 논리 링크들의 유사성을 측정, 유사한 링크들의 그룹화 후 통합 과정을 통해 논리 링크들의 정보 왜곡을 줄인다. 이 방법은 서비스경계라인을 논리 링크로 갖는 풀 메쉬 토폴로지를 스패닝 트리 토폴로지로 변형 시 적용한다. 또한 실험을 통하여 기존 방법 보다 집단화된 정보의 정확도와 질의 응답 정확도에서 나은 성능을 가짐을 증명하였다.

Fast, Flexible Text Search Using Genomic Short-Read Mapping Model

  • Kim, Sung-Hwan;Cho, Hwan-Gue
    • ETRI Journal
    • /
    • 제38권3호
    • /
    • pp.518-528
    • /
    • 2016
  • The searching of an extensive document database for documents that are locally similar to a given query document, and the subsequent detection of similar regions between such documents, is considered as an essential task in the fields of information retrieval and data management. In this paper, we present a framework for such a task. The proposed framework employs the method of short-read mapping, which is used in bioinformatics to reveal similarities between genomic sequences. In this paper, documents are considered biological objects; consequently, edit operations between locally similar documents are viewed as an evolutionary process. Accordingly, we are able to apply the method of evolution tracing in the detection of similar regions between documents. In addition, we propose heuristic methods to address issues associated with the different stages of the proposed framework, for example, a frequency-based fragment ordering method and a locality-aware interval aggregation method. Extensive experiments covering various scenarios related to the search of an extensive document database for documents that are locally similar to a given query document are considered, and the results indicate that the proposed framework outperforms existing methods.

데이터 웨어하우스의 다차원 온라인 분석처리 시스템을 위한 저장구조의 물리적 설계기법 (A Physical Design Method of Storage Structures for MOLAP Systems of Data Warehouse)

  • 이종학
    • 한국멀티미디어학회논문지
    • /
    • 제8권3호
    • /
    • pp.297-312
    • /
    • 2005
  • 데이터 웨어하우스의 다차원 온라인 분석처리 시스템(MOLAP)에서 집계 연산은 중요한 기본 연산이다. 기존의 MOLAP 집계 연산은 다차원 배열구조를 기반으로 한 파일구조에 대해서 연구되어 왔다. 다차원 배열구조는 편중된 분포를 갖는 데이터에서는 잘 동작하지 못한다는 단점이 있다. 본 논문에서는 편중된 분포에도 잘 동작하는 다차원 파일구조를 사용한 MOLAP 저장구조의 물리적 설계기법을 제안한다. 먼저, 균일분포를 갖는 데이터에 대해서 집계 연산처리 성능이 다차원 파일구조상의 질의 영역의 모양과 다차원 파일구조의 도메인 공간을 이루는 페이지 영역의 모양 사이의 유사성에 따라 크게 영향 받음을 보이고, 이러한 특성을 이용하여 다차원 파일구조를 설계함으로써 다차원 온라인 분석처리의 성능을 향상시킨다. 그리고 편중된 분포에 대해서는 질의 영역별로 가중치를 부여한 정규화된 질의 영역의 모양을 이용함으로써 데이터의 분포에 따른 영향을 설계에 반영한다. 또한 본 논문에서는 실험을 통하여 이론적으로 제안한 MOLAP 저장구조의 물리적 설계기법이 실제 환경에서 정확히 동작함을 보인다. 실험결과에 의하면 이차원 파일구조의 경우 집계 연산처리를 위한 저장구조의 성능이 일곱 배 이상으로 향상됨을 확인하였다. 삼차원 이상의 파일구조에 대해서는 더욱더 큰 성능향상이 예상된다. 이러한 성능의 향상은 제안된 MOLAP 저장구조의 물리적 설계기법이 매우 유용함을 나타내는 것이다.

  • PDF

센서네트워크에서 시그니처 기반 데이터 집계를 이용한 이동객체 트래킹 기법 (Tracking Moving Objects Using Signature-based Data Aggregation in Sensor Network)

  • 김용기;김영진;윤민;장재우
    • 한국공간정보시스템학회 논문지
    • /
    • 제11권2호
    • /
    • pp.99-110
    • /
    • 2009
  • 현재, 센서네트워크 기술을 이용한 많은 응용들이 개발되고 있다. 이러한 많은 응용 가운데 이동객체 트래킹 기법은 중요한 이슈 중에 하나이다. 그러나 현재 이에 대한 연구는 많은 연구가 이루어지지 않은 상태이며, 존재하는 연구는 다음과 같은 2가지 문제점을 가지고 있다. 첫째, 이동객체의 트래킹을 위해 반복적으로 센서노드를 방문해야하는 오버헤드가 발생한다. 둘째, 여러 이동객체를 동시에 지원하지 못한다. 이러한 문제를 해결하기 위해 본 논문에서는 시그니처 기반의 효율적인 데이터 집계를 이용한 이동객체 트래킹 기법(SigMO-TRK)을 제안한다. 이를 위해, 첫째, 공간 필터링 방법을 이용하여 효과적으로 이동객체들의 궤적을 집계하기 위한 지역적 라우팅 계층트리를 구성한다. 둘째, 시그니처를 사용하여 효율적으로 모든 이동객체들의 궤적에 대한 트래킹을 수행한다. 또한, SigMO-TRK를 확장하여 주어진 질의에 대한 이동객체의 유사궤적을 검색한다. 마지막으로, TOSSIM 시뮬레이터를 사용하여 제안하는 이동객체 트래킹 기법이 기존의 트래킹 기법보다 에너지 효율성 측면에서 우수함을 보인다.

  • PDF

센서 네트워크에서 시놉시스와 인코딩을 이용한 에너지 효율적인 인-네트워크 조인 질의 처리 (An Energy-Efficient In-Network Join Query Processing using Synopsis and Encoding in Sensor Network)

  • 여명호;장용진;김현주;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제11권2호
    • /
    • pp.126-134
    • /
    • 2011
  • 최근 많은 연구자들은 서로 다른 영역에 저장된 센서 데이터를 이용한 조인 질의에 관심을 갖고 있다. 기존 기법은 예비 조인 조정자가 센서 노드로부터 시놉시스를 수집하고, 조인 질의 처리에 필요한 센서 데이터를 결정한다. 기지국은 전체 데이터를 수집하는 대신 일부 센서 데이터를 수집하여 최종 조인 처리를 수행한다. 하지만, 예비 조인을 수행하는 과정에서 통신 오버헤드를 발생시키는 단점을 가지고 있다. 본 논문에서는 이와 같은 문제점을 해결하는 새로운 에너지 효율적인 인-네트워크 조인 기법을 제안한다. 제안하는 기법은 네트워크 내부에서 예비 조인 조정자를 선정한다. 예비 조인 조정자는 조인의 초기 단계에서 조인 결과에 포함되지 않는 데이터를 제거하고 센서 데이터의 압축을 수행한다. 기지국은 압축된 데이터의 일부와 데이터 압축을 위한 인코딩 테이블을 수집하고 조인 결과를 결정한다. 그 결과, 제안하는 기법은 예비 조인 처리를 위한 통신 비용을 줄이고 네트워크 수명을 연장시킨다.

프랙탈을 이용한 시공간 데이터웨어하우스 (Spatio-Temporal Data Warehouses Using Fractals)

  • 최원익;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.46-48
    • /
    • 2003
  • 최근 시공간 데이타에 대한 OLAP연산 효율을 증가시키기 위한 여러 가지 연구들이 행하여지고 있다. 이들 연구의 대부분은 다중트리구조에 기반하고 있다. 다중트리구조는 공간차원을 색인하기 위한 하나의 R-tree와 시간차원을 색인하기 위한 다수의 B-tree로 이루어져 있다. 하지만, 이러한 다중트리구조는 높은 유지비용과 불충분한 질의 처리 효율로 인해 현실적으로 시공간 OLAP연산에 적용하기에는 어려운 점이 있다. 본 논문에서는 이러한 문제를 근본적으로 개선하기 위한 접근 방법으로서 힐버트큐브(Hilbert Cube, H-Cube)를 제안하고 있다. H-Cube는 집계질의(aggregation query) 처리 효율을 높이기 위해 힐버트 곡선을 이용하여 셀들에게 완전순서(total-order)를 부여하고 있으며, 아울러 전통적인 누적합(prefix-sum) 기법을 함께 적용하고 있다. H-Cube는 적응적이며, 완전순서화되어 있으며, 또한 누적합을 이용한 셀 기반의 색인구조이다. 본 논문에서는 H-Cube의 성능 평가를 위해서 다양한 실험을 하였으며, 그 결과로서 유지비용과 질의 처리 효율성면 모두에서 다중트리구조보다 높은 성능 향상이 있음을 보인다.

  • PDF

A Study on De-Identification of Metering Data for Smart Grid Personal Security in Cloud Environment

  • Lee, Donghyeok;Park, Namje
    • Journal of Multimedia Information System
    • /
    • 제4권4호
    • /
    • pp.263-270
    • /
    • 2017
  • Various security threats exist in the smart grid environment due to the fact that information and communication technology are grafted onto an existing power grid. In particular, smart metering data exposes a variety of information such as users' life patterns and devices in use, and thereby serious infringement on personal information may occur. Therefore, we are in a situation where a de-identification algorithm suitable for metering data is required. Hence, this paper proposes a new de-identification method for metering data. The proposed method processes time information and numerical information as de-identification data, respectively, so that pattern information cannot be analyzed by the data. In addition, such a method has an advantage that a query such as a direct range search and aggregation processing in a database can be performed even in a de-identified state for statistical processing and availability.