• 제목/요약/키워드: Column-Oriented Databases

검색결과 7건 처리시간 0.025초

스타 스키마 조인 처리에 대한 세로-지향 데이터베이스 시스템과 가로-지향 데이터베이스 시스템의 성능 비교 (Performance Comparison of Column-Oriented and Row-Oriented Database Systems for Star Schema Join Processing)

  • 오병중;안수민;김경창
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권8호
    • /
    • pp.29-38
    • /
    • 2011
  • 세로-지향 데이터베이스 시스템은 기존의 가로-지향 데이터베이스 시스템과 달리 데이터를 가로(row) 위주가 아닌 세로(column) 위주로 저장한다. 최근에는 데이터 웨어하우스나 의사 결정 시스템 같은 대용량 데이터를 갖는 읽기 위주의 응용들에서 세로-지향데이터베이스의 우수성이 관찰되었다. 본 논문에서는 세로-지향데이터베이스에서의 조인 전략을 구체적으로 분석하고 데이터 웨어하우스 시스템에서 세로-지향 데이터베이스의 우수성을 검증하고자 한다. 두 시스템간의 객관적인 비교를 위해 데이터 웨어하우스 분석 모델인 스타 스키마 벤치마크를 통해 스타스키마조인 질의에 대한 성능분석을 실시하고자 한다. 또한 세로-지향 데이터베이스의 조인 전략으로 조기 실체화(early materialization)와 지연 실체화(late materialization)를 고려하였다. 성능 분석을 통해 스타 스키마 조인 질의처리에 있어 가로-지향 시스템보다는 세로-지향 시스템에서 디스크 I/O 비용이 더 효율적인 결과를 확인할 수 있었다. 세로-지향 데이터베이스 시스템 측면에서는 조기 실체화보다는 지연 실체화 조인전략이 훨씬 우수한 성능을 보였다.

A Column-Aware Index Management Using Flash Memory for Read-Intensive Databases

  • Byun, Si-Woo;Jang, Seok-Woo
    • Journal of Information Processing Systems
    • /
    • 제11권3호
    • /
    • pp.389-405
    • /
    • 2015
  • Most traditional database systems exploit a record-oriented model where the attributes of a record are placed contiguously in a hard disk to achieve high performance writes. However, for read-mostly data warehouse systems, the column-oriented database has become a proper model because of its superior read performance. Today, flash memory is largely recognized as the preferred storage media for high-speed database systems. In this paper, we introduce a column-oriented database model based on flash memory and then propose a new column-aware flash indexing scheme for the high-speed column-oriented data warehouse systems. Our index management scheme, which uses an enhanced $B^+$-Tree, achieves superior search performance by indexing an embedded segment and packing an unused space in internal and leaf nodes. Based on the performance results of two test databases, we concluded that the column-aware flash index management outperforms the traditional scheme in the respect of the mixed operation throughput and its response time.

Row-지향과 Column-지향 데이터베이스의 조인 질의 처리 비용 비교 (Comparision of Join Query Processing Cost in Row-Oriented and Column-Oriented Databases)

  • 오병중;안수민;김경창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1214-1217
    • /
    • 2011
  • 데이터 레코드를 가로(row-wise)로 저장하는 기존의 데이터베이스를 Row-지향 데이터베이스, 세로(column-wise)로 저장하는 데이터베이스를 Column-지향 데이터베이스라 정의하자. 본 논문에서는 Row-지향 데이터베이스와 Column-지향 데이터베이스에서 분석 workload 형태의 조인 질의를 처리하여 비교 우위 성능을 보이는 데이터베이스 시스템을 고찰하고자 한다. 객관적인 성능 실험을 위해 분석적 모델인 스타 스키마 벤치마크를 이용하였다. Nested Loop 조인과 Sort Merge 조인 기법을 사용한 실험에서 Column-지향 데이터베이스의 성능이 우수하게 나타났음을 확인할 수 있다.

분할된 압축 인덱스를 이용한 컬럼-지향 플래시 스토리지의 검색 성능 개선 (Search Performance Improvement of Column-oriented Flash Storages using Segmented Compression Index)

  • 변시우
    • 한국산학기술학회논문지
    • /
    • 제14권1호
    • /
    • pp.393-401
    • /
    • 2013
  • 대부분의 기존 데이터베이스들은 빠른 저장 성능을 얻기 위하여 한 레코드의 속성들을 하드 디스크에 연속적으로 배치하는 레코드-지향 저장 모델을 사용하였다. 하지만 검색이 대부분인 데이터웨어하우스 시스템에는 월등한 읽기 성능 때문에 컬럼-지향 저장 방식이 적합한 모델이 되고 있다. 또한, 현재 플래시 메모리가 고속 데이터베이스 시스템을 위한 선호 저장 매체로 인정되고 있다. 본 논문에서는 고속 컬럼-지향 데이터베이스 모델을 도입하고, 고속 컬럼-지향 데이터웨어하우스 시스템을 위한 컬럼-인지 인덱스 관리 기법을 제안한다. 본 인덱스 관리 기법은 개선된 B트리에 기반하며, 중간 노드와 리프노드에서 내장 플래시 인덱스와 빈공간 압축을 통하여 높은 검색 성능을 얻는다. 성능 평가 결과를 기반으로 본 인덱스 관리 기법이 기존 기법보다 검색 처리 및 응답 시간 측면에서 더 우수함을 확인하였다.

컬럼-기반 데이터베이스를 위한 그림자 복구 (Shadow Recovery for Column-based Databases)

  • 변시우
    • 한국산학기술학회논문지
    • /
    • 제16권4호
    • /
    • pp.2784-2790
    • /
    • 2015
  • 컬럼-기반 데이터베이스 저장소는 우수한 입출력 성능으로 대용량 데이터 트랜잭션을 위한 매우 진보적인 모델이다. 전통적인 데이터 저장소는 빠른 쓰기 연산을 위하여 한 레코드의 속성들을 하드 디스크에 연속적으로 배치되어 있는 가로-지향 저장 모델을 활용하였다. 하지만 검색이 대부분인 데이터웨어하우스 시스템을 위해서는 월등한 판독 성능 때문에 컬럼-지향 저장소가 더 적합한 모델이 되고 있다. 또한 최근에는 플래시 메모리를 사용한 SSD가 고속 데이터 분석 시스템을 위한 적합한 저장 매체로 인식되고 있다. 본 연구에서는 플래시 미디어 파일 시스템을 기반으로 하는 컬럼-기반 데이터베이스 환경을 위한 새로운 트랜잭션 회복기법(CoSR)을 제안한다. 제안 기법은 기존의 쉐도우 페이징 기법을 개선하여 플래시 파일 시스템에서 새로운 블록에 데이터를 저장할 경우 무효화되어 폐기되는 이전 데이터 블록을 재활용하였다. 이를 위하여 제안된 컬럼-기반 쉐도우 복구 기법에 재활용 쉐도우 리스트 구조를 활용하였다. 제안 기법은 기존 쉐도우 페이징기법의 최대 단점인 쉐도우 페이지 관련 추가 저장공간의 부담을 최소화하고, 기존 복구 기법에서 컬럼 데이터 압축에 기인한 입출력 성능저하를 최소화 할 수 있다. 실험 분석결과를 통하여 CoSR기법이 기존 기법보다 17% 더 우수함을 확인하였다.

컬럼-지향 데이터베이스를 위한 컬럼-인지 트랜잭션 관리 기법 (Column-aware Transaction Management Scheme for Column-Oriented Databases)

  • 변시우
    • 인터넷정보학회논문지
    • /
    • 제15권4호
    • /
    • pp.125-133
    • /
    • 2014
  • 컬럼-지향 데이터베이스 저장소는 우수한 입출력 성능으로 대용량 데이터 분석 시스템을 위한 매우 진보적인 모델이다. 전통적인 데이터 저장소는 빠른 쓰기 연산을 위하여 한 레코드의 속성들을 하드디스크에 연속적으로 배치되어 있는 가로-지향 저장 모델을 활용하였다. 하지만 검색이 대부분인 데이터웨어하우스 시스템을 위해서는 월등한 판독 성능 때문에 컬럼-지향 저장소가 더 적합한 모델이 되고 있다. 또한 최근에는 플래시 메모리를 사용한 SSD가 고속 데이터 분석 시스템을 위한 적합한 저장 매체로 인식되고 있다. 이제 플래시 메모리는 비휘발성, 낮은 전력소모, 빠른 데이터 접근 속도 등의 특징으로 최신 데이터베이스 서버의 핵심 저장 요소로 충분한 기반이 되었다. 하지만 컬럼 압축의 느린 특성과 일반 RAM 메모리에 비하여 상대적으로 느린 플래시 메모리 연산 특성을 고려하여 기존의 트랜잭션 처리 기법을 개선할 필요가 있다. 본 연구에서는 효율적인 트랜잭션 처리를 위하여 컬럼-인지 다중 버전로킹(CaMVL) 기법을 제안한다. CaMVL은 로크 관리 과정에서 플래시의 느린 쓰기 연산과 지우기 연산을 효과적으로 제어하기 위하여 멀티 버전 읽기를 허용하고 압축 로크를 허용하여 트랜잭션 처리 성능을 높인다. 또한 성능 검증을 위하여 시뮬레이션 모델을 제안하였으며 실험 결과 분석을 통하여 CaMVL이 기존의 트랜잭션 처리 기법보다 우수함을 확인하였다.

클라우드 환경에서 MongoDB 기반의 비정형 로그 처리 시스템 설계 및 구현 (Design and Implementation of MongoDB-based Unstructured Log Processing System over Cloud Computing Environment)

  • 김명진;한승호;최운;이한구
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.71-84
    • /
    • 2013
  • 컴퓨터 시스템 운용 간에 발생하는 많은 정보들이 기록되는 로그데이터는 컴퓨터 시스템 운용 점검, 프로세스의 최적화, 사용자 최적화 맞춤형 제공 등 다방면으로 활용되고 있다. 본 논문에서는 다양한 종류의 로그데이터들 중에서 은행에서 발생하는 대용량의 로그데이터를 처리하기 위한 클라우드 환경 하에서의 MongoDB 기반 비정형 로그 처리시스템을 제안한다. 은행업무간 발생하는 대부분의 로그데이터는 고객의 업무처리 프로세스 간에 발생하며, 고객 업무 프로세스 처리에 따른 로그데이터를 수집, 저장, 분류, 분석하기 위해서는 별도로 로그데이터를 처리하는 시스템을 구축해야만 한다. 하지만 기존 컴퓨팅환경 하에서는 폭발적으로 증가하는 대용량 비정형 로그데이터 처리를 위한 유연한 스토리지 확장성 기능, 저장된 비정형 로그데이터를 분류, 분석 처리할 수 있는 기능을 구현하기가 매우 어렵다. 이에 따라 본 논문에서는 클라우드 컴퓨팅 기술을 도입하여 기존 컴퓨팅 인프라 환경의 분석 도구 및 관리체계에서 처리하기 어려웠던 비정형 로그데이터를 처리하기 위한 클라우드 환경기반의 로그데이터 처리시스템을 제안하고 구현하였다. 제안한 본 시스템은 IaaS(Infrastructure as a Service) 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하며 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함한다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 게다가, HDFS(Hadoop Distributed File System)을 도입함으로써 축적된 로그데이터를 블록단위로 복제본을 생성하여 저장관리하기 때문에 본 시스템은 시스템 장애와 같은 상황에서 시스템이 멈추지 않고 작동할 수 있는 자동복구 기능을 제공한다. 마지막으로, 본 시스템은 NoSQL 기반의 MongoDB를 이용하여 분산 데이터베이스를 구축함으로써 효율적으로 비정형로그데이터를 처리하는 기능을 제공한다. MySQL과 같은 관계형 데이터베이스는 복잡한 스키마 구조를 가지고 있기 때문에 비정형 로그데이터를 처리하기에 적합하지 않은 구조를 가지고 있다. 또한, 관계형 데이터베이스의 엄격한 스키마 구조는 장기간 데이터가 축적되거나, 데이터가 급격하게 증가할 때 저장된 데이터를 분할하여 여러 노드에 분산시키는 노드 확장이 어렵다는 문제점을 가지고 있다. NoSQL은 관계형 데이터베이스에서 제공하는 복잡한 연산을 지원하지는 않지만 데이터가 빠르게 증가할 때 노드 분산을 통한 데이터베이스 확장이 매우 용이하며 비정형 데이터를 처리하는데 매우 적합한 구조를 가지고 있는 비관계형 데이터베이스이다. NoSQL의 데이터 모델은 주로 키-값(Key-Value), 컬럼지향(Column-oriented), 문서지향(Document-Oriented)형태로 구분되며, 제안한 시스템은 스키마 구조가 자유로운 문서지향(Document-Oriented) 데이터 모델의 대표 격인 MongoDB를 도입하였다. 본 시스템에 MongoDB를 도입한 이유는 유연한 스키마 구조에 따른 비정형 로그데이터 처리의 용이성뿐만 아니라, 급격한 데이터 증가에 따른 유연한 노드 확장, 스토리지 확장을 자동적으로 수행하는 오토샤딩 (AutoSharding) 기능을 제공하기 때문이다. 본 논문에서 제안하는 시스템은 크게 로그 수집기 모듈, 로그 그래프생성 모듈, MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈로 구성되어져 있다. 로그 수집기 모듈은 각 은행에서 고객의 업무 프로세스 시작부터 종료 시점까지 발생하는 로그데이터가 클라우드 서버로 전송될 때 로그데이터 종류에 따라 데이터를 수집하고 분류하여 MongoDB 모듈과 MySQL 모듈로 분배하는 기능을 수행한다. 로그 그래프생성 모듈은 수집된 로그데이터를 분석시점, 분석종류에 따라 MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈에 의해서 분석되어진 결과를 사용자에게 웹 인터페이스 형태로 제공하는 역할을 한다. 실시간적 로그데이터분석이 필요한 로그데이터는 MySQL 모듈로 저장이 되어 로그 그래프생성 모듈을 통하여 실시간 로그데이터 정보를 제공한다. 실시간 분석이 아닌 단위시간당 누적된 로그데이터의 경우 MongoDB 모듈에 저장이 되고, 다양한 분석사항에 따라 사용자에게 그래프화해서 제공된다. MongoDB 모듈에 누적된 로그데이터는 Hadoop기반 분석모듈을 통해서 병렬 분산 처리 작업이 수행된다. 성능 평가를 위하여 로그데이터 삽입, 쿼리 성능에 대해서 MySQL만을 적용한 로그데이터 처리시스템과 제안한 시스템을 비교 평가하였으며 그 성능의 우수성을 검증하였다. 또한, MongoDB의 청크 크기별 로그데이터 삽입 성능평가를 통해 최적화된 청크 크기를 확인하였다.