DOI QR코드

DOI QR Code

Performance Comparison of Column-Oriented and Row-Oriented Database Systems for Star Schema Join Processing

스타 스키마 조인 처리에 대한 세로-지향 데이터베이스 시스템과 가로-지향 데이터베이스 시스템의 성능 비교

  • 오병중 (홍익대학교 컴퓨터공학과) ;
  • 안수민 (홍익대학교 컴퓨터공학과) ;
  • 김경창 (홍익대학교 컴퓨터공학과)
  • Received : 2011.07.06
  • Accepted : 2011.08.09
  • Published : 2011.08.31

Abstract

Unlike in traditional row-oriented database systems, a column-oriented database system stores data in column-oriented and not row-oriented order. Recently, research results revealed the effectiveness of column-oriented databases for applications such as data warehouse and decision support systems that access large volumes of data in a read only manner. In this paper, we investigate the join strategies for column-oriented databases and prove the effectiveness of column-oriented databases in data warehouse systems. For unbiased comparison, the two database systems are analyzed using the star schema benchmark and the performance analysis of a star schema join query is carried out. We experimented with well-known join algorithms and considered early materialization and late materialization join strategies for column-oriented databases. The performance results confirm that star schema join queries perform better in terms of disk I/O cost in column-oriented databases than in row-oriented databases. In addition, the late materialization strategy showed more performance gain than the early materialization strategy in column-oriented databases.

세로-지향 데이터베이스 시스템은 기존의 가로-지향 데이터베이스 시스템과 달리 데이터를 가로(row) 위주가 아닌 세로(column) 위주로 저장한다. 최근에는 데이터 웨어하우스나 의사 결정 시스템 같은 대용량 데이터를 갖는 읽기 위주의 응용들에서 세로-지향데이터베이스의 우수성이 관찰되었다. 본 논문에서는 세로-지향데이터베이스에서의 조인 전략을 구체적으로 분석하고 데이터 웨어하우스 시스템에서 세로-지향 데이터베이스의 우수성을 검증하고자 한다. 두 시스템간의 객관적인 비교를 위해 데이터 웨어하우스 분석 모델인 스타 스키마 벤치마크를 통해 스타스키마조인 질의에 대한 성능분석을 실시하고자 한다. 또한 세로-지향 데이터베이스의 조인 전략으로 조기 실체화(early materialization)와 지연 실체화(late materialization)를 고려하였다. 성능 분석을 통해 스타 스키마 조인 질의처리에 있어 가로-지향 시스템보다는 세로-지향 시스템에서 디스크 I/O 비용이 더 효율적인 결과를 확인할 수 있었다. 세로-지향 데이터베이스 시스템 측면에서는 조기 실체화보다는 지연 실체화 조인전략이 훨씬 우수한 성능을 보였다.

Keywords

References

  1. P. Boncz, M. Zukowski, and N. Nes. "Mone tDB/X100: Hyper-pipelining query execution", Proc. of Intl' Conf. on Innovative Data System Research (CIDR), 2005.
  2. P.A. Boncz and M.L. Kersten. "MIL primitives for querying a fragmented world", VLDB Journal, 8(2): 101-119, 1999. https://doi.org/10.1007/s007780050076
  3. M. Stonebraker, et. al. "C-Store: AColumn-Oriented DBMS", Proc. of VLDB, 553-564, 2005.
  4. Daniel J. Abadi, Daniel S. Myers, David J. DeWitt, Samuel R. Madden. "Materialization Strategies in a Column-Oriented DBMS". IEEE. 2007.
  5. Daniel J. Abadi, Peter A. Boncz, and Stavros Hariz opoulos. "Column-oriented Database Systems". VLDB 2009 Tutorial.
  6. P. A. Boncz. "Monet: A Next-Generation DBMS Kernel For Query-Intensive Applications". Ph.d. thesis, Universiteit van Amsterdam, May 2002.
  7. Patrick E. O'Neil, Elizabeth J. O'Neil, and Xuedong Chen. "The Star Schema Benchmark (SSB)". Revision 3, June 5, 2009.
  8. Raghu Ramakrishnan, Johannes Gehrke, "Database Managem ent Systems 2nd Edition", McGrawHill, pp. 333-348, 2000.
  9. Abraham Silberschatz, Henry F. Korth, S. Sud arshan, "Da tabase System Concepts Fifth Edition", McGrawHill, pp. 481-502, 2006.
  10. Alan Halverson, Jennifer L. Beckmann, Jeffrey F. Naughton, David J. DeWittP, "A Comparison of C-Store and Row-Store in a Common Framework", Proc. of the 32nd VLDB Conference, 2006.
  11. Daniel J. Abadi. "Query Execution in Colum n-Orie nted Database Systems", Massachusetts Institute of Technology, pp. 85-93, 2008