DOI QR코드

DOI QR Code

Asymmetric Index Management Scheme for High-capacity Compressed Databases

대용량 압축 데이터베이스를 위한 비대칭 색인 관리 기법

  • 변시우 (안양대학교 디지털미디어학과) ;
  • 장석우 (안양대학교 디지털미디어학과)
  • Received : 2016.04.19
  • Accepted : 2016.07.07
  • Published : 2016.07.31

Abstract

Traditional databases exploit a record-based model, where the attributes of a record are placed contiguously in a slow hard disk to achieve high performance. On the other hand, for read-intensive data analysis systems, the column-based compressed database has become a proper model because of its superior read performance. Currently, flash memory SSD is largely recognized as the preferred storage media for high-speed analysis systems. This paper introduces a compressed column-storage model and proposes a new index and its data management scheme for a high-capacity data warehouse system. The proposed index management scheme is based on the asymmetric index duplication and achieves superior search performance using the master index and compact index, particularly for large read-mostly databases. In addition, the data management scheme contributes to the read performance and high reliability by compressing the related columns and replicating them in two mirrored SSD. Based on the results of the performance evaluation under the high workload conditions, the data management scheme outperforms the traditional scheme in terms of the search throughput and response time.

전통적인 기존의 데이터베이스는 높은 성능을 얻기 위하여 느린 하드 디스크에서 관련된 레코드가 연속적으로 저장되어 있는 레코드 기반 모델을 활용한다. 그러나 읽기 집중적인 데이터 분석 시스템을 위해서는 컬럼 기반 압축 데이터베이스가 월등한 판독 성능으로 인하여 더 적합한 모델이 되고 있으며, 최근 플래시 메모리 SSD가 고속 분석용 시스템에 적합한 저장 매체로 선호되고 있다. 본 논문에서는 세로로 저장하는 컬럼 기반 스토리지 모델을 소개하고, 대용량 데이터웨어하우스 시스템을 위한 새로운 인덱스와 데이터 관리 기법을 제안한다. 제안된 인덱스 관리 기법은 두 개의 인덱스를 사용하는 비대칭 인덱스 이중화이며, 갱신용 마스터 인덱스와 판독용 컴팩트 인덱스를 활용하여 특히 읽기가 집중된 빅 데이터베이스에서 우수한 검색 성능을 얻는다. 그리고 본 데이터 관리 기법은 관련된 컬럼 압축과 두 개의 플래시 메모리 SSD를 이중화하여 높은 판독 성능과 처리 안정성에 도움을 준다. 고부하 워크로드 조건의 성능 평가 결과를 기반으로, 본 데이터 관리 기법이 기존 기법보다 검색 처리 및 응답 시간 측면에서 더 우수함을 보이고자 한다.

Keywords

References

  1. D. Abadi, P. Boncz, P. Alto, "Column-oriented Database Systems," Proc. of the VLDB, Lyon, France , August pp. 24-28, 2009. DOI: http://dx.doi.org/10.14778/1687553.1687625
  2. S. Ahn, K. Kim. "A Join Technique to Improve the Performance of Star Schema Queries in Column-Oriented Databases", Journal of Korean Institute of Information Scientist and Engineers, Vol. 40, No.3, pp. 209-218, 2013.6.
  3. Y.Chang, J. Hsieh, and T. Kuo, "Endurance Enhancement of Flash-Memory Storage System: An Efficient Static Wear Leveling Design," Proc. of the 44th conference on Design automation, San Diego, USA, pp. 212-217, 2012
  4. S. Byun. "Search Performance Improvement of Column-oriented Storages using Compression Index", Journal of Korea Academia-Industrial, Vol. 14, No.1, pp. 393-401, 2013. DOI: http://dx.doi.org/10.5762/KAIS.2013.14.1.393
  5. L. Hongjun, N. Yuet Yeung, and T. Zengping, "T-Tree or B-Tree: Main Memory Database Index Structure Revisited", Proc. of 11th Australasian Database Conference, 2000
  6. R. Elmasri and S. Navathe, Fundamentals of Database System, Addison-Wesley, 2010.
  7. Y. Li, B. He, R. J. Yang, Q. Luo, and K. Yi, "Tree indexing on solid state drives," Proc. of the VLDB, vol. 3, no. 1-2, 2010, pp. 1195-1206. DOI: http://dx.doi.org/10.14778/1920841.1920990
  8. M. Yoo, B. Kim. and D. Lee "Hybrid Hash Index for NAND Flash Memory-based Storage Systems", Journal of Korean Information Science, Vol. 38, No.2, pp. 120-128, 2012.4. DOI: http://dx.doi.org/10.1145/2184751.2184819
  9. C. H. Wu, L. P. Chang, and T. W. Kuo, "An efficient B-tree layer for flash-memory storage systems," Proc. of 9th RTCSA, Tainan City, Taiwan, 2003, pp. 409-430.
  10. M. Oberhumer, LZO" Available From: http://www.oberhumer.com/opensource//lzodoc.php(accessed Feb., 10, 2015)
  11. Mesquite, User's Guide CSIM20 Simulation Engine (C++ Version), Available From: http://www.mesquite.com//documents/CSIM20_User_Guide-C++.pdf, (accessed Feb., 10, 2015)