DOI QR코드

DOI QR Code

Efficient Dynamic Index Structure for SSD (SPM)

SSD에 적합한 동적 색인 저장 구조 : SPM

  • 진두석 (한국과학기술정보연구원 정보기술연구실) ;
  • 김진숙 (한국과학기술정보연구원 정보기술연구실) ;
  • 류범종 (한국과학기술정보연구원 정보기술연구실) ;
  • 정회경 (배재대학교 컴퓨터공학과)
  • Published : 2010.02.28

Abstract

Inverted index structures have become the most efficient data structure for high performance indexing of large text collections, especially online index maintenance, In-Place and merge-based index structures are the two main competing strategies for index construction in dynamic search environments. In the above-mentioned two strategies, a contiguity of posting information is the mainstay of design for online index maintenance and query time. Whereas with the emergence of new storage device(SSD, SCRAM), those do not consider a contiguity of posting information in the design of index structures because of its superiority such as low access latency and I/O throughput speeds. However, SSD(Solid State Drive) is not well suited for traditional inverted structures due to the poor random write throughput in practical systems. In this paper, we propose the new efficient online index structure(SPM) for SSD that significantly reduces the query time and improves the index maintenance performance.

역파일 인덱스 구조는 대용량 텍스트 데이터의 색인저장 기법을 위한 효율적인 데이터 구조로 널리 활용 되고 있다. 특히, 최근 이슈가 되고 있는 온라인 색인관리 측면에서는 동적 검색 환경에 적합한 In-Place 방식과 Merge-based 색인 방식이 주로 사용 되고 있다. 위 방법들의 핵심은 검색 처리시간을 줄이기 위해서 포스팅 정보의 저장 연속성(Contiguity)을 보장하면서 동시에 색인정보 관리(Index Maintenance) 시간을 최소화 하기위한 색인저장 구조에 중점을 두고 연구가 진행 되었다. 그러나 최근 기존 저장장치(HDD)와 근본적으로 구조가 다른 새로운 저장장치(SSD, SCRAM)가 데이터 저장소로 이용되면서 이러한 장치들의 특성을 효과적으로 활용할 수 있는 새로운 형태의 색인저장 기법 또한 필요하게 되었다. 따라서 본 논문에서는 새로운 저장장치의 빠른 접근 속도(Low access latency) 특성을 최대한 활용할 수 있는 분할(Segmentation) 포스팅 구조를 기반으로 새로운 저장장치에 적합하도록 변형된 In-Place 방식(Pulsing)과 수정된 Merge-based 방식(Merging)을 혼합하여 검색 처리시간 및 색인정보관리시간을 크게 향상시킬 수 있는 새로운 색인저장 구조(SPM)를 제안한다.

Keywords

References

  1. D. R. Cutting and J. O. Pedersen, "Optimization for dynamic inverted index maintenance," In Proceedings of the 13th annual international ACM SIGIR conference on Research and development in information retrieval, pp.405-411, 1990. https://doi.org/10.1145/96749.98245
  2. T. Chiueh and L. Huang, "Efficient real-time index updates in text retrieval systems," Technical Report ECSL-TR-66, Computer Science Department, SUNY at Stony Brook, 1999.
  3. L. Lim, M. Wang, S. Padmanabhan, J. S. Vitter, and R. Agrwal, "Dynamic maintenance of web indexes using landmarks," In Proceedings of the 12th international conference on World Wide Web, pp.102-111, 2003. https://doi.org/10.1145/775152.775167
  4. N. Lester, J. Zobel, and H. Williams, "In-Place versus Re-Build versus Re-Merge: Index Maintenance Strategies for Text Retrieval Systems," In Computer Science, 27th Australasian Computer Science Conference, pp.15-22, 2004.
  5. N. Lester, A. Moffat, and J. Zobel, "Efficient Online Index Construction for Text Database," J. of ACM Trans. Database Systems, Vol.33, No.3, Article 19, 2008. https://doi.org/10.1145/1386118.1386125
  6. A. Tomasic, H. Garcia-Molina, and K. A. Shoens. "Incremental updates of inverted lists for text document retrieval," In Proceedings of the 1994 ACM SIGMOD International Conference on Management of Data, pp.289-300, 1994. https://doi.org/10.1145/191839.191896
  7. S. Buttcher, C. L. A. Clarke, and B. Lushman, "Hybrid index maintenance for growing text collections," In Proceedings of the 2004 ACM SIGMOD international conference on Management of data, pp.1-4, 2004.
  8. D. Narayanan, E. Thereska, A. Donnelly, S. Elnikety, and A. Rowstron, "Migrating enterprise storage to SSDs: analysis of tradeoff," MSR-TR-2008-169, 2008.
  9. John A. Garrison and A. L. Narasimha Reddy, "Umbrella File System: Storage Management across Heterogeneous Devices," ACM Trans. Stor., Vol.5, No.1, Article 3, 2009. https://doi.org/10.1145/1502777.1502780
  10. S. W. Lee and M. Bongki, "Design of Flash-Based DBMS: An In-Page Logging Approach," In Proceedings of the 2007 ACM SIGMOD international conference on Management of data, pp.55-66, 2007. https://doi.org/10.1145/1247480.1247488