• 제목/요약/키워드: data deduplication

검색결과 47건 처리시간 0.025초

오픈 소스 기반 데이터 분산 중복제거 파일 시스템의 성능 분석 (Performance Analysis of Open Source Based Distributed Deduplication File System)

  • 정성욱;최훈
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.623-631
    • /
    • 2014
  • 데이터 중복제거 파일시스템인 LessFS와 SDFS의 성능을 비교하면, LessFS는 CPU 점유율과 수행 시간에서 성능이 우수하고, SDFS는 중복제거 이후 저장소 사용량이 다른 파일시스템보다 1/8 정도의 이점을 가지고 있다. 본 논문은 SDFS의 장점인 중복제거 이후 저장소 사용량 감소와 LessFS의 장점인 낮은 CPU 점유율과 수행 시간 감소의 장점을 지니는 새로운 방식을 제안한다. SDFS의 Dedup File Engines (DFE) n개를 이용하되, Dedup Storage Engines (이하 DSE) 1개를 두어 중복제거 데이터의 정합성과 일관성을 유지하는 방식이다. 제안하는 방식을 2개의 DFE와 1개의 DSE를 가진 시험환경에 구현하고 성능 비교를 수행한다.

SSD 기반 서버급 스토리지를 위한 지역성 기반 청킹 정책을 이용한 데이터 중복 제거 기법 (Data Deduplication Method using Locality-based Chunking policy for SSD-based Server Storages)

  • 이승규;김주경;김덕환
    • 전자공학회논문지
    • /
    • 제50권2호
    • /
    • pp.143-151
    • /
    • 2013
  • 낸드 플래시 기반 SSD(Solid State Drive)는 빠른 입출력 성능, 저전력 등의 장점을 가지고 있어, 타블릿, 데스크탑 PC, 스마트폰, 서버 등의 저장장치로 널리 사용되고 있다. 하지만 SSD는 쓰기 횟수에 따라서 마모도가 증가하는 단점이 있다. SSD의 수명을 향상시키기 위해 다양한 데이터 중복제거 기법이 도입되었으나, 일반적인 고정 크기 분할방식은 데이터의 지역성을 고려하지 않고 청크크기를 할당함으로써, 불필요한 청킹 및 해시값 생성을 수행하는 문제점이 있으며, 가변 크기 분할방식은 중복제거를 위해 바이트 단위로 비교하여 과도한 연산량을 유발한다. 본 논문에서는 SSD 기반 서버급 스토리지에서 쓰기 요청된 데이터의 지역성에 기반한 적응형 청킹 정책을 제안한다. 제안한 방법은 중복데이터가 가지는 응용프로그램 및 파일 이름 기반 지역성에 따라 청크 크기를 4KB 또는 64KB로 적응적으로 분할하여, 청킹 및 해시값 생성에 따른 오버헤드를 감소시키고, 중복 쓰기를 방지한다. 실험결과, 제안하는 기법이 기존의 가변 크기 분할 및 4KB의 고정 크기 분할을 이용한 중복제거기법보다 SSD의 쓰기 성능이 향상되고 전력 소모 및 연산시간을 감소시킬 수 있음을 보여준다.

MADE (Minhash-Assisted Delta Compression Engine) : 델타 압축 기반의 낸드 플래시 저장장치 내구성 향상 기법 (Improving the Lifetime of NAND Flash-based Storages by Min-hash Assisted Delta Compression Engine)

  • 권혁준;김도현;박지성;김지홍
    • 정보과학회 논문지
    • /
    • 제42권9호
    • /
    • pp.1078-1089
    • /
    • 2015
  • 본 연구에서는 쓰기 데이터양 감소를 통해 낸드 플래시 기반 저장장치의 수명향상을 도모할 수 있는 MADE(Min-hash Assisted Delta-compression Engine) 모듈을 제안한다. MADE 모듈은 델타압축기법(delta compression)을 통해 중복되는 데이터 패턴을 최소화하여 실제 낸드 플래시에 인가되는 쓰기 명령 횟수를 획기적으로 줄일 수 있을 뿐만 아니라, 중복제거기법(deduplication) 및 무손실압축기법(lossless compression)의 통합적용과 유사한 효과를 볼 수 있도록 설계되었다. 또한 델타압축기법 과정 중 필요한 참조 페이지 탐색 및 압축 기법을 최적화하여, 저장되는 데이터양을 최대한 줄이는 동시에 부가적인 오버헤드를 최소화 하였다. 시뮬레이션 결과, MADE가 적용된 플래시 변환계층(Flash Transition Layer, FTL)은 실제 낸드 플래시 칩에 저장되는 데이터를 최소 50% 줄일 수 있었으며, 순차적인 중복제거기법과 무손실압축 기법을 단순 통합하여 적용한 경우에 비해 추가적으로 12%의 쓰기 데이터양을 감소시킬 수 있었다.

WANProxy의 성능 분석 및 개선 (Performance Analysis and Improvement of WANProxy)

  • 김하늘;지승규;정규식
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권3호
    • /
    • pp.45-58
    • /
    • 2020
  • 클라우드 서비스와 모바일 기기의 대중화로 네트워크 트래픽이 계속 증가하고 있는 현재 추세에 LAN 대역폭에 비해 WAN 대역폭이 아주 낮다. WAN 환경에서는 전송 프로토콜, 패킷 손실, 네트워크 대역폭 한계 때문에 생기는 성능 문제를 극복하는 WAN 최적화기가 필요하다. 본 논문에서는 오픈소스 WAN 최적화기인 WANProxy의 데이터 중복제거 알고리즘을 분석하고 성능을 네트워크 대기시간 및 WAN 대역폭 관점에서 평가한다. 또한, WANProxy에 추가로 zstd를 적용하는 2단계 압축을 적용할 경우의 성능을 평가한다. 또한, WANProxy의 데이터 중복 제거 방법을 개선한 새로운 방법을 제안하고 성능 개선 효과를 평가한다. 데이터 세그먼트 크기를 2048바이트로 하고 Silesia의 12개 데이터 파일을 이용한 성능 실험을 수행한다. 실험 결과에 의하면, WANProxy에 의한 평균 압축률이 150.6이고 네트워크 대기시간 평균 감소율은 10 Mbps WAN 환경에서는 95.2%, 100 Mbps WAN 환경에서는 60.7%가 된다. WANProxy에 추가로 zstd를 적용하는 방법은 WANProxy를 적용하는 경우와 비교할 때 압축률이 평균 33% 증가하지만 네트워크 대기시간이 10 Mbps WAN 환경에서는 평균 2.1%, 100 Mbps WAN 환경에서는 평균 5.2% 각각 증가한다. 본 논문에서 제안한 개선 방법을 WANProxy에 적용한 경우는 기존의 WANProxy와 비교할 때 압축률이 평균 34.8% 증가하고 네트워크 대기시간이 10 Mbps WAN 환경에서는 평균 13.8%, 100 Mbps WAN 환경에서는 평균 12.9% 각각 감소한다. 성능 분석 결과에 의하면, WAN 대역폭이 10 Mbps 이하인 환경에서 WANProxy를 적용할 경우 네트워크 대기시간과 WAN 대역폭 관점에서 성능 개선 효과가 아주 우수하고 WAN 대역폭이 100 Mbps 환경에서도 우수하다.

데이터 중복 제거 기술 분석 (An analysis of Data Deduplication techniques)

  • 조민정;이창훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.305-308
    • /
    • 2016
  • 저장하는 데이터의 용량이 증가함에 따라 데이터들은 효율적으로 보관될 필요성이 증가하였다. 이에 따라, 데이터 용량을 줄이는 기술로 많은 서비스들이 데이터 중복 제거 기술을 사용한다. 본 연구에서는 일부 서비스의 데이터 중복 제거 기술을 분석하고, 데이터 중복 제거 기술의 발전 동향을 예측하고자한다.

오픈 소스 중복 제거 파일시스템에서의 완전 삭제 (Sanitization of Open-Source Based Deduplicated Filesystem)

  • 조현웅;김슬기;권태경
    • 정보보호학회논문지
    • /
    • 제26권5호
    • /
    • pp.1141-1149
    • /
    • 2016
  • 중복 제거 파일시스템은 저장 공간 절약의 이점이 있지만, 기존 완전 삭제 도구를 이용하는 경우 여전히 지워진 블록이 복원될 우려가 있다. 본 논문에서는 FUSE(Filesystem in USErspace)를 이용하여 개발된 오픈 소스 중복 제거 파일시스템인 LessFS를 바탕으로 완전 삭제 기법을 연구하였다. 먼저 중복 제거 파일시스템에서 지워진 데이터 블록을 복구하는 취약점을 보였으며, 데이터 블록과 함께 fingerprint DB영역을 고려한 완전 삭제 기법을 제안하고 구현하였다. 성능 측정 결과 완전 삭제에 필요한 시간은 완전 삭제가 적용되지 않은 경우에 비해 60~70배 가량으로 나타났으며, 이러한 작업 수행시간의 증가는 chunk의 증가로 인한 fingerprint DB 접근에 따른 오버헤드가 큰 비중을 차지하는 것으로 나타났다. 또한 chunk 크기가 65,536바이트를 넘는 경우에는 기존 파일시스템의 완전 삭제 기법보다더 좋은 완전 삭제 성능을 보였다.

가상머신의 페이지 공유 기회를 향상시키기 위한 우선순위 큐 기반 힌트 관리 기법 (Priority-based Hint Management Scheme for Improving Page Sharing Opportunity of Virtual Machines)

  • 남예지;이민호;이동우;엄영익
    • 정보과학회 논문지
    • /
    • 제43권9호
    • /
    • pp.947-952
    • /
    • 2016
  • 대부분의 데이터 센터에서는 제한된 물리 자원을 효율적으로 사용하기 위해 가상화 기술을 이용하여 서버 통합을 시도하고 있다. 또한, 가상화 기술이 적용된 시스템에서는 가상머신 간의 중복된 내용의 페이지를 제거하기 위해 내용 기반의 페이지 공유 기법을 흔히 사용한다. 하지만, 기존의 메모리 공유기법의 경우 공유 가능한 페이지를 의미하는 힌트를 단순히 스택에 저장함으로써 해당 정보를 효율적으로 관리하지 못하는 단점이 있다. 본 논문에서는 가상화 시스템의 페이지 공유 기회를 향상시키기 위해 게스트에서 호스트로 전달된 힌트를 효율적으로 관리하기 위한 우선순위 큐 기반 힌트 관리 기법을 제안한다. 실험 결과를 보면 기존의 기법보다 제안기법이 효율적으로 힌트를 관리하여 공유 가능성이 낮은 힌트를 우선적으로 제거하는 것을 확인할 수 있다.

클라우드 환경에서 데이터 중복제거를 활용한 효율적인 데이터 동기화 알고리즘 설계 (Using Data Deduplication In A Cloud Environment, Efficient Data Synchronization Algorithm Design)

  • 임광수;박석천;김용희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.626-628
    • /
    • 2015
  • 빅 데이터의 시대가 도래 하면서 데이터의 양이 기하급수적으로 증가 하고 있으며, 이에 따라 데이터를 효율적으로 처리하는 기술의 중요성이 부각 되고 있다. 데이터를 효율적으로 처리하기 위한 기술 중 하나인, 데이터 중복제거 기술은 저장 시스템 공간을 효율적으로 사용 할 수 있게 할 뿐만 아니라, 네트워크 환경에서 전송되는 데이터의 양도 획기적으로 줄여 주어 통신비용을 절감하게 한다. 기존의 데이터 중복제거 기술과 데이터 동기화 기법을 분석하고, 이를 바탕으로 클라우드 환경에서 데이터 중복제거를 통한 효율적인 데이터 동기화 기법을 제안하고자 한다.

SSD의 마모도 감소를 위한 복합적 데이터 중복 제거 기법 (Hybrid Data Deduplication Method for reducing wear-level of SSD)

  • 이승규;양유석;김덕환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.543-546
    • /
    • 2011
  • SSD는 일반적으로 사용되는 HDD와는 달리 기계적 동작이 없는 반도체 메모리를 사용하여 데이터를 저장하는 장치이다. 플래시 기반의 SSD는 읽기 성능이 뛰어난 반면 덮어쓰기 연산이 안되는 단점이 있다. 즉 마모도가 존재하여 SSD의 수명에 영향을 준다. 하지만 HDD보다 뛰어난 성능 때문에 노트북이나 중요한 데이터 등을 다루는 시스템 등에서 많이 사용하고 있다. 본 논문에서는 이러한 SSD를 서버 스토리지로 사용할 때 기존의 데이터 중복 제거 기법의 장점만을 조합한 복합적 데이터 중복 제거 기술을 제안하고 이 기법이 SSD의 마모도 측면에서 훨씬 효율적임을 검증하였다.

클라우드 스토리지 환경을 위한 안전하고 효율적인 암호데이터 중복제거 기술 (A Safe and Efficient Secure Data Deduplication for Cloud Storage Environment)

  • 김원빈;이임영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.714-717
    • /
    • 2015
  • 기존의 암호데이터 중복제거 기술은 데이터의 중복 여부를 판단하기 위해 다양한 방식으로 데이터를 전송하고 이를 기존에 저장된 데이터와 비교하여 중복여부를 판단하게 된다. 이러한 데이터 중복제거 기술의 중복제거 효율성을 높이기 위해 최근 블록 단위의 중복제거 기술이 사용되고 있다. 하지만 블록 단위 중복제거 기술의 적용 과정에서 다양한 보안 위협이 발생하는데, 이 중 포이즌 어택은 무결성 및 데이터 저장 시 저장되는 데이터에 대한 검증이 이루어지지 않는 시스템에서 발생하는 위협 중 하나이다. 이러한 위협을 해결하기 위해 암호화 기술을 적용한 여러 기술들이 연구되어 제안되었지만 과도하게 많은 통신 횟수와 연산이 발생되어 효율성이 떨어지는 문제가 존재한다. 따라서 본 논문에서는 클라우드 스토리지에 저장되는 데이터의 기밀성과 무결성을 보장하며, 연산량과 통신량에서 보다 효율적인 암호데이터 중복제거 기술을 제안한다.