• Title/Summary/Keyword: 중복 데이터

Search Result 1,018, Processing Time 0.027 seconds

Design of Deduplication Supported Clustering Backup System using File Finger Printing (파일 지문으로 중복 파일을 제거한 클러스터링 백업 시스템 설계)

  • Jeong, Ho-Min;Ko, Young-Woong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.737-740
    • /
    • 2007
  • 기존의 백업시스템에서는 데이터의 중복을 고려하지 않고 백업 데이터 전부를 저장하기 때문에 저장용량 공간을 많이 차지하는 문제점이 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 백업 데이터의 각 파일에 대해서 일정한 크기의 블록 단위로 파일지문을 부여하고 파일지문이 동일할 경우 하나의 사본만을 공유하는 방법으로 백업 데이터의 용량을 감소시키는 방법을 도입하였다. 제안하는 백업 시스템은 중복되어 발생하는 데이터에 대해 하나의 사본만 백업함으로써 백업되는 데이터의 양을 효과적으로 감소시켰다. 또한 백업되는 파일 블록에 대해서 클러스터링 기술을 사용함으로서 입출력 성능 향상을 고려하였다.

  • PDF

Block Separation Technique for Offline Deduplication on Solid State Drives (SSD에서 오프라인 중복 데이터 제거를 위한 플래시 메모리 블록 구분 기법)

  • Kang, Yun-Ji;An, Jeong-Choel;Shin, Dong-Kun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.379-381
    • /
    • 2012
  • 중복 제거(deduplication)기법은 저장장치의 공간을 효율적으로 사용할 수 있도록 해 주기 때문에 기존의 스토리지 시스템에서 많이 사용된 기법이다. 최근에는 플래시 메모리 기반의 SSD를 위한 중복 제거 기법도 많이 제안되었지만, 플래시 메모리의 특성을 고려하지 못하고 있다. 본 논문에서는 오프라인 중복 제거 기법을 대상으로 SSD의 특성을 고려하여 가비지 컬렉션의 비용을 절감할 수 있도록 중복 가능성이 있는 데이터와 중복 가능성이 없는 데이터를 온라인에 구분하여 플래시 메모리의 다른 영역에 기록하여 오프라인 중복 제거 후에 가비지 컬렉션 성능을 향상시키는 기법을 제안하였다. 실험결과, 제시된 기법은 가비지 컬렉션 비용인 페이지 이동 횟수를 약 80%이상 감소시켰다.

The Replication Control using the Replica Tree in the Partially Replicated Databases (부분 중복 데이터베이스에서 사본 트리를 이용한 중복 제어)

  • Bae, Mi-Sook;Hwang, Bu-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11c
    • /
    • pp.1453-1456
    • /
    • 2003
  • 데이터의 중복은 데이터의 가용성과 시스템의 성능을 향상시키기 위해 사용한다. 대규모 부분 중복 데이터베이스에서 효율적인 중복 관리를 위해서는 정확한 수행을 보장하기 위한 정확성 검증방법과 효율적인 갱신 전파 방법이 필요하다. 이 논문에서는 부분 중복 환경에서 각 주사본 사이트의 중복 데이터에 대한 트리 구조를 기반으로 한 갱신 전파 방법을 제시하며, 갱신 지연 전파로 인해 갱신 전파도중에 발생할 수 있는 전파 트랜잭션과 주 트랜잭션의 충돌로 인한 비직렬성 문제를 타임스탬프와 상태 데이터베이스를 이용하여 해결한다. 이것은 판독 가용성을 증가시키면서 비직렬성으로 인한 재수행을 회피하게 되어 트랜잭션의 완료율을 증가시킨다.

  • PDF

Privacy Preserving source Based Deuplication Method (프라이버시 보존형 소스기반 중복제거 기술 방법 제안)

  • Nam, Seung-Soo;Seo, Chang-Ho;Lee, Joo-Young;Kim, Jong-Hyun;Kim, Ik-Kyun
    • Smart Media Journal
    • /
    • v.4 no.4
    • /
    • pp.33-38
    • /
    • 2015
  • Cloud storage server do not detect duplication of conventionally encrypted data. To solve this problem, Convergent Encryption has been proposed. Recently, various client-side deduplication technology has been proposed. However, this propositions still cannot solve the security problem. In this paper, we suggest a secure source-based deduplication technology, which encrypt data to ensure the confidentiality of sensitive data and apply proofs of ownership protocol to control access to the data, from curious cloud server and malicious user.

Privacy Preserving Source Based Deduplicaton Method (프라이버시 보존형 소스기반 중복제거 방법)

  • Nam, Seung-Soo;Seo, Chang-Ho
    • Journal of Digital Convergence
    • /
    • v.14 no.2
    • /
    • pp.175-181
    • /
    • 2016
  • Cloud storage servers do not detect duplication of conventionally encrypted data. To solve this problem, convergent encryption has been proposed. Recently, various client-side deduplication technology has been proposed. However, this propositions still cannot solve the security problem. In this paper, we suggest a secure source-based deduplication technology, which encrypt data to ensure the confidentiality of sensitive data and apply proofs of ownership protocol to control access to the data, from curious cloud server and malicious user.

An Efficient Data Aggregation using Mobile Agent in Distributed Sensor Network (분산 센서 네트워크에서 모바일 에이전트를 이용한 효율적인 데이터 수집)

  • Choi, Shin-Il;Moon, S.J.;Eom, Y.H.;Kook, Y.K.;Jung, G.D.;Choi, Y.G.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.138-142
    • /
    • 2006
  • 분산 센서 네트워크에 대한 연구는 정보 융합 방법론상에서 활발히 진행되고 있다. 기존의 센서 네트워크에서 정보의 융합을 위한 데이터의 수집은 센서 노드가 싱크 노드로 수집된 데이터를 전송함으로써 이루어지며 싱크 노드로 수집된 데이터는 어플리케이션에 의해 활용된다. 이때 여러 센서 노드가 어플리케이션에 필요한 데이터를 중복적으로 수집할 경우 중복된 데이터를 싱크노드로 전송하는데 있어 불필요한 에너지를 소모하게 된다. 이는 결국 전체적인 센서 네트워크의 수명을 감소시키는 원인이 된다. 이러한 문제는 어플리케이션에 따라 요구하는 데이터만을 선택적으로 수집함으로써 해결할 수 있다. 이러한 과정을 수행하기 위해 각 센서 노드가 어플리케이션의 요구사항에 맞도록 데이터 중복성에 대한 처리과정을 수반해야한다. 그러나 일반적으로 센서 노드는 자원이 한정이 되어있기 때문에 다양한 어플리케이션의 요구에 따른 중복성 처리 프로세스를 모두 가지고 있을 수는 없다. 따라서 모바일 에이전트를 활용하여 데이터의 중복성 문제를 해결할 수 있다. 또한 센서 네트워크에서 고려되는 에너지 효율, 네트워크 대역폭 문제를 해결할 수 있으며 시스템 확장성이 용이하다.

  • PDF

An ACK-based Redundancy control algorithm in the Periodic FEC (Periodic FEC를 위한 ACK 기반 중복 정보 제어 기법)

  • 이소현;지명경;최태욱;정기동
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10c
    • /
    • pp.679-681
    • /
    • 2001
  • 인터넷 화상 전화와 같이 비디오 데이터를 압축하여 실시간 전송하는 응용 프로그램의 사용 시 일어날 수 있는 비디오 데이터 오류 전파를 방지하기 위한 대표적인 기법으로 FEC를 향상시킨 Periodic FEC가 있다. 본 논문에서는 ACK 메시지를 기반으로 연속적인 패킷 손실을 예측하여 PFEC의 중복 정보(redundant information)외 전송량 조절이 가능한ACK기반 중복 정보 제어 기법을 제안한다. 또한 대용량의 멀티미디어 데이터 전송 시 발생할 수 있는 congestion을 제어하기 위해 TCP와 공정하게 대역폭을 공유하는 TCP-friendly rate control 기법을 고려하여 PFEC의 중복 정보의 양을 네트워크 상태에 적응적으로 조절하는 기법을 제안한다.

  • PDF

A Study on Duplication Verification of Public Library Catalog Data: Focusing on the Case of G Library in Busan (공공도서관 목록데이터의 중복검증에 관한 연구 - 부산 지역 G도서관 사례를 중심으로 -)

  • Min-geon Song;Soo-Sang Lee
    • Journal of Korean Library and Information Science Society
    • /
    • v.55 no.1
    • /
    • pp.1-26
    • /
    • 2024
  • The purpose of this study is to derive an integration plan for bibliographic records by applying a duplicate verification algorithm to the item-based catalog in public libraries. To this, G Library, which was opened recently in Busan, was selected. After collecting OPAC data from G Library through web crawling, multipart monographs of Korean Literature (KDC 800) were selected and KERIS duplicate verification algorithm was applied. After two rounds of data correction based on the verification results, the duplicate verification rate increased by a total of 2.74% from 95.53% to 98.27%. Even after data correction, 24 books that were judged to be similar or inconsistent were identified as data from other published editions after receiving separate ISBN such as revised versions or hard copies. Through this, it was confirmed that the duplicate verification rate could be improved through catalog data correction work, and the possibility of using the KERIS duplicate verification algorithm as a tool to convert duplicate item-based records from public libraries into manifestation-based records was confirmed.

Effective Synchronization of Replicated Data in Information Appliance Environment (정보가전 환경에서 중복된 데이터의 효과적인 동기화)

  • Kang, Yeong-Ho;Jang, Woo-Seog;Noh, Gary;Jung, Byung-Dae;Son, Sung-Yong;Kim, Sang-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.1795-1798
    • /
    • 2002
  • 정보가전 환경은 정보가전들 간의 홈 네트워크론 기반으로 한 상호 정보 교환을 통하여 사용자에게 보다 진보적인 홈 서비스를 제공한다. 정보가전 환경에서는 서로 다른 두 정보가전 내에 동일한 데이터가 중복되는 상황이 발생 가능하므로, 이러한 중복된 데이터의 일관성을 유지시켜 주기 위한 동기화 기능의 지원이 요구된다. 본 논문에서는 정보가전 환경에서 중복된 데이터의 일관성을 유지시키기 위한 효과적인 동기화 기법을 제안하였다. 제안하는 동기화 기법은 네트워크 전송량과 데이터 저장공간을 최소화함으로써 통합 데이터 관리 아키텍춰에서 좋은 성능을 발휘할 수 있다는 것이 큰 장점이다. 또한, 이 동기화 기법은 중앙집중방식의 통합 데이터 관리가 불가능한 현재의 환경과 이것이 가능하게 될 미래의 환경에 모두 적용할 수 있다.

  • PDF

The Consistency Management Using Trees of Replicated Data Items in Partially Replicated Database (부분 중복 데이터베이스에서 중복 데이터의 트리를 이용한 일관성 유지)

  • Bae, Mi-Sook;Hwang, Bu-Hyun
    • The KIPS Transactions:PartD
    • /
    • v.10D no.4
    • /
    • pp.647-654
    • /
    • 2003
  • The replication of data is used to increase its availability and to improve the performance of a system. The distributed database system has to maintain both the database consistency and the replica consistency. This paper proposes an algorithm which resolves the conflict of the operations by using the mechanism based on the structure that the replicas of each data item are hierarchically organized. Each update is propagated along the tree based on the fact that the root of each data item is the primary replica in partially replicated databases. The use of a hierarchy of data may eliminate useless propagation since the propagation can be done only to sites having the replicas. In consequence, the propagation delay of updates may be reduced. By using the timestamp and a compensating transaction, our algorithm resolves the non-serializability problem caused by the conflict of operations that can happen on the way of the update propagation due to the lazy propagation. This resolution also guarantees the data consistency.