• 제목/요약/키워드: 중복 데이터

검색결과 1,018건 처리시간 0.029초

속성 중복을 허용한 파일 수직분할 방법 (A Vertical File Partitioning Method Allowing Attribute Replications)

  • 유종찬;김재련
    • 정보기술과데이타베이스저널
    • /
    • 제4권2호
    • /
    • pp.3-19
    • /
    • 1998
  • 관계형 데이터베이스 성능을 향상시키는데 중요한 요소 중의 하나는 트랜잭션을 처리하기 위해 데이터를 디스크에서 주 기억장치로 옮기는데 필요한 디스크 액세스(access) 횟수이다. 본 연구는 관계형 데이터베이스에서 트랜잭션을 처리할 때, 릴레이션(relation)을 속성의 중복할당을 허용하여 분할하고, 디스크에 단편(fragment)으로 저장하므로써 필요한 단편만을 액세스하여 디스크의 액세스 횟수를 줄이는 방법을 연구하였다. 본 연구에서는 속성의 중복할당을 허용하여 디스크의 액세스 횟수를 최소화시킬 수 있는 수직분할문제에 수리모형을 조회, 갱신트랙잭션을 모두 고려하여 0-1 정수계획법으로 개발하였다. 또한 모형에 대한 최적해법으로 분지한계법을 제안하였으며, 분지한계법으로 큰 문제를 푸는데는 많은 시간이 소요되므로 계산량을 줄일 수 있는 초기처리방법과 비용계산방법을 제안하였다. 속성의 중복을 허용하여 구한 해가 중복을 고려하지 않은 경우의 해보다 디스크 액세스횟수가 감소한 것으로 나타났으며, 갱신트랜?션의 수가 증가함에 따라 중복되는 속성의 수가 감소하는 결과를 나타내었다.

신뢰실행환경기반 엣지컴퓨팅 환경에서의 암호문에 대한 효율적 프라이버시 보존 데이터 중복제거 (Efficient Privacy-Preserving Duplicate Elimination in Edge Computing Environment Based on Trusted Execution Environment)

  • 구동영
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권9호
    • /
    • pp.305-316
    • /
    • 2022
  • 사물인터넷 및 빅데이터 등 디지털 데이터의 범람으로, 다수 사용자로부터 방대한 데이터를 처리 및 보관하는 클라우드 서비스 제공자는 효율적 데이터 관리를 위한 데이터 중복제거를 적용할 수 있다. 중앙 클라우드 서버로의 네트워크 혼잡 및 연산 효율성 저하 등의 문제를 개선하기 위한 클라우드의 확장으로 엣지 컴퓨팅 개념이 도입되면서 사용자 경험을 개선할 수 있으나, 전적으로 신뢰할 수 없는 새로운 엣지 디바이스의 추가로 인하여 프라이버시 보존 데이터 중복제거를 위한 암호학적 연산 복잡도의 증가를 야기할 수 있다. 제안 기법에서는 신뢰실행환경을 활용함으로써 사용자-엣지-클라우드 간 최적화된 통신 구조에서 프라이버시 보존 데이터 중복제거의 효율성 개선 방안을 제시한다. 사용자와 클라우드 사이에서의 비밀정보 공유를 통하여 엣지 디바이스에서의 연산 복잡도를 최소화하고, 클라우드 서비스 제공자의 효율적 암호화 알고리즘 사용을 가능하게 한다. 또한, 사용자는 엣지 디바이스에 데이터를 오프로딩함으로써 데이터 중복제거와 독립적인 활동을 가능하게 하여 사용자 경험을 개선한다. 실험을 통하여 제안 기법이 데이터 프라이버시 보존 중복제거 과정에서 엣지-클라우드 통신 효율성 향상, 엣지 연산 효율성 향상 등 성능 개선 효과가 있음을 확인한다.

종합목록의 중복레코드 검증을 위한 알고리즘 연구 (A Study on Duplicate Detection Algorithm in Union Catalog)

  • 조순영
    • 한국문헌정보학회지
    • /
    • 제37권4호
    • /
    • pp.69-88
    • /
    • 2003
  • 본 연구는 KERIS 종합목록의 품질 개선을 위하여 새로운 유형의 중복 데이터 색출 알고리즘을 개발한 것이다. 새로운 알고리즘에서는 현재 적용하고 있는 것과 같은 MARC 데이터 일치여부 비교 방식에서 탈피하여 언어별 서지 유형별 다른 비교방식을 적용하였다. 아울러 비교 요소간의 유사성을 측정하고, 각 요소의 중요도에 따라 가중치를 차등 부여하는 방식을 병행하였다. 새로 개발한 알고리즘의 효용성을 입증하기 위하여 최근 종합목록에 업로드된 데이터 210,000건을 추출하여 실험용 마스터 파일을 구축하고 7,649건을 두 개의 알고리즘으로 처리한 결과 새로운 알고리즘에서 중복레코드의 색출 비율이 36.2% 더 높게 나타났다.

복잡한 구조의 데이터 중복제거를 위한 효율적인 알고리즘 연구 (Study of Efficient Algorithm for Deduplication of Complex Structure)

  • 이협건;김영운;김기영
    • 한국정보전자통신기술학회논문지
    • /
    • 제14권1호
    • /
    • pp.29-36
    • /
    • 2021
  • IT기술의 발달로 인해 발생되는 데이터양은 기하급수적으로 급격하게 증가하고 있으며, 데이터 구조의 복잡성은 높아지고 있다. 빅데이터 분석가와 빅데이터 엔지니어들은 이러한 빅데이터들을 보다 빠르게 데이터 처리 및 데이터 분석을 수행을 목표로 분석 대상의 데이터양을 최소화하기 위한 연구가 기업 및 가관 등 활발하게 이뤄지고 있다. 빅데이터 플랫폼으로 많이 활용되는 하둡은 서브프로젝트인 Hive를 통해 분석 대상의 데이터 최소화 등 다양한 데이터 처리 및 데이터 분석 기능을 제공하고 있다. 그러나 Hive는 데이터의 복잡성을 고려하지 않고 구현되어 중복 제거에 방대한 양의 메모리를 사용한다. 이에 복잡한 구조의 데이터 중복제거를 위한 효율적인 알고리즘을 제안한다. 성능평가 결과, 제안하는 알고리즘은 Hive에 비해 메모리 사용량은 최대 79%, 데이터 중복제거 시간은 0.677% 감소한다. 향후, 제안하는 알고리즘의 현실적인 검증을 위해 다수의 데이터 노드 기반 성능 평가가 필요하다.

분산 공유 메모리 내에서 적응적 중복 객체에 의한 캐쉬 일관성 (Adaptive Replicated Object with for Cache Coherence in Distributed Shared Memory)

  • 장재열;이병관
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
    • /
    • pp.133-135
    • /
    • 2000
  • 분산 공유 메모리 상에서 클라이언트들은 네트워크를 통해 원격 공유 메모리 상으로 접근하게 된다. 접근 시에 클라이언트들은 접근 정보를 자신의 지역 캐쉬에 저장해 두었다가 필요시에 인출해서 사용한다. 그러나 시간이 경과함에 따라 다른 클라이언트들에 의해서 데이터 갱신이 이루어질 수 있다. 이에 본 논문에서는 원격 데이터 정보를 객체로 설정하여 이 객체를 관리하여 분산 공유 메모리 상에서 데이터 일관성을 유지하고자 한다. 객체 중복을 통해서 분산 객체 시스템을 구성하였을 때 기존의 중복 기법에서 사용하는 일관성 비용 이외에 별도의 추가 비용이 없이도 제한적으로 병렬 수행의 효과를 볼 수 있다. 또한 중복 기법에 있어서 가장 큰 오버헤드로 알려진 일관성 유지비용을 최소화시키기 위하여 이 비용을 결정하는 가장 핵심저인 요소인 객체의 복사본의 수를 동시적으로 변화시키면서 관리함으로써 전체 수행 시간의 측면에서 많은 향상을 가져왔다.

  • PDF

시맨틱 RDF 데이터에 대한 효과적인 키워드 검색 (Effective Keyword Search on Semantic RDF Data)

  • 박창섭
    • 한국콘텐츠학회논문지
    • /
    • 제17권11호
    • /
    • pp.209-220
    • /
    • 2017
  • 최근 지식 베이스, 시맨틱 웹 등 여러 응용 분야에서 시맨틱 데이터의 활용이 증가함에 따라 대규모 RDF 데이터에 대한 효과적인 검색 방법의 필요성이 커지고 있다. 기존의 개별 루트 시맨틱에 기반한 키워드 검색 방법들은 서로 다른 루트 노드를 갖는 결과 트리들의 집합만을 검색함에 따라, 의미적으로 유사하거나 연관성이 낮은 결과 트리들이 함께 검색되고, 동일한 루트 노드를 공유하되 의미적으로 다르고 질의 연관도가 높은 결과들은 함께 검색될 수 없는 문제점이 있다. 이를 개선하기 위해 본 논문에서는 결과 트리들의 루트 노드의 중복을 제한적으로 허용하여 질의 연관도가 높으면서 다양한 결과들을 함께 검색하는 방법을 제안한다. 이를 위해 결과 트리 집합의 루트 중복도 척도를 정의하고, 주어진 키워드 질의와 최대 루트 중복도에 따라 제한적인 루트 중복성을 가지면서 연관도가 높은 top-k 결과 트리들을 효율적으로 구하기 위한 검색 알고리즘을 제시한다. 실 데이터를 이용한 성능 실험 결과, 제안한 방법이 기존 방법보다 콘텐트 노드들의 중복이 적은 다양한 결과 트리들을 검색할 뿐만 아니라 결과 트리들의 루트 노드의 중복을 허용함으로써 질의 연관도가 더 높은 결과들을 생성할 수 있음을 보였다.

뉴스 중복 제거에 따른 정보 유실 방지하기 위한 중복 뉴스 결합 시스템 (Near Duplicate News Combining System to Prevent Information Loss Due to Deduplication of News)

  • 김태환;최원재;김정선
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.391-392
    • /
    • 2020
  • 본 논문에서는 중복 데이터가 가장 많은 인터넷 뉴스 상에서 중복 뉴스를 제거하는 경우 중복 뉴스로 판단되는 유사 중복 문서를 제거할 때 정보의 유실이 발생한다. 본 논문에서는 인터넷 뉴스를 대상으로 유사 중복 뉴스를 제거할 때 발생하는 정보의 유실을 해결하기 위해 제거 된 뉴스와 결합하여 새로운 뉴스를 만드는 중복 뉴스 결합 시스템을 제안한다. 제안하는 방법은 뉴스의 기본 문장과 탐지된 중복 뉴스의 문장 간의 관계 유사도를 활용하여 유실 된 정보를 파악하고 파악된 결과를 기본 뉴스에 결합하여 정보의 유실을 최소화 시키는 것을 실험을 통해 보였다. 향후 뉴스분야뿐만 아니라 중복 문서 제거가 필요한 문서를 다루는 모든 분야에서 정보의 유실을 최소화하기 위한 방법으로 활용할 수 있을 것으로 기대 한다.

  • PDF

이동 컴퓨팅을 위한 K-Level Indexing Broadcast 기법의 성능분석 (Performance Analysis K-Level Indexing Data Broadcast Schemes for Resilient Mobile Computing)

  • 정의종;김재훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (3)
    • /
    • pp.505-507
    • /
    • 2000
  • 이동 컴퓨팅에서 사용되는 단말기는 배터리의 제약과 이동통신망의 높은 장애율로 사용에 불편을 느낀다. 여러 mobile client는 공통 관심이 있는 데이터를 서버로부터 받는 방법으로 broadcasting을 많이 쓰는데, 이때 indexing 기법을 이용해 클라이언트는 원하는 데이터를 filtering해서 수신함으로서 에너지의 효율적 사용을 기할 수 있다. index를 중복시킴으로써 원하는 데이터 접근(access) 시간을 줄이고 무선 통신망의 장애에 따른 성능저하를 줄일 수 있다. 본 논문에서는 K-level indexing 기법을 위한 장애율에 따른 최적의 중복회수를 구하고 데이터 수신시 데이터 시간과 튜닝(tuning)시간을 구한다.

  • PDF

클러스터 구조의 센서 네트워크에서 효율적인 데이터 모음 기법 (An Efficient Data Aggregation Method in Clustered Sensor Network)

  • 지재경;하란
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.220-222
    • /
    • 2005
  • 배터리를 사용하여 정보의 처리와 센싱 작업을 수행하는 무선 센서 네트워크를 오래 동안 가동시키기 위해서 한정된 자원을 효율적으로 사용할 수 있는 여러 기술들이 제안되고 있다. 이런 기법들 중 클러스터를 구성하거나, 데이터 모음 기법을 수행하여 중복된 데이터를 하나의 패킷으로 압축하여 전송 횟수를 줄이면 에너지 절감 효과를 볼 수 있다. 본 논문에서는 클러스터 구조를 이루고 있는 센서 네트워크에서 두개 이상의 클러스터가 중복된 지역을 센싱 할 경우 발생하는 중복 데이터 제거 기법을 제안한다. 제안하는 기법은 Meta-data를 사용한 사전 교섭으로 동일한 정보가 각각 다른 클러스터에 전송되는 것을 방지하여 에너지 절감 효과를 볼 수 있다. 또한, 클러스터 내에서 발생하는 다른 정보들을 시간 지연 기법을 사용하여 하나의 패킷으로 데이터 모음을 수행하는 기법도 제안한다. 성능 평가를 통해 제안하는 알고리즘은 기존의 기법에 비하여 지연 시간과 에너지 소모 면에서 모두 효율적인 것을 확인할 수 있다.

  • PDF

SSD의 마모도 감소를 위한 복합적 데이터 중복 제거 기법 (Hybrid Data Deduplication Method for reducing wear-level of SSD)

  • 이승규;양유석;김덕환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.543-546
    • /
    • 2011
  • SSD는 일반적으로 사용되는 HDD와는 달리 기계적 동작이 없는 반도체 메모리를 사용하여 데이터를 저장하는 장치이다. 플래시 기반의 SSD는 읽기 성능이 뛰어난 반면 덮어쓰기 연산이 안되는 단점이 있다. 즉 마모도가 존재하여 SSD의 수명에 영향을 준다. 하지만 HDD보다 뛰어난 성능 때문에 노트북이나 중요한 데이터 등을 다루는 시스템 등에서 많이 사용하고 있다. 본 논문에서는 이러한 SSD를 서버 스토리지로 사용할 때 기존의 데이터 중복 제거 기법의 장점만을 조합한 복합적 데이터 중복 제거 기술을 제안하고 이 기법이 SSD의 마모도 측면에서 훨씬 효율적임을 검증하였다.