• Title/Summary/Keyword: 중복제거기법

Search Result 221, Processing Time 0.025 seconds

Efficient and Privacy-Preserving Near-Duplicate Detection in Cloud Computing (클라우드 환경에서 검색 효율성 개선과 프라이버시를 보장하는 유사 중복 검출 기법)

  • Hahn, Changhee;Shin, Hyung June;Hur, Junbeom
    • Journal of KIISE
    • /
    • v.44 no.10
    • /
    • pp.1112-1123
    • /
    • 2017
  • As content providers further offload content-centric services to the cloud, data retrieval over the cloud typically results in many redundant items because there is a prevalent near-duplication of content on the Internet. Simply fetching all data from the cloud severely degrades efficiency in terms of resource utilization and bandwidth, and data can be encrypted by multiple content providers under different keys to preserve privacy. Thus, locating near-duplicate data in a privacy-preserving way is highly dependent on the ability to deduplicate redundant search results and returns best matches without decrypting data. To this end, we propose an efficient near-duplicate detection scheme for encrypted data in the cloud. Our scheme has the following benefits. First, a single query is enough to locate near-duplicate data even if they are encrypted under different keys of multiple content providers. Second, storage, computation and communication costs are alleviated compared to existing schemes, while achieving the same level of search accuracy. Third, scalability is significantly improved as a result of a novel and efficient two-round detection to locate near-duplicate candidates over large quantities of data in the cloud. An experimental analysis with real-world data demonstrates the applicability of the proposed scheme to a practical cloud system. Last, the proposed scheme is an average of 70.6% faster than an existing scheme.

Non-Duplication Loading Method for supporting Spatio-Temporal Analysis in Spatial Data Warehouse (공간 데이터웨어하우스에서 시공간 분석 지원을 위한 비중복 적재기법)

  • Jeon, Chi-Soo;Lee, Dong-Wook;You, Byeong-Seob;Lee, Soon-Jo;Bae, Hae-Young
    • Journal of Korea Spatial Information System Society
    • /
    • v.9 no.2
    • /
    • pp.81-91
    • /
    • 2007
  • In this paper, we have proposed the non-duplication loading method for supporting spatio-temporal analysis in spatial data warehouse. SDW(Spatial Data Warehouse) extracts spatial data from SDBMS that support various service of different machine. In proposed methods, it extracts updated parts of SDBMS that is participated to source in SDW. And it removes the duplicated data by spatial operation, then loads it by integrated forms. By this manner, it can support fast analysis operation for spatial data and reduce a waste of storage space. Proposed method loads spatial data by efficient form at application of analysis and prospect by time like spatial mining.

  • PDF

Autonomous Broadcast Pruning Scheme using Coverage Estimation in Wireless Ad Hoc Network (무선 Ad Hoc 망에서 영역 추정을 통한 ABP 브로드캐스트 기법)

  • Bae Ki chan;Kim Nam gi;Yoon Hyun soo
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.30 no.4B
    • /
    • pp.170-177
    • /
    • 2005
  • Due to the redundant rebroadcast packets, network-wide broadcasting is a costly operation in wireless mobile ad hoc networks. To reduce this redundancy, most of previous approaches implicitly or explicitly require periodic refreshing of neighborhood information which continuously imposes additional broadcast overheads. In this paper, we propose a practical broadcast pruning scheme based on the local prediction of a remained coverage area. As the proposed scheme uses only information available in the on-going broadcast process, it can minimize the overheads prevalent in previous approaches.

Support Vector Machine Using Parallel Hyperplane for Reduction of Training Data (트레이닝 데이터 감소를 위한 병렬 평면 기반의 Support Vector Machine)

  • Lee, Tae-Ho;Kim, Min-Woo;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.115-116
    • /
    • 2019
  • SVM (Support Vector Machine)은 견고성으로 인해 다양한 분류 문제에 적용 할 수 있는 효율적인 기계 학습 기술이다. 그러나 훈련 데이터의 수가 증가함에 따라 시간 복잡도가 급격히 증가하므로 대규모 데이터 세트의 경우 SVM이 비실용적이다. 본 논문에서는 SVM을 사용하여 중복 된 학습 데이터를 효율적으로 제거하는 새로운 병렬 평면(Parallel Hyperplane) 기법을 소개한다. 제안 기법에서 PH는 재귀 적으로 형성되는 반면 PH의 외부에 있는 데이터 포인트의 클러스터는 매 반복마다 제거된다. 시뮬레이션 결과 제안 기법은 기존의 클러스터링 기반 감축 기법과 SMO 기법에 비해 학습 시간을 크게 단축시키면서 데이터 축소 없이 분류의 정확성을 높일 수 있음을 확인 하였다.

  • PDF

Optimizing the Post-Processing Step of Subsequence Matching in Time-Series Databases (시계열 데이터베이스를 위한 서브시퀀스 매칭 후처리 과정의 최적화)

  • Kim, Sang-Wook;Park, Dae-Hyun;Lee, Heon-Gil;Jung, Byong-Dae;Son, Sung-Yong
    • Annual Conference of KIPS
    • /
    • 2001.10a
    • /
    • pp.39-42
    • /
    • 2001
  • 본 논문에서는 시계열 데이터베이스에서 서브시퀀스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 먼저, 서브시퀀스 매칭의 후처리 과정에서 발생하는 기존 기법의 문제점을 지적하고, 이를 해결할 수 있는 최적의 기법을 제안하였다. 제안된 기법은 이진 트리 내에 후보 시퀀스에 대한 정보를 삽입해 둠으로써 같은 시퀀스에 속하는 후보 윈도우들과 같은 서브시퀀스에 속하는 후보 윈도우들을 연속적으로 처리하는 방식을 사용한다. 이 결과, 디스크 액세스와 서브시퀀스 비교의 측면에서 중복 작업을 완전히 제거할 수 있다. 제안된 기법의 성능 개선 효과를 검증하기 위하여 실제 주식 데이터를 위한 성능 평가를 수행하였다. 실험 결과에 의하면, 제안된 기법은 기존의 기법과 비교하여 전체적으로 55배에서 156배까지의 성능 개선 효과가 있는 것으로 나타났다.

  • PDF

Optimization of Subsequence Matching Under Time-Warping in Time-Series Databases (시계열 데이터베이스에서 타임 워핑 하의 서브시퀀스 매칭의 성능 최적화)

  • Kim, Man-Soon;Kim, Sang-Wook
    • Annual Conference of KIPS
    • /
    • 2004.05a
    • /
    • pp.117-120
    • /
    • 2004
  • 본 논문에서는 시계열 데이터베이스에서 타임 워핑 하의 서브시퀀스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 타임 워핑은 데이터베이스내 시퀀스들의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해 준다. 본 논문에서는 타임 워핑 하의 서브시퀀스 매칭을 위한 기존의 기본 처리 방식인 Naive-Scan의 CPU 처리 과정을 최적화하는 새로운 기법을 제안한다. 제안된 기법은 질의 시퀀스와 서브시퀀스들 간의 타임 워핑 거리들을 계산하는 과정에서 발생하는 중복 작업들을 사전에 제거함으로써 CPU 처리 성능을 극대화한다. 제안된 기법이 착오 기각을 발생시키지 않음과 Naive-Scan을 처리하기 위한 최적의 기법임을 이론적으로 규명한다. 또한, 다양한 실험을 통한 성능 평가에 의하여 제안된 최적화 기법이 가져오는 성능 개선 효과를 정량적으로 검증한다. 아울러, 제안된 기법이 기존의 여과 단계를 포함하는 방식인 LB-Scan과 ST-Filter의 후처리 단계에도 성공적으로 적용될 수 있음을 보인다.

  • PDF

Analysis of Network Traffic Patterns using Association Rules (연관 규칙을 이용한 네트워크 트래픽 패턴 분석)

  • Park, Tae-Jin;Won, Yong-Gwan
    • Annual Conference of KIPS
    • /
    • 2001.10b
    • /
    • pp.1115-1118
    • /
    • 2001
  • 네트워크에 대한 활용 범위가 방대해 지면서, 신뢰성 및 효율성을 가지는 네트워크 관리가 필요하게 되었다. 특히 네트워크 관리에 데이터 마이닝을 이용해 네트워크의 운용 상태에 대한 유용한 정보를 추출하기 위한 기법들이 연구되고 있다. 본 논문에서는 네트워크의 최적화를 위한 하나의 방법으로, 특정 노드의 트래픽 집중 현상을 줄이기 위한 방법을 제안한다. 제안된 방법은 먼저 노드별 트래픽 정보를 표현하고, 수집된 정보들간의 연관성을 가지는 규칙들을 찾으며, 이들 규칙들 중 중복되거나 유용하지 않은 규칙들을 제거하고, 마지막으로 네트워크의 구성 정보를 반영하여 트래픽의 분산에 도움이 되지 않는 정보를 담고 있는 규칙들을 제거한다. 이러한 과정으로 얻어진 규칙들은 새로운 라우팅 정책에 반영하여 병목 현상을 제거하는데 효과적으로 활용할 수 있다.

  • PDF

Translator for Stack-Based Codes from Three-Address Codes (3-주소 코드를 스택-기반 코드로의 변환기)

  • Kim, Young-Kook;Kouh, Hoon-Joon;Yoo, Weon-Hee
    • Annual Conference of KIPS
    • /
    • 2005.05a
    • /
    • pp.369-372
    • /
    • 2005
  • 자바의 문제점은 실행속도의 저하이다. 실행속도 저하의 해결 방법으로 네이티브 코드로 변환, JIT컴파일러, 바이트코드 최적화등의 연구가 되어 왔다. 그중에 바이트코드 최적화 방법을 사용하는 CTOC(Class To Optimized Classes)에서 3-주소 코드를 스택-기반 코드로 코드 확장 기법으로 변환 시 불필요한 store/load 코드가 생성된다. 따라서 본 논문은 불필요한 store/load 코드를 제거하기 위해서 부분 중복 코드 제거 후 불필요한 store/load문을 제거함으로서 불필요한 store/load 코드의 양을 줄이는 변환기를 제안하고, 거기에 대한 간단한 예를 들어 설명한다.

  • PDF

Translator for Stack-Based Codes from Intermediated Codes (중간 코드를 스택-기반 코드로의 변환기)

  • Kim Young Kook;Kouh Hoon-Joon;Yoo Weon Hee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.895-897
    • /
    • 2005
  • 자바의 문제점은 실행속도의 저하이다. 실행속도 저하의 해결 방법으로 네이티브 코드로 변환, JIT컴파일러, 바이트코드 최적화등의 연구가 되어 왔다. 그 중에 바이트코드 최적화 방법을 사용하는 CTOC(Class To Optimized Classes)에서 중간코드로 사용하는 3-주소 코드를 스택-기반 코드로 코드 확장 기법으로 변환 시 불필요한 store/load 코드가 생성된다. 따라서 본 논문은 불필요한 store/load 코드를 제거하기 위해서 부분 중복 코드 제거 후 불필요한 store/load문을 제거함으로서 불필요한 store/load 코드의 양을 줄이는 변환기를 제안하고, 거기에 대한 간단한 예를 들어 설명한다.

  • PDF

Effective Elimination Method of Redundant Synchronization Instructions in MIMD Systems (MIMD 시스템에서의 효율적인 중복 동기화명령어 제거 기법)

  • 김병수;황종선;박두순
    • Journal of the Korean Institute of Telematics and Electronics B
    • /
    • v.29B no.10
    • /
    • pp.1-9
    • /
    • 1992
  • This paper presents an effective synchronization algorithm. It is different from the existing synchronization methods by inserting appropriate synchronization instructions between statements according to different kinds of data dependencies. The overhead caused by too many synchronization instructions in a loop can be a critical problem. Synchronization optimization is a method which discriminates and eliminates the redundant synchronization instructions in a loop. In this paper, a new synchronization optimization algorithm is developed, and performance analysis using simulation on the UNIX operating system is carried out.

  • PDF