• 제목/요약/키워드: min-hash

검색결과 48건 처리시간 0.027초

Similarity measurement based on Min-Hash for Preserving Privacy

  • Cha, Hyun-Jong;Yang, Ho-Kyung;Song, You-Jin
    • International Journal of Advanced Culture Technology
    • /
    • 제10권2호
    • /
    • pp.240-245
    • /
    • 2022
  • Because of the importance of the information, encryption algorithms are heavily used. Raw data is encrypted and secure, but problems arise when the key for decryption is exposed. In particular, large-scale Internet sites such as Facebook and Amazon suffer serious damage when user data is exposed. Recently, research into a new fourth-generation encryption technology that can protect user-related data without the use of a key required for encryption is attracting attention. Also, data clustering technology using encryption is attracting attention. In this paper, we try to reduce key exposure by using homomorphic encryption. In addition, we want to maintain privacy through similarity measurement. Additionally, holistic similarity measurements are time-consuming and expensive as the data size and scope increases. Therefore, Min-Hash has been studied to efficiently estimate the similarity between two signatures Methods of measuring similarity that have been studied in the past are time-consuming and expensive as the size and area of data increases. However, Min-Hash allowed us to efficiently infer the similarity between the two sets. Min-Hash is widely used for anti-plagiarism, graph and image analysis, and genetic analysis. Therefore, this paper reports privacy using homomorphic encryption and presents a model for efficient similarity measurement using Min-Hash.

Min-Hash를 이용한 효율적인 대용량 그래프 클러스터링 기법 (An Efficient Large Graph Clustering Technique based on Min-Hash)

  • 이석주;민준기
    • 정보과학회 논문지
    • /
    • 제43권3호
    • /
    • pp.380-388
    • /
    • 2016
  • 그래프 클러스터링은 서로 유사한 특성을 갖는 정점들을 동일한 클러스터로 묶는 기법으로 그래프 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 소셜 네트워크 서비스와 월드 와이드 웹, 텔레폰 네트워크 등의 다양한 응용분야에서 크기가 큰 대용량 그래프 데이터가 생성되고 있다. 이에 따라서 대용량 그래프 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. 본 논문에서는 대용량 그래프 데이터의 클러스터들을 효율적으로 생성하는 클러스터링 알고리즘을 제안한다. 우리의 제안 기법은 그래프 내의 클러스터들 간의 유사도를 Min-Hash를 이용하여 효과적으로 추정하고 계산된 유사도에 따라서 클러스터들을 생성한다. 실세계 데이터를 이용한 실험에서 우리는 본 논문에서 제안하는 기법과 기존 그래프 클러스터링 기법들과 비교하여 제안기법의 효율성을 보였다.

MADE (Minhash-Assisted Delta Compression Engine) : 델타 압축 기반의 낸드 플래시 저장장치 내구성 향상 기법 (Improving the Lifetime of NAND Flash-based Storages by Min-hash Assisted Delta Compression Engine)

  • 권혁준;김도현;박지성;김지홍
    • 정보과학회 논문지
    • /
    • 제42권9호
    • /
    • pp.1078-1089
    • /
    • 2015
  • 본 연구에서는 쓰기 데이터양 감소를 통해 낸드 플래시 기반 저장장치의 수명향상을 도모할 수 있는 MADE(Min-hash Assisted Delta-compression Engine) 모듈을 제안한다. MADE 모듈은 델타압축기법(delta compression)을 통해 중복되는 데이터 패턴을 최소화하여 실제 낸드 플래시에 인가되는 쓰기 명령 횟수를 획기적으로 줄일 수 있을 뿐만 아니라, 중복제거기법(deduplication) 및 무손실압축기법(lossless compression)의 통합적용과 유사한 효과를 볼 수 있도록 설계되었다. 또한 델타압축기법 과정 중 필요한 참조 페이지 탐색 및 압축 기법을 최적화하여, 저장되는 데이터양을 최대한 줄이는 동시에 부가적인 오버헤드를 최소화 하였다. 시뮬레이션 결과, MADE가 적용된 플래시 변환계층(Flash Transition Layer, FTL)은 실제 낸드 플래시 칩에 저장되는 데이터를 최소 50% 줄일 수 있었으며, 순차적인 중복제거기법과 무손실압축 기법을 단순 통합하여 적용한 경우에 비해 추가적으로 12%의 쓰기 데이터양을 감소시킬 수 있었다.

Min-Max Hash를 활용한 다중 집합 기반의 유사도 측정 (Min-Max Hash for Similarity Measurement based on Multiset)

  • 윤진욱;김병욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.36-39
    • /
    • 2019
  • 데이터 마이닝에서 클러스터링은 서로 유사한 특징을 갖는 데이터들을 동일한 클래스로 분류하는 방법이다. 클러스터링에는 다양한 방법이 존재하지만 대표적으로 집합으로 표현된 데이터들의 유사도를 측정하기 위해서는 자카드 유사도(Jaccard Similarity)를 이용한다. 자카드 유사도는 서로 다른 집합 간의 공통된 부분을 상대적으로 평가하여 유사도를 측정하는 방법이다. 그러나 최근에는 데이터를 저장할 수 있는 기술과 매체의 발전으로 표현할 수 있는 데이터의 영역과 범위는 발전되고 있기 때문에 많은 연산과 시간의 비용이 발생하게 된다. 이를 해결하기 위해서 두 데이터의 표본의 유사도를 통해 실제 데이터들의 유사도를 추정할 수 있는 Min-Hash 가 제안되었다. 본 논문에서는 이를 활용하여 집합의 영역을 다중 집합(Multiset)으로 확장하여 중복되는 값을 가질 수 있는 두 데이터 간의 유사도를 효율적으로 추정할 수 있는 Min-Max Hash 를 제안한다.

클러스터링 기반 협업 필터링 알고리즘을 사용한 분산 추천 시스템 (Distributed Recommendation System Using Clustering-based Collaborative Filtering Algorithm)

  • 조현제;이필규
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권1호
    • /
    • pp.101-107
    • /
    • 2014
  • 본 논문에서는 협업 필터링 알고리즘을 클러스터링 기반으로 분산 환경에서 구현하여, 추천을 위한 수행 시간을 최적화 하는 방법에 대한 제안을 한다. 하둡 기반으로 시스템을 구성하였고, 분산 Min-hash 클러스터링 기반의 협업 필터링 방법을 제안하고, 이를 기반으로 분산 추천 시스템을 구성하였다. 분산 사용자 기반 협업 필터링 기법을 사용하여 무비렌즈 (Movie Lens)의 영화 평점 데이터를 기반으로 각각의 사용자에게 알맞은 영화를 추천해주는 분산추천 시스템을 구현하고 실험을 통하여 성능의 우수성을 검증하였다.

SA 해쉬 알고리즘을 이용한 동일 데이터 업로드 방지 시스템 설계 (Design of System for Avoiding Identical-Data Upload using SA Hash Algorithm)

  • 황성민;석호준;김석규
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2011년도 제44차 하계학술발표논문집 19권2호
    • /
    • pp.17-19
    • /
    • 2011
  • 본 논문은 클라이언트에서 서버로 파일을 전송할 때, 클라이언트가 보내고자 하는 파일이 서버에 동일한 파일로 있다면 업로드를 받지 않고, 서버의 파일을 재사용함으로써 트래픽을 감소시킬 수 있을뿐더러, 스토리지 용량 또한 절약할 수 있는 시스템 설계이다. 본 논문에서 제안하는 해쉬(Hash) 함수 SA를 사용하여 파일에 해쉬 코드를 생성함으로써 다른 해쉬 함수 보다 키 값의 길이가 길어지고 빠른 속도로 해쉬 값을 얻을 수가 있다. SA Hash Algorithm을 통해 얻어진 해쉬 값을 서버로 전송하여 서버에 동일한 파일이 있다면 클라이언트에서 파일을 전송 받지 않고, 서버 내부의 파일을 사용하는 것으로 자원 절감 효과를 낼 수 있다. 서버에서의 파일 관리도 기존의 날짜, 아이디 등 구별 방식이 아닌 SA Hash Algorithm으로 생성된 해쉬 값으로 파일을 관리 할 수 있음으로 파일 관리의 편의성뿐만이 아니라 빠른 속도로 파일을 접근할 수 있다.

  • PDF

SA 해쉬 알고리즘을 이용한 중복파일 업로드 방지 시스템 설계 (Design of System for Avoiding upload of Identical-file using SA Hash Algorithm)

  • 황성민;김석규
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권10호
    • /
    • pp.81-89
    • /
    • 2014
  • 본 논문에서는 서버로의 중복파일을 업로드 방지를 위하여 SA 해쉬 알고리즘을 제안하고 이를 이용하여 서버 시스템을 설계한다. SA 해쉬 값으로 동일한 파일이 서버에 있는 지 검사하고 존재한다면 클라이언트에게 업로드를 받지 않고 기존 파일을 이용하는 방법으로 효율적인 시스템 설계를 할 수 있게 되는 것이다. 중복파일 검사를 할 수 있는 SA 해쉬 알고리즘은 출력하고자 하는 비트 수 n을 한 블록으로 하고 원본 파일을 블록 단위로 나누게 된다. 원본 파일의 mod i 비트와 출력 해쉬 값의 i 비트를 XOR 연산을 하게 된다. 이렇게 반복적으로 원본 파일 길이까지 XOR연산을 하는 것이 SA 해쉬 알고리즘의 메인 루틴이다. 기존 해쉬 함수인 MD5, SHA-1, SHA-2보다 중복파일 업로드 방지 서버 시스템에 적합한 해쉬 함수인 SA 해쉬 알고리즘을 통해 시간 및 서버 스토리지 용량의 절약을 도모할 수 있다.

무선 센서 네트워크 상에서 신뢰기반 Randomized Path-Hash노드 인증 프로토콜 (A Randomized Path-Hash Node Authentication Protocol based on Trust Relationship in Wireless Sensor Networks)

  • 김진환;박선호;정성민;엄정호;정태명
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.849-852
    • /
    • 2006
  • 본 논문은 무선 센서 네트워크 라우팅 프로토콜에서 일어날 수 있는 보안 위협 요소들에 대해 알아보고 상호인증에 관한 문제를 해결할 수 있는 Randomized Path-Hash 노드 인증 프로토콜(RPHAP)을 제안한다. 이 프로토콜은 노드 간 상호인증을 제공하며 센서 추적에 대한 안전성까지 제공한다. 또한 간단한 연산 능력의 Hash를 이용하기 때문에 전력 소모에 대한 오버헤드가 적어 모든 센서 네트워크의 프로토콜에서 활용이 가능한 장점을 갖는다.

  • PDF

국내·국제 해시함수에 대한 양자회로 구현 비교 분석 (Comparative analysis of quantum circuit implementation for domestic and international hash functions)

  • 송경주;송민호;서화정
    • 스마트미디어저널
    • /
    • 제12권2호
    • /
    • pp.83-90
    • /
    • 2023
  • 양자 컴퓨터의 등장은 기존 해시함수 보안에 위협이 되고 있다. 본 논문에서 우리는 국내/국제 해시함수인 LSH, SHA2, SHA3, SM3에 대한 양자회로 구현 결과를 확인하고 비교 분석을 진행하였다. 양자 컴퓨터에서 기존 해시함수를 동작하기 위해서는 양자 회로로 구현되어야 하며 필요한 양자 자원 추정을 통해 양자 보안 강도를 확인할 수 있다. 우리는 각 논문에서 제안한 양자회로 구현 방법 및 양자 자원 추정 결과를 여러 방면에서 비교하고 이를 통해 향후 양자 컴퓨터 보안을 충족하기 위한 방안을 논의하였다.

차세대 블록체인을 위한 VRF 기반의 해시그래프 기법 (A VRF-based Hashgraph Scheme for Next Generation Blockchains)

  • 김민섭;강진영;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.52-55
    • /
    • 2019
  • 최근 여러 블록체인 플랫폼에서 잇따라 51% 공격에 대한 소식이 들려 옴에 따라 새로운 블록체인의 필요성이 부각되고 있다. 그중 Hashgraph 는 기존의 블록체인과 다르게 블록단위가 아닌 이벤트 즉, 블록에 기록되는 트랜잭션 그 자체로 체인이 구성되는 메커니즘을 가지고 있기 때문에 차세대 블록체인으로 대두되고 있다. 그러나 트랜잭션 단위로 Hash 또는 Hash 검증을 수행하기 때문에 연산 량이 기하급수적으로 늘어나며, 검증 또는 합의에 소요되는 시간이 상당하다. 본 논문에서는 이를 해소하기 위해 Verifiable Random Function 을 이용하여, Hash 에 대한 검증 절차와 연산 량을 감소하여 최종적으로 합의에 소요되는 시간을 단축하는 방법에 대해 제시한다.