• 제목/요약/키워드: Min-hash Clustering

검색결과 4건 처리시간 0.016초

Min-Hash를 이용한 효율적인 대용량 그래프 클러스터링 기법 (An Efficient Large Graph Clustering Technique based on Min-Hash)

  • 이석주;민준기
    • 정보과학회 논문지
    • /
    • 제43권3호
    • /
    • pp.380-388
    • /
    • 2016
  • 그래프 클러스터링은 서로 유사한 특성을 갖는 정점들을 동일한 클러스터로 묶는 기법으로 그래프 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 소셜 네트워크 서비스와 월드 와이드 웹, 텔레폰 네트워크 등의 다양한 응용분야에서 크기가 큰 대용량 그래프 데이터가 생성되고 있다. 이에 따라서 대용량 그래프 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. 본 논문에서는 대용량 그래프 데이터의 클러스터들을 효율적으로 생성하는 클러스터링 알고리즘을 제안한다. 우리의 제안 기법은 그래프 내의 클러스터들 간의 유사도를 Min-Hash를 이용하여 효과적으로 추정하고 계산된 유사도에 따라서 클러스터들을 생성한다. 실세계 데이터를 이용한 실험에서 우리는 본 논문에서 제안하는 기법과 기존 그래프 클러스터링 기법들과 비교하여 제안기법의 효율성을 보였다.

클러스터링 기반 협업 필터링 알고리즘을 사용한 분산 추천 시스템 (Distributed Recommendation System Using Clustering-based Collaborative Filtering Algorithm)

  • 조현제;이필규
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권1호
    • /
    • pp.101-107
    • /
    • 2014
  • 본 논문에서는 협업 필터링 알고리즘을 클러스터링 기반으로 분산 환경에서 구현하여, 추천을 위한 수행 시간을 최적화 하는 방법에 대한 제안을 한다. 하둡 기반으로 시스템을 구성하였고, 분산 Min-hash 클러스터링 기반의 협업 필터링 방법을 제안하고, 이를 기반으로 분산 추천 시스템을 구성하였다. 분산 사용자 기반 협업 필터링 기법을 사용하여 무비렌즈 (Movie Lens)의 영화 평점 데이터를 기반으로 각각의 사용자에게 알맞은 영화를 추천해주는 분산추천 시스템을 구현하고 실험을 통하여 성능의 우수성을 검증하였다.

Similarity measurement based on Min-Hash for Preserving Privacy

  • Cha, Hyun-Jong;Yang, Ho-Kyung;Song, You-Jin
    • International Journal of Advanced Culture Technology
    • /
    • 제10권2호
    • /
    • pp.240-245
    • /
    • 2022
  • Because of the importance of the information, encryption algorithms are heavily used. Raw data is encrypted and secure, but problems arise when the key for decryption is exposed. In particular, large-scale Internet sites such as Facebook and Amazon suffer serious damage when user data is exposed. Recently, research into a new fourth-generation encryption technology that can protect user-related data without the use of a key required for encryption is attracting attention. Also, data clustering technology using encryption is attracting attention. In this paper, we try to reduce key exposure by using homomorphic encryption. In addition, we want to maintain privacy through similarity measurement. Additionally, holistic similarity measurements are time-consuming and expensive as the data size and scope increases. Therefore, Min-Hash has been studied to efficiently estimate the similarity between two signatures Methods of measuring similarity that have been studied in the past are time-consuming and expensive as the size and area of data increases. However, Min-Hash allowed us to efficiently infer the similarity between the two sets. Min-Hash is widely used for anti-plagiarism, graph and image analysis, and genetic analysis. Therefore, this paper reports privacy using homomorphic encryption and presents a model for efficient similarity measurement using Min-Hash.

다단계 중복 제거 기법을 이용한 클러스터 기반 파일 백업 서버 (A Clustering File Backup Server Using Multi-level De-duplication)

  • 고영웅;정호민;김진
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권7호
    • /
    • pp.657-668
    • /
    • 2008
  • 기존의 상용 저장 시스템은 데이타를 저장할 때 몇 가지 문제점을 가지고 있다. 먼저, 데이타를 저장함에 있어서 실용적인 중복제거 기법이 널리 활용되고 있지 못하기 때문에 저장 장치 낭비를 초래하고 있다. 또한 대규모 데이타 입출력을 처리하기 위해서 고사양의 시스템을 요구한다는 부분도 문제점으로 지적할 수 있다. 이와 같은 문제를 해결하기 위해서 본 논문에서는 블록 수준에서의 중복을 제거하기 위한 방안으로 파일 지문을 이용한 클러스터링 기반 저장 시스템을 제안하고 있다. 본 연구는 기존의 저장 시스템과 몇 가지 부분에서 차이를 보인다. 먼저, 파일 블록의 지문을 이용한 다단계 중복 제거 기법을 통하여 불필요한 데이타에 대한 저장 용량을 효과적으로 줄일 수 있었다. 또한 입출력 시스템 부분에서는 클러스터링 기법을 적용함으로써 데이타 전송 및 입출력 시간을 효과적으로 감소시켰다. 본 논문에서는 제안된 방법을 검증하기 위해서 몇 가지 실험을 수행하였으며, 실험 결과 저장 공간과 입출력 성능이 크게 개선되었음을 보였다.