• 제목/요약/키워드: search similarity

검색결과 530건 처리시간 0.032초

Locality-Sensitive Hashing Techniques for Nearest Neighbor Search

  • Lee, Keon Myung
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제12권4호
    • /
    • pp.300-307
    • /
    • 2012
  • When the volume of data grows big, some simple tasks could become a significant concern. Nearest neighbor search is such a task which finds from a data set the k nearest data points to queries. Locality-sensitive hashing techniques have been developed for approximate but fast nearest neighbor search. This paper introduces the notion of locality-sensitive hashing and surveys the locality-sensitive hashing techniques. It categories them based on several criteria, presents their characteristics, and compares their performance.

정확도가 향상된 안전한 Top-k 검색 기반 서비스형 블록체인과 스마트 컨트랙트 설계 (Design Blockchain as a Service and Smart Contract with Secure Top-k Search that Improved Accuracy)

  • 장호빈;천지영;정익래;노건태
    • 인터넷정보학회논문지
    • /
    • 제24권5호
    • /
    • pp.85-96
    • /
    • 2023
  • 클라우드 컴퓨팅 기술 발전과 함께 이커머스, 금융 기업 등 다양한 영역에서 클라우스 서비스 제공자의 서비스형 블록체인을 활용하여 고객 이력 관리, 유통 이력 관리 등을 진행하고 있다. 하지만 추천 알고리즘, 검색 엔진 개발 등의 영역에서 사용자의 검색 이력, 구매 이력 등을 서비스형 블록체인에 활용하고자 하는 경우, 사용자의 검색 쿼리는 서비스형 블록체인을 운영하는 기업에 노출되며, 이에 대한 프라이버시 문제가 야기될 수 있다. Z. Guan 등의 연구는 컨소시엄 블록체인 환경에서 검색 가능 암호를 활용하여 사용자의 검색 쿼리와 검색 결과 간의 비연결성을 보장하며, 내적 유사도를 기반으로 사용자의 검색 쿼리와 관련성이 높은 Top-k 결과를 선정한다. 하지만 내적 유사도의 동점에 의해 Top-k 결과 중 일부가 선정 불가능한 문제점이 존재하며, 클라우드 기반의 서비스형 블록체인 환경은 고려되지 않았다. 따라서 본 논문은 코사인 유사도를 활용하여 Z. Guan 등 연구의 문제점을 해결하여 검색 결과의 정확도를 향상한다. 그리고 이를 바탕으로 정확도가 향상된 안전한 Top-k 검색 기반 서비스형 블록체인 설계 및 프라이버시를 보호하며 사용자의 검색과 관련성이 높은 Top-k 검색 결과를 얻을 수 있는 스마트 컨트랙트를 설계한다.

주파수 재할당 문제 해결을 위한 타부 서치 알고리듬 개발 (Tabu Search Algorithm for Frequency Reassignment Problem in Mobile Communication Networks)

  • 한정희
    • 대한산업공학회지
    • /
    • 제31권1호
    • /
    • pp.1-9
    • /
    • 2005
  • This paper proposes the heuristic algorithm for the generalized GT problems to consider the restrictions which are given the number of machine cell and maximum number of machines in machine cell as well as minimum number of machines in machine cell. This approach is split into two phase. In the first phase, we use the similarity coefficient which proposes and calculates the similarity values about each pair of all machines and sort these values descending order. If we have a machine pair which has the largest similarity coefficient and adheres strictly to the constraint about birds of a different feather (BODF) in a machine cell, then we assign the machine to the machine cell. In the second phase, we assign parts into machine cell with the smallest number of exceptional elements. The results give a machine-part grouping. The proposed algorithm is compared to the Modified p-median model for machine-part grouping.

누적 히스토그램을 이용한 3차원 물체의 부재 검색 (3D partial object retrieval using cumulative histogram)

  • 은성종;현대환;이기정;황보택근
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.669-672
    • /
    • 2009
  • 제안된 방법은 3차원 모델로부터 형상 기술자를 추출하고, 형상의 유사성을 비교하기 위해 특징 기술자를 이용한다. 대부분의 검색 방법들은 데이터베이스에서 개별적인 3차원 모델의 비교와 검색에 중점이 되어있지만, 본 유사성 검색 방법은 형상 유사성을 이용하여 3차원 물체의 부재 비교와 검색에 초점이 맞추었다. 물체의 부재 유사성 검색 방법은 3차원 모델들의 유사한 부분을 찾는 것과 유사한 부분을 포함하는 3차원 모델을 찾는 것으로 확장된다. 성능 평가를 위한 실험에서 유사한 3차원 석탑 모델의 부재를 효과적으로 검색하였다.

  • PDF

콘텐트 노드의 유사성 제어를 통한 그래프 구조 데이터 검색의 다양성 향상 (Improving Diversity of Keyword Search on Graph-structured Data by Controlling Similarity of Content Nodes)

  • 박창섭
    • 한국콘텐츠학회논문지
    • /
    • 제20권3호
    • /
    • pp.18-30
    • /
    • 2020
  • 최근 소셜 네트워크, 시맨틱 웹 등 여러 분야에서 그래프 구조 데이터가 널리 사용됨에 따라 대량의 그래프 데이터에 대한 효과적이고 효율적인 검색 방법의 필요성이 커지고 있다. 기존 키워드 기반 검색 방법들은 대부분 주어진 질의에 대한 연관도만을 고려하여 결과를 구한다. 그러나 이런 방법은 질의 연관도는 높지만 콘텐트 노드들을 공유하는 유사한 결과들이 함께 선택될 가능성이 높다. 이런 문제점을 개선하기 위해 본 논문에서는 키워드 질의에 대한 답 트리에 포함된 콘텐트 노드들의 유사성을 제어하여 콘텐트 노드가 다양한 답 트리들을 구하는 top-k 검색 방법을 제안한다. 다양한 답 트리 집합의 기준을 정의하고, 다양한 top-k 결과 집합을 구하기 위한 두 가지 방법으로 점진적 나열 알고리즘과 A 탐색 기법을 이용한 휴리스틱 탐색 알고리즘을 설계한다. 또 휴리스틱 탐색의 성능을 높이기 위한 개선 방법을 제시한다. 실 데이터를 이용한 성능 실험 결과를 통해, 본 논문에서 제안한 휴리스틱 탐색 방법이 질의 연관성뿐만 아니라 콘텐트 노드들의 상이도가 높은 다양한 답 트리들을 효율적으로 구할 수 있음을 보인다.

Development of the Recommender System of Arabic Books Based on the Content Similarity

  • Alotaibi, Shaykhah Hajed;Khan, Muhammad Badruddin
    • International Journal of Computer Science & Network Security
    • /
    • 제22권8호
    • /
    • pp.175-186
    • /
    • 2022
  • This research article develops an Arabic books' recommendation system, which is based on the content similarity that assists users to search for the right book and predict the appropriate and suitable books pertaining to their literary style. In fact, the system directs its users toward books, which can meet their needs from a large dataset of Information. Further, this system makes its predictions based on a set of data that is gathered from different books and converts it to vectors by using the TF-IDF system. After that, the recommendation algorithms such as the cosine similarity, the sequence matcher similarity, and the semantic similarity aggregate data to produce an efficient and effective recommendation. This approach is advantageous in recommending previously unrated books to users with unique interests. It is found to be proven from the obtained results that the results of the cosine similarity of the full content of books, the results of the sequence matcher similarity of Arabic titles of the books, and the results of the semantic similarity of English titles of the books are the best obtained results, and extremely close to the average of the result related to the human assigned/annotated similarity. Flask web application is developed with a simple interface to show the recommended Arabic books by using cosine similarity, sequence matcher similarity, and semantic similarity algorithms with all experiments that are conducted.

과제 유사도 측정 개선모형에 관한 실증적 연구 (An Empirical Study on Improvement model for Measuring of Project Similarity)

  • 정옥남;류성열;김종배
    • 디지털콘텐츠학회 논문지
    • /
    • 제12권4호
    • /
    • pp.457-465
    • /
    • 2011
  • 지난 5년간 우리나라 R&D투자는 연평균 12.2%씩 증가하고 있다. 연구개발 중복 투자 방지와 독창성 도출을 위해서는 유사 중복과제 수행의 사전방지가 필요하고, 이를 위해 과제 유사도의 정확도를 개선할 필요가 있다. 본 논문에서는 유사 중복과제 수행의 사전방지를 위한 과제 유사도 측정 개선모형을 제안한다. 과제 유사도 측정 개선모형은 크게 두 단계로 정의된다. 먼저 추출단계에서 Document Vector를 기반으로 한 검색엔진에 연구보고서 초록을 추가한다. 다음은 분석단계에서 과제 키워드에서 복합 키워드 중심으로 생성한 과제의 연구주제망과 항목별 가중치를 활용하여 유사도를 측정한다. 실험결과 과제정보만을 활용한 기존방식보다 연구보고서 초록을 활용한 개선모형의 유사도가 평균 0.19이상 개선되었고, 단순키워드를 활용한 기존방식보다 복합 키워드 기반의 연구주제망과 항목별 가중치를 활용한 개선모형의 유사도가 평균 9.25이상 감소되었다. 연구보고서 초록이 유사도에 영향을 미치고 있고, 복합 키워드 기반의 연구주제망을 활용함으로써 유사도에 대한 정확도를 판단할 수 있는 범위가 확대되는 것을 확인하였다. 또한, 추가된 사항의 폭이 넓으면 넓을수록 유사도의 정확도가 높아지는 것과 과제정보 등 검색대상의 모집단이 클수록 과제 유사도의 정확도가 높아지는 것도 실험을 통해 확인하였다.

커버곡 검색을 위한 크로마 n-gram 선택에 관한 연구 (An investigation of chroma n-gram selection for cover song search)

  • 서진수;김정현;박지현
    • 한국음향학회지
    • /
    • 제36권6호
    • /
    • pp.436-441
    • /
    • 2017
  • 음악 유사도 계산은 음악 검색 시스템 구현에 있어서 필수적인 구성 요소이다. 본 논문은 음악 검색 중에서 커버곡 검색에 대해서 다룬다. 크로마 n-gram을 이용한 커버곡 검색에 있어서 특징 DB 저장 공간을 줄이고 성능을 향상시키기 위해서 t-tab n-gram을 제안하고, n-gram 선택 방법, n-gram 집합 간 비교 방법에 관해서 연구하였다. 공개되어 있는 커버곡 데이터셋에서 실험을 수행하여 제안된 방법이 저장 공간을 줄이면서 동시에 커버곡 검색 성능을 향상시킬 수 있음을 보였다.

비트맵 필터를 이용한 효율적인 역 리스트 탐색 기법 (Efficient Inverted List Search Technique using Bitmap Filters)

  • 권인택;김종익
    • 정보처리학회논문지D
    • /
    • 제18D권6호
    • /
    • pp.415-422
    • /
    • 2011
  • 텍스트 데이터는 표현 방식의 차이, 타이핑 오류 등을 포함하고 있어 정확히 일치하는 검색으로는 유용한 정보를 얻기 어렵다. 따라서 유사도 기반 검색 방법이 많이 연구되고 있으며 효율적인 유사도 기반 검색을 위해 텍스트 데이터에 대한 역 리스트를 구성한다. 그리고 이를 병합하여 질의와 일정 기준 이상 유사한 데이터를 찾는다. 본 논문에서는 Suffix 필터링 과정에서 역 리스트의 탐색 비용을 줄이기 위해 역 리스트의 통계 정보인 비트맵 필터를 사용하는 기법을 제안한다. 제안하는 기법은 비트맵 필터를 사용하여 Suffix 필터링 과정에서 역 리스트의 탐색 여부를 결정하여 불필요한 역 리스트 탐색을 회피함으로써 역 리스트 병합 비용을 줄인다. 실험을 통하여 제안된 기법이 기존의 연구에서 제안된 Suffix 필터링 알고리즘보다 더 효율적임을 보인다.

딥러닝을 이용한 법률 분야 한국어 의미 유사판단에 관한 연구 (Deep Learning Based Semantic Similarity for Korean Legal Field)

  • 김성원;박광렬
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권2호
    • /
    • pp.93-100
    • /
    • 2022
  • 기존의 데이터 검색 방법으로는 키워드 중심의 검색 방법이 주로 사용되나, 이는 전문적인 용어가 많이 쓰이는 법률 분야의 검색 방법으로는 적합하지 않다. 이에 대해 본 논문에서는 법률 분야의 효과적인 데이터 검색 방안을 제안한다. 법률 도메인의 자연어처리 분야에서 문장 간의 유사성을 판단하는 데 최적화된 임베딩 방법에 관하여 서술한다. 법률문장을 TF-IDF를 이용하여 키워드 기반으로 임베딩하거나 Universal Sentence Encoder를 이용하여 의미 기반으로 임베딩을 한 후, BERT모델을 결합하여 법률 분야에서 문장 간 유사성을 검사하여 데이터를 검색하는 최적의 방안을 제안한다.