• 제목/요약/키워드: Top-k 검색

검색결과 86건 처리시간 0.028초

정확도가 향상된 안전한 Top-k 검색 기반 서비스형 블록체인과 스마트 컨트랙트 설계 (Design Blockchain as a Service and Smart Contract with Secure Top-k Search that Improved Accuracy)

  • 장호빈;천지영;정익래;노건태
    • 인터넷정보학회논문지
    • /
    • 제24권5호
    • /
    • pp.85-96
    • /
    • 2023
  • 클라우드 컴퓨팅 기술 발전과 함께 이커머스, 금융 기업 등 다양한 영역에서 클라우스 서비스 제공자의 서비스형 블록체인을 활용하여 고객 이력 관리, 유통 이력 관리 등을 진행하고 있다. 하지만 추천 알고리즘, 검색 엔진 개발 등의 영역에서 사용자의 검색 이력, 구매 이력 등을 서비스형 블록체인에 활용하고자 하는 경우, 사용자의 검색 쿼리는 서비스형 블록체인을 운영하는 기업에 노출되며, 이에 대한 프라이버시 문제가 야기될 수 있다. Z. Guan 등의 연구는 컨소시엄 블록체인 환경에서 검색 가능 암호를 활용하여 사용자의 검색 쿼리와 검색 결과 간의 비연결성을 보장하며, 내적 유사도를 기반으로 사용자의 검색 쿼리와 관련성이 높은 Top-k 결과를 선정한다. 하지만 내적 유사도의 동점에 의해 Top-k 결과 중 일부가 선정 불가능한 문제점이 존재하며, 클라우드 기반의 서비스형 블록체인 환경은 고려되지 않았다. 따라서 본 논문은 코사인 유사도를 활용하여 Z. Guan 등 연구의 문제점을 해결하여 검색 결과의 정확도를 향상한다. 그리고 이를 바탕으로 정확도가 향상된 안전한 Top-k 검색 기반 서비스형 블록체인 설계 및 프라이버시를 보호하며 사용자의 검색과 관련성이 높은 Top-k 검색 결과를 얻을 수 있는 스마트 컨트랙트를 설계한다.

Reverse Top-k 질의 처리 방법 비교 및 문제점 분석 (A Comparison and Study among Reverse Top-k Query Methods)

  • 임선영;박영호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1162-1164
    • /
    • 2013
  • Top-k 질의 처리가 사용자가 원하는 데이터를 검색하는 방법인 반면에, Reverse Top-k 질의 처리는 데이터의 관점에서 특정 데이터를 가장 선호할 만한 사용자를 검색하는 방법으로 생산자의 입장에서 매우 중요한 연구이다. 본 논문에서는 Reverse Top-k 질의 처리 방법들을 소개하고 비교 및 문제점을 분석한다.

시맨틱 RDF 데이터에 대한 효과적인 키워드 검색 (Effective Keyword Search on Semantic RDF Data)

  • 박창섭
    • 한국콘텐츠학회논문지
    • /
    • 제17권11호
    • /
    • pp.209-220
    • /
    • 2017
  • 최근 지식 베이스, 시맨틱 웹 등 여러 응용 분야에서 시맨틱 데이터의 활용이 증가함에 따라 대규모 RDF 데이터에 대한 효과적인 검색 방법의 필요성이 커지고 있다. 기존의 개별 루트 시맨틱에 기반한 키워드 검색 방법들은 서로 다른 루트 노드를 갖는 결과 트리들의 집합만을 검색함에 따라, 의미적으로 유사하거나 연관성이 낮은 결과 트리들이 함께 검색되고, 동일한 루트 노드를 공유하되 의미적으로 다르고 질의 연관도가 높은 결과들은 함께 검색될 수 없는 문제점이 있다. 이를 개선하기 위해 본 논문에서는 결과 트리들의 루트 노드의 중복을 제한적으로 허용하여 질의 연관도가 높으면서 다양한 결과들을 함께 검색하는 방법을 제안한다. 이를 위해 결과 트리 집합의 루트 중복도 척도를 정의하고, 주어진 키워드 질의와 최대 루트 중복도에 따라 제한적인 루트 중복성을 가지면서 연관도가 높은 top-k 결과 트리들을 효율적으로 구하기 위한 검색 알고리즘을 제시한다. 실 데이터를 이용한 성능 실험 결과, 제안한 방법이 기존 방법보다 콘텐트 노드들의 중복이 적은 다양한 결과 트리들을 검색할 뿐만 아니라 결과 트리들의 루트 노드의 중복을 허용함으로써 질의 연관도가 더 높은 결과들을 생성할 수 있음을 보였다.

콘텐트 노드의 유사성 제어를 통한 그래프 구조 데이터 검색의 다양성 향상 (Improving Diversity of Keyword Search on Graph-structured Data by Controlling Similarity of Content Nodes)

  • 박창섭
    • 한국콘텐츠학회논문지
    • /
    • 제20권3호
    • /
    • pp.18-30
    • /
    • 2020
  • 최근 소셜 네트워크, 시맨틱 웹 등 여러 분야에서 그래프 구조 데이터가 널리 사용됨에 따라 대량의 그래프 데이터에 대한 효과적이고 효율적인 검색 방법의 필요성이 커지고 있다. 기존 키워드 기반 검색 방법들은 대부분 주어진 질의에 대한 연관도만을 고려하여 결과를 구한다. 그러나 이런 방법은 질의 연관도는 높지만 콘텐트 노드들을 공유하는 유사한 결과들이 함께 선택될 가능성이 높다. 이런 문제점을 개선하기 위해 본 논문에서는 키워드 질의에 대한 답 트리에 포함된 콘텐트 노드들의 유사성을 제어하여 콘텐트 노드가 다양한 답 트리들을 구하는 top-k 검색 방법을 제안한다. 다양한 답 트리 집합의 기준을 정의하고, 다양한 top-k 결과 집합을 구하기 위한 두 가지 방법으로 점진적 나열 알고리즘과 A 탐색 기법을 이용한 휴리스틱 탐색 알고리즘을 설계한다. 또 휴리스틱 탐색의 성능을 높이기 위한 개선 방법을 제시한다. 실 데이터를 이용한 성능 실험 결과를 통해, 본 논문에서 제안한 휴리스틱 탐색 방법이 질의 연관성뿐만 아니라 콘텐트 노드들의 상이도가 높은 다양한 답 트리들을 효율적으로 구할 수 있음을 보인다.

List 기반의 접근법을 사용하는 Top-k 질의 처리 연구 (A Study on Top-k Query Processing using List-based Approach)

  • 임선영;박영호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1249-1252
    • /
    • 2011
  • 최근 인터넷의 발달과 사용량의 증가로 데이터의 양이 급증하고 있다. 사용자들은 빠른 시간 내에 원하는 검색 결과를 얻기를 원한다. 또한 사용자 마다 모두 다른 선호도를 가지기 때문에 사용자 질의에 기반 하여 검색되어야 한다. 따라서 본 논문에서는 사용자 질의에 따라 빠른 시간 내에 효율적으로 List 기반의 접근법을 사용하여 top k 질의를 하는 기존의 연구를 소개 및 분석하고 문제점을 파악한다.

코사인 유사도 기법을 이용한 top-k 관련쌍 검색 방법 조사 (Survey on Top-k Related Pair Search Method Using Cosine Similarity)

  • 김성철;김정환;김나영;김태훈;유환조
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.808-809
    • /
    • 2017
  • 유사도 검색은 전통적으로 데이터베이스 그리고 웹검색 분야의 핵심이었으나, 대용량 데이터의 등장으로 검색의 정확도뿐만이 아니라 효율성 측면에서의 요구가 증가하며 여전히 다양한 분야에서 활발히 연구되고 있다. 아이템간의 유사도를 측정하기 위한 방법론 중 코사인 유사도 방법론은 고차원공간에서의 활용이 유리하다는 이점 때문에 가장 널리 활용되고 있는 방법론으로, 정보검색, 장바구니 분석, 생물정보학 등 다양한 분야에서 활용되고 있다. 본 논문에서는 코사인 유사도를 소개하고, 연관성 분석 측면에서 코사인 유사도를 사용한 기존의 연구들을 소개한다.

그래프 데이터에 대한 비-중복적 키워드 검색 방법 (A Method for Non-redundant Keyword Search over Graph Data)

  • 박창섭
    • 한국콘텐츠학회논문지
    • /
    • 제16권6호
    • /
    • pp.205-214
    • /
    • 2016
  • 최근 소셜 네트워크, 시맨틱 웹, 바이오 인포매틱스 등 여러 응용 분야에서 그래프 구조를 갖는 대용량 데이터들에 활용됨에 따라 이런 데이터들에 대한 키워드 기반 검색 방법이 많은 관심을 받고 있다. 본 논문에서는 그래프 구조 데이터에 대한 키워드 질의에 대해 질의와 연관성이 높으면서 구조적인 중복성을 갖지 않는 top-k 결과 집합을 효율적으로 검색하는 방법을 제안한다. 키워드 질의에 대한 비-중복적인 결과 트리 구조와 그것의 연관도 척도를 정의하고, 그래프 내에 포함된 유용한 경로 정보들에 대한 효과적인 인덱싱 방법을 제안한다. 그리고 기 생성된 인덱스를 활용하여 주어진 키워드 질의에 대해 비-중복적이면서 연관도가 큰 top-k 결과 집합을 생성하는 효율적인 질의 처리 알고리즘을 제시한다. 실 데이터를 이용한 실험을 통해 제안한 방법의 효과와 성능을 기존 방법과 비교 분석한다.

신약 발견을 위한 top-K 검색 엔진의 개발 (Development of a top-K search engine for drug discovery)

  • 서인;이승민;무하메드 이자즈 아메드;채송이
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.810-811
    • /
    • 2017
  • 신약 개발은 고부가가치를 창출하는 차세대 전략 산업으로 주목받고 있지만, 동물 실험과 임상 시험에 막대한 비용이 필요한 고위험-초고소득(high risk-super high return) 산업이다. 따라서 신약 후보군의 선정이 매우 중요하며 약물 유사도를 랭킹함수를 사용하는 top-k 질의 처리를 통해 후보군을 효과적으로 선정할 수 있다. 본 논문에서는 ChEMBL 데이터베이스[4]에 존재하는 화합물들 중 사용자가 원하는 특성을 갖는 k개의 화합물들을 후보군으로 추천해주는 검색 엔진을 개발하였다.

Convex hull을 사용하는 Top-k 질의처리 방법에 관한 분석 (An Survey on Top-k Query Processing using Convex Hulls)

  • 이지현;박영호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1073-1074
    • /
    • 2012
  • 최근 인터넷의 발달과 사용량의 증가로 데이터의 양이 급증함에 따라 대용량 데이터를 효율적으로 검색하는 top k 질의 처리가 중요시 되고 있다. Layer 기반 방법은 가장 잘 알려진 top k 질의처리 방법이며, 객체의 모든 속성의 값들을 이용하여 객체들을 layer들의 리스트로 구성하는 방법이다. 본 논문에서는 그 중에서 convex hull을 사용하여 layer list를 생성하는 기존 연구를 조사하고 문제점을 파악한다.

오디세우스/Parallel-OOSQL: 오디세우스 정보검색용 밀결합 DBMS를 사용한 병렬 정보 검색 엔진 (Odysseus/Parallel-OOSQL: A Parallel Search Engine using the Odysseus DBMS Tightly-Coupled with IR Capability)

  • 류재준;황규영;이재길;권혁윤;김이른;허준석;이기훈
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권4호
    • /
    • pp.412-429
    • /
    • 2008
  • 최근 들어 인터넷의 성장으로 인하여 문서의 양이 기하급수적으로 증가함에 따라, 대용량의 문서를 마르게 검색 할 수 있는 병렬 정보 검색 엔진에 대한 중요성이 더욱 대두되고 있다. 병렬 정보 검색 엔진을 구현하기 위하여서는 역 색인을 분할하고, 분할된 역 색인을 통하여 병렬적으로 검색하는 것이 필요하다. 역 색인을 분할하는 기존 방법으로는 1) 문서 식별자 분할 방법과 2) 식별자 분할 방법이 있다. 그러나 각 분할 방법은 다음과 같은 단점들을 가지고 있다. 문서 식별자 분할 방법은 문서의 추가가 용이하고 처리량(throughput)이 높은 반면에 top-k 질의 처리 성능이 좋지 않다. 그리고 식별자 분할 방법은 top-k 질의 처리 성능이 좋은 반면에 문서의 추가가 어렵고 처리량이 낮다. 본 논문에서는 이러한 단점들을 해결하기 위하여 혼합 분할 방법을 제안하고 이를 정보 검색 기능과 밀결합된 DBMS인 오디세우스에 실현한 병렬 정보 검색 엔진을 설계하고 구현한다. 먼저, 제안된 병렬 정보 검색 엔진인 오디세우스/parallel-OOSQL의 아키텍쳐를 설명한다. 그리고 체계적인 실험을 통하여 제안된 시스템의 유용성을 보인다. 실험 결과, 문서 식별자 분할 방법은 질의 처리 시간이 역 색인 분할의 블록의 개수에 근사적으로 역 비례함을 보였으며, 키워드 식별자 분할 방법은 top-k 질의 처리에 좋은 성능을 보였다. 본 논문에서 제안된 병렬 정보 검색 엔진은 세 가지 분할 방법을 모두 제공하기 때문에 응용 환경에 따라 분할 방법을 커스터마이즈함으로써 항상 좋은 성능을 낼 수 있다. 오디세우스/parallel-OOSQL 병렬 정보 검색 엔진은 각 슬레이브 노드 당 1억 건의 웹 문서를, 시스템 전체로는 수십억 건의 웹 문서를 인덱스하여 저장하고 질의를 처리할 수 있다.