• Title/Summary/Keyword: 검색 알고리즘

Search Result 1,682, Processing Time 0.023 seconds

A Popularity-driven Cache Management and its Performance Evaluation in Meta-search Engines (메타 검색 엔진을 위한 인기도 기반 캐쉬 관리 및 성능 평가)

  • Hong, Jin-Seon;Lee, Sang-Ho
    • Journal of KIISE:Databases
    • /
    • v.29 no.2
    • /
    • pp.148-157
    • /
    • 2002
  • Caching in meta-search engines can improve the response time of users' request. We describe the cache scheme in our meta-search engine in terms of its architecture and operational flow. In particular, we propose a popularity-driven cache algorithm that utilizes popularities of queries to determine cached data to be purged. The popularity is a value that represents the normalized occurrence frequency of user queries. This paper presents how to collect popular queries and how to calculate query popularities. An empirical performance evaluation of the popularity-driven caching with the traditional schemes (i.e., least recently used (LRU) and least frequently used (LFU)) has been carried out on a collection of real data. In almost all cases, the proposed replacement policy outperforms LRU and LFU.

A Study of Designing the Intelligent Information Retrieval System by Automatic Classification Algorithm (자동분류 알고리즘을 이용한 지능형 정보검색시스템 구축에 관한 연구)

  • Seo, Whee
    • Journal of Korean Library and Information Science Society
    • /
    • v.39 no.4
    • /
    • pp.283-304
    • /
    • 2008
  • This is to develop Intelligent Retrieval System which can automatically present early query's category terms(association terms connected with knowledge structure of relevant terminology) through learning function and it changes searching form automatically and runs it with association terms. For the reason, this theoretical study of Intelligent Automatic Indexing System abstracts expert's index term through learning and clustering algorism about automatic classification, text mining(categorization), and document category representation. It also demonstrates a good capacity in the aspects of expense, time, recall ratio, and precision ratio.

  • PDF

A Study of High Speed Retrieval Algorithm of Long Component Keyword (복합키워드의 고속검색 알고리즘에 관한 연구)

  • Lee Jin-Kwan;Jung Kyu-cheol;Lee Tae-hun;Park Ki-hong
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.8 no.8
    • /
    • pp.1769-1776
    • /
    • 2004
  • Effective keyword extraction is important in the information search system and there are several ways to select proper keyword in many keywords. Among them, DER Structure for AC Algorithm to search single keyword, can search multiple keywords but it has time complexity problem. In this paper, we developed a algorithm, "EDER structure" by expanding standalone search table based on DER structure search method to improve time complexity. We tested the algorithm using 500 text files and found that EDER structure is more efficient than DER structure for AC for keyword posting result and time complexity that 0.2 second for EDER and 0.6 second for DER structure,structure,

Improved Concept-base Search System Using HITS algorithm on Conceptual Graph (HITS알고리즘을 적용한 개념그래프 기반검색시스템의 성능개선)

  • 배환국;박호성;이상준;김기태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.470-472
    • /
    • 2003
  • 본 논문에서는 개념 그래프 기반 검색 시스템의 검색의 성능을 개선시키고자 Hits 알고리즘을 적용하였다. 기존 개념 그래프 기반 검색 시스템의 anchor text분석을 통하여 개념을 추출하고 있는 시스템에서 더 나아가 하이퍼 링크의 선호도의 특성을 살려 하이퍼링크에 문서가 얼마나 연결되어 있는지, 참조하고 있는지에 따라 해당 검색된 문서들의 중요도를 찾아서 순위를 매기는 실험을 하였다. 종래에는 해당 검색어의 빈도순으로 개념의 결과를 나타내 주었는데, 본 시스템 구현 후에 랭킹알고리즘을 적용하여 해당검색에 유용한 정보를 가지고 있는 페이지들(authorities)과 유용한 정보를 보유하고 있는 페이지의 링크를 보유하고 있는 페이지들(hubs)를 각각 순위 순으로 보여주게 되었다. 그리하여 사용자는 실제 검색시에 개념상으로 분류된 문서 중에 중요도가 높은 문서를 사용자에게 우선으로 접하게 되었으며, hub어 의해서 중요도가 높은 문서를 한눈에 볼 수도 있을 뿐 아니라, anchor text 어서 나타나지 않은 중요한 정보를 가진 문서도 검색할 수 있었다.

  • PDF

Design of Efficient P2P Based File Search Algorithm (효율적인 P2P 기반 파일 검색 알고리즘 설계)

  • Baek, Seung-Jae;Ahn, Jin-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.454-456
    • /
    • 2005
  • 최근에 파일 공유 애플리케이션을 개발하는데 있어 클라이언트-서버(client-sewer) 모델의 문제점을 해결하기 위해 피어-투-피어(peer-to-peer) 모델이 각광 받고 있다. 대표적일 P2P 기반 파일 공유 시스템으로 넵스터, 그누텔라등이 있다. 그러나 이 시스템들은 각각 중앙 집중적 제어, 혹은 브로드캐스팅에 의한 과도한 네트워크 트래픽 발생 등 확장성 문제를 발생시킨다. 이런 문제점을 해결하기 위해 울트라피어 및 동적 라우팅 기법을 사용하지만 여전히 rare 파일에 대한 높은 응답시간과 검색의 낮은 신뢰성 문제점들을 해결할 수 없다. 본 논문에서는 popular 파일과 rare 파일에 대한 검색을 구분하여 popular 파일을 기존의 그누텔라 검색 방법을 사용하고 rare 파일 검색을 제안하는 새로운 DHT 알고리즘을 사용하도록 한다. 특히 제안하는 DHT 알고리즘은 기존의 DHT 알고리즘들과 달리 일반 노드가 아닌 울트라피어들만으로 구성함으로서 검색 비용, 노드 조인과 리브 비용, 핑거 테이블의 엔트리 수를 매우 줄임으로서 효과적이고 확장적이라 할 수 있다.

  • PDF

A Study on Machine Learning Algorithm for Intelligent Information Retrieval in World Wide Web (WWW상의 지능형 정보검색을 위한 기계학습 알고리즘 구현에 관한 연구)

  • 김성희
    • Journal of the Korean Society for information Management
    • /
    • v.17 no.2
    • /
    • pp.189-205
    • /
    • 2000
  • We investigate the appropriate design and implementation of an Inductive Learning Alogrithm with a Neural Network in order to solve both inconsistent indexing and incomplete query problems on the web. Specifically, the proposed system based queries and documents in the field of Mathematics shows how inductive learning method and neural networks can apply to information retreival. Also, this study examines all of parameters of the neural networks -- the number of node in input and output, hidden layer size and learning parameters etc. -- which are significant in determining how well the neural network will converge.

  • PDF

An Algorithm for Collection Selection Using Relevance Distribution (관련성 분포 정보를 이용한 정보원 선택 알고리즘)

  • 김현주;김영자;배종민
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.346-348
    • /
    • 2000
  • 본 논문은 통합 검색에서 이질의 정보원으로부터 정보를 검색할 때 주어진 질의에 대해 가장 적합한 정보원 선택에 대한 새로운 알고리즘을 제안한다. 제안된 알고리즘은 질의어와 검색에 참여한 정보원간의 관련성 분포 정보를 사용하였다. 이때 관련성 분포 정보는 질의어와 정보원 사이의 관련성 정도를 말하며, 이에 대한 평가는 질의에 대해 정보원으로부터 임의의 크기 N 만큼 검색 문서를 수집한 후에 이들을 평가하여 추정하였다. 본 논문에서 제안한 관련성 분포 정보는 검색 문서의 재평가 값, 관련 문서의 순서 정보, 정확도 등으로 평가한다. 또한 제안된 알고리즘은 정보원 평가에서 검색 인덱스 정보가 필요 없으며, tf, df, N등의 메타 데이터로만 평가할 수 있는 장점이 있어, 동적인 환경에 적용하기가 매우 쉽다.

  • PDF

BERT Sparse: Keyword-based Document Retrieval using BERT in Real time (BERT Sparse: BERT를 활용한 키워드 기반 실시간 문서 검색)

  • Kim, Youngmin;Lim, Seungyoung;Yu, Inguk;Park, Soyoon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.3-8
    • /
    • 2020
  • 문서 검색은 오래 연구되어 온 자연어 처리의 중요한 분야 중 하나이다. 기존의 키워드 기반 검색 알고리즘 중 하나인 BM25는 성능에 명확한 한계가 있고, 딥러닝을 활용한 의미 기반 검색 알고리즘의 경우 문서가 압축되어 벡터로 변환되는 과정에서 정보의 손실이 생기는 문제가 있다. 이에 우리는 BERT Sparse라는 새로운 문서 검색 모델을 제안한다. BERT Sparse는 쿼리에 포함된 키워드를 활용하여 문서를 매칭하지만, 문서를 인코딩할 때는 BERT를 활용하여 쿼리의 문맥과 의미까지 반영할 수 있도록 고안하여, 기존 키워드 기반 검색 알고리즘의 한계를 극복하고자 하였다. BERT Sparse의 검색 속도는 BM25와 같은 키워드 기반 모델과 유사하여 실시간 서비스가 가능한 수준이며, 성능은 Recall@5 기준 93.87%로, BM25 알고리즘 검색 성능 대비 19% 뛰어나다. 최종적으로 BERT Sparse를 MRC 모델과 결합하여 open domain QA환경에서도 F1 score 81.87%를 얻었다.

  • PDF

Design of Efficient Data Search Function using the Excel VBA DAO (엑셀 VBA DAO 기능을 이용한 효율적인 데이타 검색 기능 설계)

  • Jang, Seung Ju;Ryu, Dae-Hyun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.18 no.1
    • /
    • pp.217-222
    • /
    • 2014
  • In this paper, I propose an efficient data search system using data partitioning algorithm in Microsoft Excel. I propose searching algorithm to retrieve data quickly using VBA functioning in the Excel. This algorithm is to specify the sheet you are looking for. Once the sheet is specified, the algorithm searches the beginning and the end of the data in the sheet. The algorithm compares intermediate values and key words, from the starting position of the cell. In this way, it will search data to the end. This proposed algorithm was implemented and tested in the Excel system using VBA program. The experimental results showed that the performance was better than that of the conventional sequential search method.

Trajectory Search Algorithm for Spatio-temporal Similarity of Moving Objects on Road Network (도로 네트워크에서 이동 객체를 위한 시공간 유사 궤적 검색 알고리즘)

  • Kim, Young-Chang;Vista, Rabindra;Chang, Jae-Woo
    • Journal of Korea Spatial Information System Society
    • /
    • v.9 no.1
    • /
    • pp.59-77
    • /
    • 2007
  • Advances in mobile techknowledges and supporting techniques require an effective representation and analysis of moving objects. Similarity search of moving object trajectories is an active research area in data mining. In this paper, we propose a trajectory search algorithm for spatio-temporal similarity of moving objects on road network. For this, we define spatio-temporal distance between two trajectories of moving objects on road networks, and propose a new method to measure spatio-temporal similarity based on the real road network distance. In addition, we propose a similar trajectory search algorithm that retrieves spatio-temporal similar trajectories in the road network. The algorithm uses a signature file in order to retrieve candidate trajectories efficiently. Finally, we provide performance analysis to show the efficiency of the proposed algorithm.

  • PDF