• 제목/요약/키워드: internet indexing

검색결과 103건 처리시간 0.019초

이미지정보 탐색을 위한 웹 검색엔진의 비교 평가 (Comparison and Evaluation of Web-based Image Search Engines)

  • 김효정
    • 정보관리연구
    • /
    • 제31권4호
    • /
    • pp.50-70
    • /
    • 2000
  • 인터넷으로 접근할 수 정보의 형태가 텍스트는 물론 이미지나 사운드까지 포함되면서 다양한 웹 이미지 검색엔진들이 개발되고 있다. 그러나 이 검색엔진들은 검색 특성과 효율성 면에서 상당한 차이를 보이고 있다. 이에 본 연구에서는 현재 개발된 이미지정보를 탐색하는 검색엔진들의 유형을 살펴보고 이들의 특성과 성능을 비교 평가하여 이용자로 하여금 정보요구에 적합한 이미지 검색엔진을 선택할 수 있도록 하는데 그 목적이 있다. 본 연구의 비교대상 검색엔진으로는 현재 가장 널리 쓰이고 있는 AV Photo Finder, Lycos MultiMedia, Amazing Picture Machina Image Surfer, WebSeek, Ditto를 선정하였다. 먼저 문헌연구를 통해 이미지 검색엔진의 평가기준을 마련하였다. 그리고 마련된 기준에 따라 각 검색엔진들의 데이터베이스 및 색인 방법, 검색 기능, 출력 형태, 이용자 인터페이스를 조사하였고 검색성능을 평가하기 위해 상대적 재현율과 정확률을 측정하였다. 그 결과 AV Photo Finder의 정확률이 가장 높았고 Ditto와 WebSeek의 정확률은 비교적 높은 편이었다. 그리고 Lycos MultiMedia와 Image Surfer의 정확률 값이 그 뒤를 이었으며 Amazing Picture Machine의 정확율이 가장 낮았다.

  • PDF

다중 키워드 검색에 적합한 동등조인 연산 결과의 동적 관리 기법 (Dynamic Management of Equi-Join Results for Multi-Keyword Searches)

  • 임성채
    • 정보처리학회논문지A
    • /
    • 제17A권5호
    • /
    • pp.229-236
    • /
    • 2010
  • 인터넷이나 기업체 안에서 생성되는 문서의 수가 빠르게 증가하고 있고 이에 따라 효율적인 문서 검색 서비스의 중요성도 함께 커지고 있다. 이런 검색 환경에서 사용자의 검색 질의를 미리 예측할 수 없기 때문에 문서 내의 키워드를 자동 추출하여 색인어로 사용하는 전문검색(full-text search)이 일반적으로 적용된다. 전문검색을 위해 생성된 색인 파일의 크기는 문서 수 증가로 대용량화 되고, 이런 대용량 색인에 대한 다중 키워드 질의 처리에는 과도한 디스크 비용이 초래될 수 있다. 논문에서는 이런 비용 문제를 해결하기 위해 대용량 문서의 전문검색 시스템에서 다중 키워드 질의를 효율적으로 처리할 수 있게 하는 색인 파일 구조 및 관리 기법을 제안한다. 제안된 방법은 다중 키워드 검색에 적합한 것으로 알려진 역파일을 기본 색인 구조로 하며, 질의 처리의 조인 연산과 랭킹 연산에 적합하도록 색인 파일을 계층화한다. 이를 바탕으로 다중 키워드 질의를 구성할 확률이 높은 키워드 쌍에 대한 조인 연산 결과를 주기억장치 공간에 동적으로 저장함으로써 디스크 사용량을 크게 줄일 수 있다. 논문에서는 제안된 기법의 우수성을 보이기 위해 디스크 비용 모델에 기반한 성능 비교도 수행한다.

오디세우스/Parallel-OOSQL: 오디세우스 정보검색용 밀결합 DBMS를 사용한 병렬 정보 검색 엔진 (Odysseus/Parallel-OOSQL: A Parallel Search Engine using the Odysseus DBMS Tightly-Coupled with IR Capability)

  • 류재준;황규영;이재길;권혁윤;김이른;허준석;이기훈
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권4호
    • /
    • pp.412-429
    • /
    • 2008
  • 최근 들어 인터넷의 성장으로 인하여 문서의 양이 기하급수적으로 증가함에 따라, 대용량의 문서를 마르게 검색 할 수 있는 병렬 정보 검색 엔진에 대한 중요성이 더욱 대두되고 있다. 병렬 정보 검색 엔진을 구현하기 위하여서는 역 색인을 분할하고, 분할된 역 색인을 통하여 병렬적으로 검색하는 것이 필요하다. 역 색인을 분할하는 기존 방법으로는 1) 문서 식별자 분할 방법과 2) 식별자 분할 방법이 있다. 그러나 각 분할 방법은 다음과 같은 단점들을 가지고 있다. 문서 식별자 분할 방법은 문서의 추가가 용이하고 처리량(throughput)이 높은 반면에 top-k 질의 처리 성능이 좋지 않다. 그리고 식별자 분할 방법은 top-k 질의 처리 성능이 좋은 반면에 문서의 추가가 어렵고 처리량이 낮다. 본 논문에서는 이러한 단점들을 해결하기 위하여 혼합 분할 방법을 제안하고 이를 정보 검색 기능과 밀결합된 DBMS인 오디세우스에 실현한 병렬 정보 검색 엔진을 설계하고 구현한다. 먼저, 제안된 병렬 정보 검색 엔진인 오디세우스/parallel-OOSQL의 아키텍쳐를 설명한다. 그리고 체계적인 실험을 통하여 제안된 시스템의 유용성을 보인다. 실험 결과, 문서 식별자 분할 방법은 질의 처리 시간이 역 색인 분할의 블록의 개수에 근사적으로 역 비례함을 보였으며, 키워드 식별자 분할 방법은 top-k 질의 처리에 좋은 성능을 보였다. 본 논문에서 제안된 병렬 정보 검색 엔진은 세 가지 분할 방법을 모두 제공하기 때문에 응용 환경에 따라 분할 방법을 커스터마이즈함으로써 항상 좋은 성능을 낼 수 있다. 오디세우스/parallel-OOSQL 병렬 정보 검색 엔진은 각 슬레이브 노드 당 1억 건의 웹 문서를, 시스템 전체로는 수십억 건의 웹 문서를 인덱스하여 저장하고 질의를 처리할 수 있다.