• 제목/요약/키워드: Web Queries

검색결과 226건 처리시간 0.028초

계층적 캐시 기법을 이용한 대용량 웹 검색 질의 처리 시스템의 구현 (Implementation of a Large-scale Web Query Processing System Using the Multi-level Cache Scheme)

  • 임성채
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권7호
    • /
    • pp.669-679
    • /
    • 2008
  • 웹을 이용한 정보 공개 및 검색이 확대됨에 따라 웹 검색 엔진도 지속적인 주목을 받고 있다. 이에 따라 웹 검색 엔진의 다양한 기술적 문제를 해결하고자 하는 연구가 있었음에도 웹 검색 엔진의 질의 처리 시스템에 대한 기술적 내용은 잘 다뤄지지 않았다. 질의 처리 시스템의 경우 소프트웨어 아키텍처나 운영 기법을 고안하기 어렵기 때문에 본 논문에서는 구현된 상용 시스템을 바탕으로 관련 기술을 소개하고자 한다. 구현된 질의 처리 시스템은 6,500 만개 웹 문서를 색인하여 일 500만개 이상의 사용자 질의 요청을 수행하는 큰 규모의 시스템이다. 구현한 시스템은 질의 처리 결과를 재사용하기 위해 계층적 캐시 기법을 적용했으며, 저장된 캐시 데이타는 4계층으로 구성된 데이타 저장소에 분산 저장되는 것이 특징이다. 계층적 캐시 기법을 통해 질의 처리 용량을 400% 정도로 향상 시킬 수 있었으며 이를 통해 서버 구축비용을 70% 정도 절감할 수 있었다.

다중 키워드 검색에 적합한 동등조인 연산 결과의 동적 관리 기법 (Dynamic Management of Equi-Join Results for Multi-Keyword Searches)

  • 임성채
    • 정보처리학회논문지A
    • /
    • 제17A권5호
    • /
    • pp.229-236
    • /
    • 2010
  • 인터넷이나 기업체 안에서 생성되는 문서의 수가 빠르게 증가하고 있고 이에 따라 효율적인 문서 검색 서비스의 중요성도 함께 커지고 있다. 이런 검색 환경에서 사용자의 검색 질의를 미리 예측할 수 없기 때문에 문서 내의 키워드를 자동 추출하여 색인어로 사용하는 전문검색(full-text search)이 일반적으로 적용된다. 전문검색을 위해 생성된 색인 파일의 크기는 문서 수 증가로 대용량화 되고, 이런 대용량 색인에 대한 다중 키워드 질의 처리에는 과도한 디스크 비용이 초래될 수 있다. 논문에서는 이런 비용 문제를 해결하기 위해 대용량 문서의 전문검색 시스템에서 다중 키워드 질의를 효율적으로 처리할 수 있게 하는 색인 파일 구조 및 관리 기법을 제안한다. 제안된 방법은 다중 키워드 검색에 적합한 것으로 알려진 역파일을 기본 색인 구조로 하며, 질의 처리의 조인 연산과 랭킹 연산에 적합하도록 색인 파일을 계층화한다. 이를 바탕으로 다중 키워드 질의를 구성할 확률이 높은 키워드 쌍에 대한 조인 연산 결과를 주기억장치 공간에 동적으로 저장함으로써 디스크 사용량을 크게 줄일 수 있다. 논문에서는 제안된 기법의 우수성을 보이기 위해 디스크 비용 모델에 기반한 성능 비교도 수행한다.

관계형 데이터베이스로부터 OWL 온톨로지를 추출하기 위한 SPARQL-DL 프로세서 (SPARQL-DL Processor to Extract OWL Ontologies from Relational Databases)

  • 최지웅;김명호
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권3호
    • /
    • pp.29-45
    • /
    • 2015
  • 본 논문에서는 RDB로부터 가상적 변환에 의해 생성되는 OWL 온톨로지의 질의 응답을 위하여 OWL을 위한 질의어인 SPARQL-DL의 구현 방법을 제안한다. 제안하는 SPARQL-DL 프로세서는 입력된 SPARQL-DL 질의문을 내부에서 SQL 질의문으로 변환하여 실행시킨다. 이러한 질의 처리 방식은 두 가지의 장점이 있다. 첫째, RDB로부터 생성된 OWL 온톨로지를 저장하기 위한 별도의 저장소가 요구되지 않는다. 둘째, 대용량 ABox 추론에 문제점을 나타내는 Tableau 알고리즘 기반의 추론기의 사용 없이도 RDB 인스턴스로부터 생성된 대용량 ABox가 서비스 될 수 있다. 본 논문의 SPARQL-DL 질의문으로부터 SQL 질의문을 생성하는 알고리즘은 RDB와의 연결 수립에 따른 오버헤드를 최소화하기 위하여 입력된 하나의 SPARQL-DL 질의문이 하나의 SQL 질의문으로 변환되도록 설계되어있다.

모양 기반의 식물 잎 이미지 검색 시스템 (Shape-Based Leaf Image Retrieval System)

  • 남윤영;황인준
    • 정보처리학회논문지D
    • /
    • 제13D권1호
    • /
    • pp.29-36
    • /
    • 2006
  • 본 논문에서는 식물 잎 모양을 기반으로 이미지를 표현하고 검색하는 식물 잎 이미지 검색 시스템을 보인다. 보다 효과적인 잎의 모양 표현을 위하여, MPP(Minimum Perimeter Polygons) 알고리즘을 개선하였고, 처리시간을 줄이기 위하여, NN(Nearest Neighbor) 검색을 개선한 동적 매칭알고리즘을 제안하였다. 본 시스템은 사용자에게 질의 이미지를 업로드하는 인터페이스를 제공하거나 모양 특징에 기반한 질의를 생성하는 도구를 제공하고 유사도에 따른 이미지를 검색한다. 검색의 편의성을 위해, 웹상에서 잎 모양과 잎차례를 스케치하여 손쉽게 질의할 수 있게 하였다. 실험에서는, 한국에 자생하는 식물 이미지 데이터베이스를 구축하였으며, 질의를 통해 검색된 유사한 이미지의 개수를 기반으로 성능을 평가하였다.

Equivalence Heuristics for Malleability-Aware Skylines

  • Lofi, Christoph;Balke, Wolf-Tilo;Guntzer, Ulrich
    • Journal of Computing Science and Engineering
    • /
    • 제6권3호
    • /
    • pp.207-218
    • /
    • 2012
  • In recent years, the skyline query paradigm has been established as a reliable method for database query personalization. While early efficiency problems have been solved by sophisticated algorithms and advanced indexing, new challenges in skyline retrieval effectiveness continuously arise. In particular, the rise of the Semantic Web and linked open data leads to personalization issues where skyline queries cannot be applied easily. We addressed the special challenges presented by linked open data in previous work; and now further extend this work, with a heuristic workflow to boost efficiency. This is necessary; because the new view on linked open data dominance has serious implications for the efficiency of the actual skyline computation, since transitivity of the dominance relationships is no longer granted. Therefore, our contributions in this paper can be summarized as: we present an intuitive skyline query paradigm to deal with linked open data; we provide an effective dominance definition, and establish its theoretical properties; we develop innovative skyline algorithms to deal with the resulting challenges; and we design efficient heuristics for the case of predicate equivalences that may often happen in linked open data. We extensively evaluate our new algorithms with respect to performance, and the enriched skyline semantics.

소아 및 종양 핵의학 영상판독에서 RDF/OWL 데이터의 유용성 (Usefulness of RDF/OWL Format in Pediatric and Oncologic Nuclear Medicine Imaging Reports)

  • 황경훈;이해준;고건;최덕주;선용한
    • 대한의용생체공학회:의공학회지
    • /
    • 제36권4호
    • /
    • pp.128-134
    • /
    • 2015
  • Recently, the structured data format in RDF/OWL has played an increasingly vital role in the semantic web. We converted pediatric and oncologic nuclear medicine imaging reports in free text into RDF/OWL format and evaluated the usefulness of nuclear medicine imaging reports in RDF/OWL by comparing SPARQL query results with the manually retrieved results by physicians from the reports in free text. SPARQL query showed 95% recall for simple queries and 91% recall for dedicated queries. In total, SPARQL query retrieved 93% (51 lesions of 55) recall and 100% precision for 20 clinical query items. All query results missed by SPARQL query were of some inference. Nuclear medicine imaging reports in the format of RDF/OWL were very useful for retrieving simple and dedicated query results using SPARQL query. Further study using more number of cases and knowledge for inference is warranted.

DTD를 이용한 XML 데이타에 대한 질의 최적화 기법 (The Query Optimization Techniques for XML Data using DTDs)

  • 정태선;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.723-731
    • /
    • 2001
  • XML이 웹상에서 정보 교환의 표준으로 채택되면서 XML을 데이타베이스의 데이타로 보고 정보를 추출하는 분야가 주목받고 있다. XML은 그래프 기반의 비정형 데이타(semistructured data) 모델 과 매우 비슷하기 때문에 XML 데이타를 그래프 기반의 비정형 데이타 모델로 매핑한 후, 이에 대하여 질의를 처리할 수 있다. 본 논문에서는 XML 데이타에 대하여 스키마 정보를 가지는 DTB(Document Type Definition)를 이용한 질의 최적화 기법을 제안한다. 제안하는 기법은 인덱싱 효과를 내면서도 기존 방법에 비하여 부가의 메모리를 적게 필요로하고, 입력 데이타의 구조를 그대로 유지하기 때문에 다양한 형태의 질의를 효율적으로 처리할 수 있다. 간단한 예제 데이타베이스에 대하여 제안하는 기법의 실험 결 과를 보였다.

  • PDF

국내 주요 검색 포탈들의 백과사전 서비스 비교 평가 (Evaluation of the Web-Based Encyclopedia Services Provided by Major Korean Search Portals)

  • 박소연;이준호
    • 한국도서관정보학회지
    • /
    • 제37권2호
    • /
    • pp.217-230
    • /
    • 2006
  • 급변하는 정보 환경에서 검색 포탈들의 경쟁력을 강화하기 위해서는 우수한 백과사전 서비스를 확보하여 이용자에게 제공하는 것이 필수적이다. 본 연구에서는 국내 주요 검색 포탈들인 네이버, 다음, 야후, 엠파스의 백과사전 서비스를 결과의 적합성, 최신성, 멀티미디어 제공 측면에서 분석, 평가하였다. 평가 기준별로 세부적인 평가 항목과 평가방법론을 제시하였다. 백과사전 서비스 평가 시 본 연구에서는 실제 이용자들이 입력한 실제 질의들을 활용하였다. 또한 본 연구에서는 포탈별 백과사전 기능의 특징을 비교 분석하였다. 본 연구의 결과는 향후 웹 기반 백과사전 서비스의 개선에 활용되고 이용자가 우수한 웹 기반 백과사전을 선택하는데 참고자료로 활용될 수 있을 것으로 기대된다.

  • PDF

질의 내부 단어 인접도를 이용한 검색 효율 향상 기법 (A Search Efficiency Improvement Method using Internal Contiguity in Query Terms)

  • 윤성웅;채진기;이상훈
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권2호
    • /
    • pp.192-198
    • /
    • 2008
  • 수많은 웹 정보 중에서 사용자가 원하는 정보를 찾아내는 것은 매우 어렵다. 검색 엔진은 웹정보를 요약하였다가 사용자의 질의에 따라 상대적 중요도와 정보의 적합도를 반영한 검색순위를 제공한다. 그러나 이 순위는 개별 사용자가 원하는 정보를 상위 순위에 보여주는데 제한이 있다. 본 논문에서는 사용자의 검색 의도가 질의에 가장 잘 나타난다고 보고 질의의 의미를 잘 반영하는 웹 정보를 선택적으로 상위 순위화하기 위하여 질의 내부의 단어 인접도를 이용한 재순위화 방법을 제시하였다. 실험 결과 매우 간단한 방법으로 사용자가 요구하는 정보를 75.8%의 확률로 찾아낼 수 있으며, 선별된 정보들의 선택적인 순위 상승으로 $13{\sim}20%$의 검색 효율 향상을 기대할 수 있다.

프로그램 분석을 통한 RDF 질의 최적화 기법 (RDF Query Optimization Technique based on Program Analysis)

  • 최낙민;조은선
    • 전자공학회논문지CI
    • /
    • 제47권4호
    • /
    • pp.54-62
    • /
    • 2010
  • 시맨틱 웹 프로그래밍은 아직 발전 과정 상 초기 단계로서 API에 의존하고 있어, 컴파일 시 에러 검출이 어려우며 프로그래밍 생산성이나 실행 효율성이 낮다. 이를 극복하기 위한 여러 연구 중 하나로 기존 프로그래밍 언어를 확장하여 시맨틱 웹데이터 처리를 위한 전용 프로그래밍 언어를 만드는 작업들이 진행되어 왔다. 본 연구에서는 RDF (Resource Description Framework) 전용 프로그래밍 언어인 Jey로 작성된 프로그램의 효율성을 높이기 위한 방법으로 Jey의 SPARQL 지원 구조에 캐싱 기법을 추가하여 성능을 높이는 방법을 제안한다. 프로그램 정적 분석을 바탕으로 캐시 대상이 판별되므로 정확도를 높이며 성능향상에 기여하게 된다.