• 제목/요약/키워드: web search engine

검색결과 247건 처리시간 0.025초

동적분류에 의한 주제별 웹 검색엔진의 설계 및 구현 (Design and Implementation of Web Directory Engine Using Dynamic Category Hierarchy)

  • 최범기;박선;박태수;송재원;이주홍
    • 인터넷정보학회논문지
    • /
    • 제7권2호
    • /
    • pp.71-80
    • /
    • 2006
  • 웹 검색엔진의 검색방법에는 키워드검색방법과 주제별검색방법이 있다. 키워드검색은 재현율(recoil)이 높지만 검색결과가 너무 많이 나오기 때문에 원하는 검색결과를 찾는 것이 어렵다. 주제별검색 역시 찾는 문서의 해당 주제가 모호하거나 주제를 정확하게 알지 못하면 문서를 찾지 못하는 경우가 있다. 즉, 검색결과의 정확율(precision)는 높으나 재현율이 떨어진다. 본 논문은 주제별검색의 문제점을 해결하기 위해서 주제와 키워드간의 관계를 퍼지논리로 정량적으로 계산하고, 이를 바탕으로 주제간의 함의(implication)관계를 유도하여 동적인 분류체계를 구성하는 새로운 웹 검색엔진을 설계하고 구현하였다. 구현된 검색엔진은 분류간의 함의관계를 유사한 하위주제로서 간주함으로써 주제별검색 결과의 재현율을 높일 수 있다.

  • PDF

Webometrics Ranking of Digital Libraries of Iranian Universities of Medical Sciences

  • Dastani, Meisam;Atarodi, Alireza;Panahi, Somayeh
    • International Journal of Knowledge Content Development & Technology
    • /
    • 제8권3호
    • /
    • pp.41-52
    • /
    • 2018
  • Digital Library websites plays an important role in dissemination of information of the institution and library resources. It acts as a trustworthy mirror of the institute. To evaluate the library website performance webometrics tools and indicators are required. The aim of the present research is study the webometrics of Digital Libraries of Iranian Universities of Medical Sciences on the Web to determine the amount of the visibility a website and web pages. The URL and link of 42 digital library website is obtained directly by visiting the university's website. To extract the number of indexed web pages (size), rich files have used the Google search engine Also, to extract the number of scientific resources retrieved have used the Google Scholar search engine. To calculate and obtain the number of links received have used the MOZ search engine. Generally, the results indicated that the website of Iranian digital libraries did not have a good performance in term of webometric indexes, and none of them were not rated at all indexes, only some of the websites mentioned in one or two indicators.

계층적 캐시 기법을 이용한 대용량 웹 검색 질의 처리 시스템의 구현 (Implementation of a Large-scale Web Query Processing System Using the Multi-level Cache Scheme)

  • 임성채
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권7호
    • /
    • pp.669-679
    • /
    • 2008
  • 웹을 이용한 정보 공개 및 검색이 확대됨에 따라 웹 검색 엔진도 지속적인 주목을 받고 있다. 이에 따라 웹 검색 엔진의 다양한 기술적 문제를 해결하고자 하는 연구가 있었음에도 웹 검색 엔진의 질의 처리 시스템에 대한 기술적 내용은 잘 다뤄지지 않았다. 질의 처리 시스템의 경우 소프트웨어 아키텍처나 운영 기법을 고안하기 어렵기 때문에 본 논문에서는 구현된 상용 시스템을 바탕으로 관련 기술을 소개하고자 한다. 구현된 질의 처리 시스템은 6,500 만개 웹 문서를 색인하여 일 500만개 이상의 사용자 질의 요청을 수행하는 큰 규모의 시스템이다. 구현한 시스템은 질의 처리 결과를 재사용하기 위해 계층적 캐시 기법을 적용했으며, 저장된 캐시 데이타는 4계층으로 구성된 데이타 저장소에 분산 저장되는 것이 특징이다. 계층적 캐시 기법을 통해 질의 처리 용량을 400% 정도로 향상 시킬 수 있었으며 이를 통해 서버 구축비용을 70% 정도 절감할 수 있었다.

오디세우스 대용량 검색 엔진을 위한 병렬 웹 크롤러의 구현 (Implementation of a Parallel Web Crawler for the Odysseus Large-Scale Search Engine)

  • 신은정;김이른;허준석;황규영
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권6호
    • /
    • pp.567-581
    • /
    • 2008
  • 웹의 크기가 폭발적으로 증가함에 따라 인터넷에서 정보를 얻는 수단으로서 검색 엔진의 중요성이 부각되고 있다. 검색 엔진은 사용자에게 최신의 정보를 검색 결과로서 제공하기 위해 웹 페이지를 주기적으로 수집하고 이를 데이타베이스에 저장한다. 웹 크롤러는 이러한 목적으로 웹 페이지를 수집하는 프로그램이다. 대부분의 검색 엔진은 제한된 시간 내에 많은 수의 웹 페이지를 수집하기 위해 다수의 머신을 사용하는 병렬 웹 크롤러를 이용한다. 그러나, 병렬 웹 크롤러의 아키텍처와 세부 구현 방법이 잘 알려져 있지 않기 때문에 실제로 병렬 웹 크롤러를 구현하는 데에 어려움이 많다. 본 논문에서는 병렬 웹 크롤러(parallel web crawler)의 아키텍처와 세부 구현 방법을 제시한다. 병렬 웹 크롤러는 다수의 머신에서 웹 페이지를 병렬적으로 수집하기 위해 조정자(coordinator) 대리자(agent) 구조의 2-티어(tier) 모델을 사용한다. 조정자/대리자 모델은 각 머신에서 웹 페이지를 수집하기 위한 다수의 대리자들과 이 대리자들을 관리하기 위한 하나의 조정자로 구성된다. 병렬 웹 크롤러는 웹 페이지를 수집하기 위한 크롤링(crawling) 모듈, 수집한 웹 페이지를 데이타베이스 로딩 포맷으로 변환하기 위한 컨버팅(converting) 모듈, 수집된 웹 페이지의 중요도를 계산하기 위한 랭킹(ranking) 모듈로 구성된다. 본 논문에서는 병렬 웹 크롤러의 각 모듈들을 설명하고, 세부 구현 방법을 설명한다. 마지막으로, 실험을 통해 병렬 웹 크롤러의 성능을 평가하였다. 실험 결과, 제안된 병렬, 웹 크롤러가 수집해야할 웹 페이지 개수와 머신 개수에 따라 확장 가능함을 보였다.

개인화된 웹 검색 순위 생성 (Customized Web Search Rank Provision)

  • 강영기;배준수
    • 대한산업공학회지
    • /
    • 제39권2호
    • /
    • pp.119-128
    • /
    • 2013
  • Most internet users utilize internet portal search engines, such as Naver, Daum and Google nowadays. But since the results of internet portal search engines are based on universal criteria (e.g. search frequency by region or country), they do not consider personal interests. Namely, current search engines do not provide exact search results for homonym or polysemy because they try to serve universal users. In order to solve this problem, this research determines keyword importance and weight value for each individual search characteristics by collecting and analyzing customized keyword at external database. The customized keyword weight values are integrated with search engine results (e.g. PageRank), and the search ranks are rearranged. Using 50 web pages of Goolge search results for experiment and 6 web pages for customized keyword collection, the new customized search results are proved to be 90% match. Our personalization approach is not the way that users enter preference directly, but the way that system automatically collects and analyzes personal information and then reflects them for customized search results.

워드넷 기반 협동적 평가와 하이퍼링크를 이용한 검색엔진의 성능 향상 (Improving Performance of Search Engine By Using WordNet-based Collaborative Evaluation and Hyperlink)

  • 김형일;김준태
    • 정보처리학회논문지B
    • /
    • 제11B권3호
    • /
    • pp.369-380
    • /
    • 2004
  • 본 논문에서는 정색엔진의 성능 향상을 위하여 질의어의 모호성 해결과 새로운 가중치 부여 방식을 제안한다. 일반적인 검색엔진은 질의어의 형태와 같은 것들이 포함되어 있는 웹 페이지를 결과로 보여주는 내용기만 방식을 사용하고 있다. 검색 결과로 나타난 웹 페이지들의 순위를 결정하는데 있어서도 주어진 질의어와 웹 페이지 사이의 키워드 매칭에 의한 내용기반 방식을 사용한다. 이와 같이 질의어의 형태만으로 웹페이지들과 유사도를 비교한다는 것은 정확한 검색에 많은 장애를 준다. 또한 질의어의 의미에 모호성이 존재할 경우에는 사용자의 의도와 관련 없는 것들이 결과로 나타나기도 한다. 이러한 원인의 발생은 일반적인 검색엔진들이 내용기반 방법을 기반으로 웹 검색에 이용되기 때문이다. 본 논문에서는 질의어에 모호성이 있는 경우 워드넷을 이용하여 모호성을 해결하도록 하는 사용자 인터페이스를 구현했다. 그리고 사용자의 클릭 수를 각 웹 페이지의 가중치에 누적함으로써 다수 사용자의 협동적 평가에 따른 웹 페이지의 중요도가 검색 순위에 반영되도록 하였다. 클릭수의 누적에 있어서 질의어의 의미 카테고리별로 가중치를 구분하여 저장함으로써 보다 세분화된 웹 페이지 가중치 부여 방식을 사용하였다 그리고 점 페이지의 하이퍼링크를 웹 페이지의 가중치에 적용하였다. 웹 페이지의 가중치에 하이퍼링크를 적용함으로써 웹 페이지의 대표성을 가중치에 부여하여 가중치에 신뢰도를 증가시켰다. 실험용 정색엔진이 일반 검색엔진에 비해 높은 검색 정확도를 나타내는 것을 실험을 통해 확인하였다.

웹 문서 중요도 평가를 위한 적합도 향상 HITS 알고리즘 설계 (Design of Advanced HITS Algorithm by Suitability for Importance-Evaluation of Web-Documents)

  • 김분희;한상용;김영찬
    • 한국전자거래학회지
    • /
    • 제8권2호
    • /
    • pp.23-31
    • /
    • 2003
  • 링크 기반 검색엔진은사용자의 질의어와 관련된 웹 문서들의 링크 정보를 이용하여 순위를 생성한다. 이러한 링크기반 웹 문서의 특성을 이용한 대표적인 순위 평가 알고리즘. HITS는 웹 페이지들 간의 상호 연결된 링크 정보로부터 웹 문서들의 중요도를 평가하고, 순위 정보에 따른 결과를 제시한다. 이러한 HITS 알고리즘의 문제점은 문서 내의 링크 빈도 수만을 고려하고, 입력 값으로 주어지는 웹 문서 집합의 특성에 의존적이라는 것이다. 본 논문에서는 링크기반 웹 검색 엔진들로부터 얻어진 문서 집합에 대해 질의와 검색결과 간의 적합도를 향상시킨 HITS 알고리즘을 수행하는 검색 에이전트를 설계하였다. 이로써 향상된 검객 성능과 결과의 지역성을 보완한다.

  • PDF

질의유형에 기반한 웹 검색의 성능 향상 (Improving the Performance of Web Search using Query Types)

  • 강인호;안동언
    • 정보처리학회논문지B
    • /
    • 제11B권5호
    • /
    • pp.537-544
    • /
    • 2004
  • 인터넷의 발달로 인해 웹에서 얻을 수 있는 정보의 종류와 수는 급진적으로 증가하고 있다. 이에 따라 사용자가 요구하는 정보는 문서뿐만 아니라 사이트 그리고 서비스 단위로 확장되고 있다. 기존의 연구에서 웹 검색을 위해 사용되었던 정보들과 이들의 일률적인 결합형태는 다양한 사용자의 요구를 만족시키기 어렵다. 보다 좋은 결과를 얻기 위해서는 검색에 사용하는 정보의 특성을 분석하고, 질의에 따른 알맞은 정보의 사용이 필요하다. 본 연구에서는 사용자 질의유형에 따른 정보들의 유용성을 살펴보고 적절한 사용법을 분석한다. 그리고 차츰 대두되고 있는 서비스 검색을 위한 서비스 링크정보를 제안한다.

학술정보포털에 대한 이용자만족 관련 인식에 관한 연구 - NAVER 전문정보의 학술자료 검색 기능을 중심으로 - (User Satisfaction related Perception of the Web Portal for Scholarly Information: Focused on the Academic Version of NAVER Search Engine)

  • 김양우
    • 한국문헌정보학회지
    • /
    • 제51권2호
    • /
    • pp.255-279
    • /
    • 2017
  • 본 연구는 NAVER 전문정보의 학술자료 검색 기능에 대한 이용자 만족과 관련된 인식을 조사한 질적 연구이다. 다양한 전공영역의 학부 학생들이 자신의 전공영역과 관련된 학술목적의 정보요구를 기반으로 스스로 선정한 탐색주제를 가지고 검색을 수행하는 과정에서 학술정보 전문포털에 대한 만족이나 불만족 등의 인식과 그 이유에 대한 조사가 이루어졌다. 수집된 데이터를 기반으로 한 연구결과는 인터페이스, 검색메커니즘 및 검색결과 등 세 가지 범주에 속하는 다양한 평가 항목 별로 제시되었다. 본 연구의 제언점은 1) 이용자들의 기본적인 관련 용어에 대한 제한한 지식 등을 토대로 한 시스템 인터페이스 개선 및 도움말 기능의 확대, 2) 상이한 맥락에서 사용된 검색어를 토대로 한 검색결과가 이용자 불만족으로 연결됨에 따른 검색 메커니즘의 개선 필요성, 그리고 3) 이용자들의 기본 용어 이해 부족과 더불어 검색 메커니즘 및 탐색기능에 대한 미흡한 식견을 기반으로 한 이용자교육의 제공 필요성으로 요약된다.

Developing a Web-Based Knowledge Product Outsourcing System at a University

  • Onte, Mark B.;Marcial, Dave E.
    • Journal of Information Processing Systems
    • /
    • 제9권4호
    • /
    • pp.548-566
    • /
    • 2013
  • The availability of technology and the abundance of experts in universities create an ample opportunity to provide a venue that allows a knowledge seeker to easily connect with and request advice from university experts. On the other hand, outsourcing provides opportunities and remains one of the emerging trends in organizations, and can very clearly observed in the Philippines. This paper describes the development of a reliable web-based approach to Knowledge Product Outsourcing (KPO) services in the Silliman Online University Learning system. The system is called an "e-Knowledge Box."It integrates Web 2.0 technologies and mechanisms, such as instant messaging, private messaging, document forwarding, video conferencing, online payments, net meetings, and social collaboration together into one system. Among the tools used are WAMP Server 2.0, PHP, BlabIM, Wordpress 3.0, Video Whisper, Red5, Adobe Dreamweaver CS4, and Virtual Box. The proposed system is integrated with the search engine in URLs, Web feeds, email links, social bookmarking, search engine sitemaps, and Web Analytics Direct Visitor Reports. The site demonstrates great web usability and has an excellent rating in functionality, language and content, online help and user guides, system and user feedback, consistency, and architectural and visual clarity. Likewise, the site was was rated as being very good for the following items: navigation navigation, user control, and error prevention and correction.