• 제목/요약/키워드: 웹 검색 엔진

검색결과 366건 처리시간 0.028초

특정 사이트내의 검색 프로그램 구현에 관한 연구 (A Study on Implementation for Web Search Program in Specific Web Site)

  • 장덕성;구세완
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (하)
    • /
    • pp.1243-1246
    • /
    • 2002
  • 본 논문은 검색엔진을 이용하여 대상 웹사이트의 링크 사이트 전체를 수집하고, 각 링크 사이트의 페이지를 인덱싱하여 데이터베이스화하는데, 특히 가장 최신의 페이지를 분류하여 시간에 의해 검색단어의 정확도가 가려지는 경우, 이를 이용할 수 있도록 하였다. 본 논문은 검색엔진에 의해 검색 서비스를 제공하는 기본적인 웹 로봇의 구현에 대한 연구이며, 웹 로봇의 역할은 크게 링크 사이트를 수집하는 것 이외에 제목, 메타태그, 멀티미디어 다운로드등의 역할들을 수행하며 이를 인덱싱 하여 데이터베이스화한다.

  • PDF

정확도 높은 검색 엔진을 위한 문서 수집 방법 (A Document Collection Method for More Accurate Search Engine)

  • 하은용;권희용;황호영
    • 정보처리학회논문지A
    • /
    • 제10A권5호
    • /
    • pp.469-478
    • /
    • 2003
  • 인터넷상의 정보 검색 엔진들은 웹 로봇을 이용해서 인터넷에 연결되어 있는 수 많은 웹 서버들을 주기적 또는 비주기적으로 방무나여 자체적인 인텍싱 방법에 따라 자료를 추출하고 분류해서 검색 엔진의 기초가 되는 데이터 베이스를 구축하고 변겨아는 작업을 계속하고 있다. 이런 일련의 작업은 인터넷 상에 분산되어 있는 막대한 정보를 쉽고 정확하게 찾을 수 있는 게이트 사이트로서의 역할을 담당하기 위한 전략적인 목적으로 진행되고 있다. 수천만 이상의 웹 사이트들을 상대로 하는 정보 수집은 검색 엔진 사이트 중심으로 기존 데이터의 수정과 삭제 등과 같은 데이터 베이스 유지 관리와 신규 사이트들에 대한 자료 수집 작업이 이루어지고 있다. 이러한 작업은 웹 서버에 대한 사전 지식 없이 정보 추출을 위해 웹 로봇을 실행하므로 인터넷 상에 수많은 요구가 전송되고 이는 인터넷 트래픽을 증가 시키는 원인이 되고 있다. 따라서 웹 서버가 사전에 자신이 공개할 문서에 대한 변경 정보를 웹 로봇에게 통보하고 웹 로봇은 이 정보를 이용해서 웹 서버의 해당 문서에 대한 정보 수집 작업을 한다면 불필요한 인터넷 트래픽을 감소시킬 수 있을 뿐만 아니라 검색 엔진의 정보의 신뢰도도 높아지고 웹 서버의 해당 문서에 대한 정보수집 작업을 한다면 불필요한 인터넷 트래픽을 감소 시킬 수 있을 뿐만 아니라 검색 엔진의 정보의 신뢰도도 높아지고 웹 서버의 시스템 부하와 검색 엔진의 시스템 부하를 줄일 수 있는 효과를 가질 수 있을 것이다. 본 논문에서는 웹 서버상의 웹 문서 파일의 변동 사항을 자동으로 검사하고 변동 사항들을 종합 정리해서 변경 문서에 대한 정보를 통보 받기 원하는 등록된 각 웹 로봇에게 전송하는 검사 통보 시스템을 설계 구현하였다. 웹 로봇을 운영하는 검색 엔진에서는 통보된 요약 정보를 이용해서 웹 서버로부터 해당 문서를 전송 받아 필요로 하는 인덱스 정보를 추출해서 데이터베이스를 구축하는 효율적인 웹 로봇을 설계 구현하였다.

포인트 / 웹 검색을 위한 맞춤형 옵션들

  • 그레그R.노테스
    • 디지털콘텐츠
    • /
    • 4호통권95호
    • /
    • pp.34-37
    • /
    • 2001
  • 웹검색의 어둡고 먼 과거로 거슬러 올라가면 HotBot가 스크립티드 파워 검색 기능에 대한 특성의 검색엔진으로서 최고 권위를 휘두르고 있었다. 그 초기 형태들 중 하나의 경우 검색자가 HotBot 검색 형태에 대한 옵션 중 어떤것이 디스플레이되어야 하는지를 선택할 수 있었다. 쿠키 파일에 검색자 컴퓨터상의 이런 환경설정이 저장된다는 것은 검색자가 HotBot를 재방문할 때마다 그가 선호하는 검색 옵션이 나타난다는 것을 의미한다.

  • PDF

웹 서비스 검색을 위한 시맨틱 매칭 엔진 (Semantic Matching Engine for Searching Web Services)

  • 양승훈;이대욱;권준호;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.267-272
    • /
    • 2006
  • 인터넷망의 지속적인 발달과 함께 웹 애플리케이션 개발 방법으로 XML 기반의 웹 서비스가 부각되면서 많은 웹 서비스들이 개발되었고, 점차 더 많은 웹 서비스들이 개발될 것으로 예상된다. 이처럼 급격하게 늘어나는 웹 서비스들 중에서 사용자가 원하는 웹 서비스 찾는 것이 중요한 이슈로 부각되고 있다. 그러나 현재의 웹 서비스 검색 표준인 UDDI 레지스트리는 키워드 기반이기 때문에 검색 성능의 한계점을 갖고 있다. 최근에 이러한 한계를 극복하고자 하는 많은 연구가 진행되고 있지만 아직은 많이 부족한 상황이다. 따라서 본 논문에서는 비록 키워드가 일치하지 않더라도 사용자가 원하는 웹 서비스를 찾을 수 있도록 웹 서비스 표준인 UDDI 레지스트리에 시맨틱 매칭 엔진(semantic matching engine)이라는 추가적인 시맨틱 레이어를 추가하여 재현율(recall)과 정확률(precision)을 모두 향상 시킬 수 있는 시스템을 제안한다.

  • PDF

Gnutella Protocol을 기반한 P2P Web Service 개발 (The Development of P2P Web Service Based on Gnutella Protocol)

  • 김병룡;김기창
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (3)
    • /
    • pp.163-165
    • /
    • 2001
  • 오늘날 인터넷은 중앙 집중식 웹서버로 컨텐츠들을 서비스하는 방식을 주로 택하고 있으며, 이용자들은 저마다의 홈페이지 서버를 갖길 원하고 있다. 그러나 이런 중앙 집중식 서비스방적을 사용했을 경우 비용적인 측면과 유지 보수 관리적인 문제로 인해 사용자들의 욕구를 제대로 해결해주지 못하고 있다. 본 논문에서는 중앙집중형 웹 컨텐츠 서비스가 아닌 순수한 Peer to Peer 방식의 웹 서비스를 할 수 있는 P2P 웹서버의 개발을 소개하고자 한다. 기본 알고리즘은 Gnutella Protocol을 기본으로 하였으며, 여기에 웹서버를 두고 Gnutella Protocol에서 사용되는 Header외에 웹서버의 존재유무를 파악할 수 있도록 별도로 정의된 Header를 사용하여 쉽게 웹서버의 기능유무 및 위치추적을 가능하게 하였으며, 또한 기존의 Gnutella Protocol과도 호환성을 지니고 있다. 위치 추적 및 검색엔진은 Gnutella Protocol과 유사한 방식을 택했으며, 멀티미디어 파일의 검색 및 업/다운로드가 가능하고, 웹문서의 검색후 원하는 문서를 서비스한다. 즉 Peer가 검색엔진과 클라이언트 및 웹서버의 역할을 동시에 수행하는 순수 P2P 웹 서비스를 개발한다.

  • PDF

WebDBs: 사용자 중심의 웹 검색 엔진 (WebDBs : A User oriented Web Search Engine)

  • 김홍일;임해철
    • 한국통신학회논문지
    • /
    • 제24권7B호
    • /
    • pp.1331-1341
    • /
    • 1999
  • 본 연구에서는 SQL과 유사한 질의어를 사용하여 웹에 등록된 정보를 검색하는 시스템인 WebDBs(Web DataBase system)를 제안한다. 제안된 시스템에서는 웹에 산재되어 있는 HTML 문서로부터 검색에 필요한 정보들을 자동으로 추출한다. 추출된 자료에 대하여 SQL 기반의 질의 처리가 가능하도록 하였다. 웹 데이터베이스 시스템에서는 대부분의 질의 수행 시간이 통신 회선을 통한 문서 획득에 소요된다. 따라서, 웹 검색의 경우 웹 지역성에 많이 의존한다는 점에 착안하여, 사용자 검색 결과를 캐쉬에 저장하고 유사한 응용에서 이를 재사용 하고자 한다. 이때 캐쉬에 저장된 정보들을 검색된 질의와 연관하여 저장함으로써 좀더 사용자 응용을 고려한 캐쉬 관리기법을 제안하였다. 또한 위와 같은 개념에 입각한 웹 검색엔진을 구하였다.

  • PDF

하이퍼링크 구조를 이용한 웹 검색의 순위 알고리즘에 관한 연구 (The Study on the Ranking Algorithm of Web-based Sear ching Using Hyperlink Structure)

  • 김성희;오건택
    • 정보관리연구
    • /
    • 제37권2호
    • /
    • pp.33-50
    • /
    • 2006
  • 본 연구에서는 하이퍼 링크 구조를 이용한 웹 검색 알고리즘에 대해 살펴 본 후 페이지 품질을 측정하기 위해 웹의 하이퍼 구조를 이용하고 있는 알고리즘인 HITS와 PageRank를 분석하였다. 이어서 이들 방법을 이용한 검색 엔진인 Google과 Ask.com을 검색 알고리즘의 특성을 기준으로 분석하였다. 이런 연구는 미래의 웹 문서의 중요도를 평가하는 데 기초자료로 활용할 수 있으며, 웹 정보검색의 검색성능을 향상시키는 시스템 개발에 도움이 될 수 있을 것이라 생각한다.

웹서비스 기반 지능형 추천 시스템 (Web Service-based Intelligent Recommendation System)

  • 김성태;박수민;양정진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.187-189
    • /
    • 2004
  • 인터넷의 활용범위는 정보의 검색 및 수집을 넘어서 여러 범위로 확대되고 있고 점보의 양 또한 방대해 졌다. 그러나 필요한 정보를 찾기는 더욱 어려워지고 있고, 그에 따라 개인에게 맞는 정보를 제공해주는 시스템이 절실해지고 있다. 본 연구에서는 웹 서비스 기반 위에 추론엔진을 사용하여 사용자에게 가장 적합한 상품을 검색하여 추천해주는 추천 시스템의 모델을 제시하고 있다. 웹 서비스 기반 위에 시스템을 구축함으로써 표준 웹서비스의 가능성을 엿보고, 복잡한 논리적 추론을 추론엔진을 사용함으로써 효율성을 증가시키고 있다.

  • PDF

추론엔진을 이용한 DAML-S 검색 시스템 (DAML-S Search System with Inference Engine)

  • 강민구;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.25-27
    • /
    • 2003
  • 현재 웹이 가지고 있는 문제점들을 해결하기 위해서 연구하고 있는 차세대 웹을 시멘틱 웹이라고 한다. 시멘틱 웹에서 다루고 있는 기술들은 다양하지만 요즈음 가장 부각되고 있는 기술이 DAML-S이다. DAML-S는 DAML+OIL기술을 기반으로 확장된 레이어를 제공하여 웹 서비스의 모호성(unambiguous)을 제거하고, 상호 운용성을 증가시키는 역할을 하고 있다. 본 논문에서는 DAML-S로 정의된 웹 서비스를 FOL 추론방법을 이용해서 검색하는 시스템을 제안한다. 이를 위해서 DAML-S를 PSO TRIPLE 형태로 변환하는 전처리 방법과 FOL 질의 방법을 제안한다. 본 시스템을 이용하면 기존의 키워드 기반의 검색 방법에서는 불가능하였던 질의 작성이 가능해 지며, 추론을 이용한 정확한 서비스 검색이 가능해 진다.

  • PDF

마크업 패턴을 이용한 웹 검색 (Web Information Retrieval Exploiting Markup Pattern)

  • 김민수;김민구
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권6호
    • /
    • pp.407-411
    • /
    • 2007
  • HTML은 웹 페이지의 시각적 표현을 목적으로 하고 있기 때문에, HTML로 작성된 웹 문서에 대한 색인과 질의는 쉬운 문제가 아니다. 그러나 웹 페이지를 표현하는 태그들이 가진 내재적 의미들은 검색 엔진의 성능을 향상시킬 수 있는 가능성을 가지고 있다. 본 논문은 이러한 HTML 태그의 내재적 의미를 이용하기 위해 마크업 패턴을 정의하고, 이를 웰 검색에 응용함으로서 검색 성능을 향상하고자 한다. 마크업 패턴은 웹 레이지 작성자의 표현 의도를 담고 있으며, 명시적으로 하나 이상의 HTML 태그의 연속으로 표현된다. 웹 페이지에서 마크업 패턴을 찾아내고, 이를 웹 검색에 응용하기 위해 본 논문에서는 웹 문서를 재색인하는 방법을 제안한다. 제안하는 방법을 적용한 웹 검색의 성능 향상을 증명하기 위해, BBC와 CNN 웹 사이트의 문서들을 대상으로 실험을 진행하였다. 대상 문서들은 제안한 방법을 통해 가중치를 갖게 되며, 특정 질의에 대한 정확도를 기존 검색 엔진과 비교하여, 본 논문에서 제안하는 마크업 패턴을 이용한 웹 검색의 성능 향상을 증명할 것이다.