• 제목/요약/키워드: 웹엔진

검색결과 577건 처리시간 0.031초

동시링크를 이용한 사회학 분야 웹 정보원의 지적구조 분석: (A Study on the Intellectual Structure in Web Information of Sociology Using the Co-links Analysis)

  • 김원진
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2006년도 제13회 학술대회 논문집
    • /
    • pp.113-120
    • /
    • 2006
  • 본 연구에서는 사회학 분야 웹 정보원을 대상으로 동시링크분석을 실시하여 특정 학문분야의 지적구조를 분석하고, 검색엔진별 지적 구조의 차이를 분석함으로써 웹 정보원의 특성을 살펴보았다. 세 개의 검색엔진을 대상으로 지적구조의 차이를 비교한 결과, 웹 정보원 지도에서 전체적인 지적구조는 비슷하게 나타났지만, 몇 개의 웹 정보원의 경우에는 소속군집이 다르게 나타난 경우도 있었다. 그리고 Altavista와 AlltheWeb은 지도상의 웹 정보원 분포에 있어서 거의 유사한 구조를 보여주었다.

  • PDF

인트라넷 기반의 최적의 웹문서 자동 분류기법 선정 (The selection of Best suited Automatic Web Document Classification Based on Intranet)

  • 김국희;윤희병
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 추계학술대회 학술발표 논문집 제14권 제2호
    • /
    • pp.423-426
    • /
    • 2004
  • 인트라넷에서는 증가하는 웹문서의 검색을 목적으로 웹 검색엔진의 도입이 활발히 진행 중이며 대부분 찾아야할 키워드를 알고 접근하는 검색엔진 형태이다. 그러나 사용자가 무엇을 찾아야 하는지 모르는 경우 웹문서 분류체계는 효율적인 방법을 제시할 수 있다. 일부 구축되어 있는 분류체계는 수작업에 의한 분류로 인해 증가하는 웹문서의 양에 효율적으로 대처하기 곤란하므로 자동분류기법을 활용한 분류가 더 효율적일 것이다. 본 논문에서는 국방인트라넷의 수작업으로 구축된 분류체계를 대상으로 용어 가중치를 계산하는 방법을 달리하여 다양한 분류기법을 적용하여 성능을 비교평가하고 웹문서 자동분류시스템에 적용하여 분류성능의 향상을 도모하고자 한다.

  • PDF

의미 카테고리와 하이퍼링크를 이용한 검색엔진의 성능 향상 (Performance Improvement of a Search Engine Using Semantic Category and Hyperlink)

  • 김형일;김준태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.649-651
    • /
    • 2004
  • 현재, 웹의 정보는 사용자들이 원하는 모든 정보를 담고 있다고 할 수 있으나, 방대한 웹에서 사용자가 원하는 정보를 정확히 추출하기란 어려운 문제이다. 이러한 정보 추출의 어려움은 방대한 정보량과 정보추출 방식과 직결된다. 웹에서 정보를 정확히 추출하여도 일반적인 검색엔진들의 웹 페이지 순위 결정 방식을 따르게 되면, 사용자에게 중요한 페이지를 상위에 위치시키기란 쉬운 일이 아니다. 본 논문에서는 질의어의 모호성을 해결하기 위해 워드넷 기반 사용자 인터페이스를 설계하고, 웹 페이지의 가중치에 의미 카테고리 빈도 확률과 하이퍼링크 가중치를 이용한 웹 페이지의 가중치 결정 방식을 제안한다.

  • PDF

차세대 웹을 위한 SWRL 기반 역방향 추론엔진 SMART-B 의 개발

  • 송용욱;홍준석;김우주;이성규;윤숙희
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2005년도 공동추계학술대회
    • /
    • pp.488-496
    • /
    • 2005
  • 현재의 웹이 HTML을 바탕으로 인간 사용자와의 인터페이스에 초점을 맞추고 있는데 비하여, 차세대 웹은 XML 및 XML 기반 각종 표준들을 바탕으로 소프트웨어 에이전트와의 인터페이스에 초점을 맞추어 나가고 있다. 차세대 웹에서 소프트웨어 에이전트의 두뇌 역할을 수행하기 위하여 추론엔진은 차세대 웹의 표준 언어인 시맨틱 웹(Semantic Web)을 충실히 이해할 수 있어야 한다. 이를 위한 기초 작업의 일환으로 OWL(Web Ontology Language)과 RuleML(Rule Markup Language)이 W3C에 제안된 바 있다. 본 연구에서는 SWRL을 규칙 표현 방법으로 사용하고, OWL을 사실 표현 방법으로 사용하는 역방향 추론엔진인 SMART-B(SeMantic web Agent Reasoning Tools - Backward chaining inference engine)을 개발하고자 한다. 이를 위하여 SWRL 기반 역방향 추론을 위한 요구 기능을 분석하고, 기존 역방향 추론 알고리즘에 차세대 시맨틱 웹을 요구 기능을 반영한 역방향 추론 알고리즘을 설계하였다. 또한, 유비쿼터스 환경에서의 각종 플랫폼의 독립성과 이식성을 확보하고 기기 간의 성능 차이를 극복할 수 있도록 사실 베이스 및 규칙 베이스의 관리도구와 역방향 추론 엔진 등을 Java 프로그래밍 언어를 이용하여 단위 컴포넌트의 형태로 개발 중에 있다.

  • PDF

내용기반 웹 서비스 검색 엔진의 개발

  • 손승범;이규철
    • 한국정보기술응용학회:학술대회논문집
    • /
    • 한국정보기술응용학회 2006년도 춘계학술대회
    • /
    • pp.656-699
    • /
    • 2006
  • 웹 서비스는 사용자가 다양한 인터페이스 정의와 교환 메시지 형식을 가지는 서비스를 개발하는데 있어 보다 효과적이고 단일화된 방법을 제공한다. 웹 서비스에서 인터페이스 정의와 교환 메시지 형식은 WSDL 통해 정의되며, 이 WSDL 문서를 통해 이용할 서비스의 인터페이스와 교환 메시지 형식을 파악하여 빠르게 해당 서비스를 이용할 수 있도록 한다. 이러한 웹 서비스의 등록과 검색을 위해서는 레지스트리 방식을 이용한다. 개발된 서비스에 관한 설명 정보는 서비스 제공자에 의해 작성되어 레지스트리에 등록되며, 서비스 요청자는 레지스트리로부터 필요한 서비스를 검색하여 이용한다. UDDI는 웹 서비스를 위한 분산 레지스트리 표준으로 웹 서비스를 위한 등록과 검색 메커니즘을 제공한다. UDDI에서 지원하는 검색 메커니즘은 크게 키워드 검색과 비즈니스와 서비스에 대한 카테고리별 검색으로 구분된다. 키워드 기반 검색은 SQL LIKE 연산을 통해 비즈니스와 서비스의 이름에 대하여 부분 문자열이 일치하는지 검사하는 방식으로 이루어진다. 이러한 UDDI 의 키워드 기반 검색은 등록된 서비스의 이름 이외의 내용 정보에 대한 검색을 지원하지 못하므로 효과적인 검색을 지원하지 못하는 단점을 가진다. 또한 UDDI는 WSDL 문서의 내용에 대한 검색은 지원하지 못하는 단점을 가진다. 이에 따라 현대의 서비스 검색은 서비스의 이름에 대한 검색만을 지원한다. 이러한 현재의 웹 서비스 검색에서의 문제점을 해결하기 위해서는 UDDI 에 등록된 설명 정보와 WSDL 문서 모두에 대한 내용 기반의 검색을 지원하고 검색 결과를 순위화 (ranking)하여 제시할 수 있는 검색 엔진이 요구된다. 이 논문은 이러한 문제점들을 해결할 수 있도록 내용 기반 검색을 지원할 수 있는 웹 서비스를 위 한 검색 엔진을 제안한다. 제안한 검색 엔진은 UDDI 등록 정보에 대하여 내용 기반 검색을 수행할 수 있도록 벡터 공간 모델을 활용한 유사도 비교 방법을 이용한다. 또한 UDDI 등록 정보 외에 실질 적인 서비스의 인터페이스와 교환 메시지 형식에 대한 비교의 수행을 위하여 WSDL 문서에 대한 유사도 비교를 수행한다. 유사도 측정시 UDDI 등록 정보와 WSDL 문서와 같은 계층적인 문서 구조를 검색 결과에 반영할 수 있는 방법을 지원한다. 지원하는 검색 방법은 두 가지로 키워드 검색과 함께 텀플릿 검색을 지원한다. 템플릿 검색은 서비스의 등록 정보 외에 인터페이스 정의가 얼마나 일치하는지를 비교하기 위해 WSDL 문서에 대한 유사도를 비교할 수 있도록 한다. 이러한 검색의 지원을 통해 제안한 웹 서비스를 위한 검색 엔진은 기존의 레지스트리를 이용한 검 색 방법보다 정확한 검색 결과를 제공한다.

  • PDF

오디세우스 대용량 검색 엔진을 위한 병렬 웹 크롤러의 구현 (Implementation of a Parallel Web Crawler for the Odysseus Large-Scale Search Engine)

  • 신은정;김이른;허준석;황규영
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권6호
    • /
    • pp.567-581
    • /
    • 2008
  • 웹의 크기가 폭발적으로 증가함에 따라 인터넷에서 정보를 얻는 수단으로서 검색 엔진의 중요성이 부각되고 있다. 검색 엔진은 사용자에게 최신의 정보를 검색 결과로서 제공하기 위해 웹 페이지를 주기적으로 수집하고 이를 데이타베이스에 저장한다. 웹 크롤러는 이러한 목적으로 웹 페이지를 수집하는 프로그램이다. 대부분의 검색 엔진은 제한된 시간 내에 많은 수의 웹 페이지를 수집하기 위해 다수의 머신을 사용하는 병렬 웹 크롤러를 이용한다. 그러나, 병렬 웹 크롤러의 아키텍처와 세부 구현 방법이 잘 알려져 있지 않기 때문에 실제로 병렬 웹 크롤러를 구현하는 데에 어려움이 많다. 본 논문에서는 병렬 웹 크롤러(parallel web crawler)의 아키텍처와 세부 구현 방법을 제시한다. 병렬 웹 크롤러는 다수의 머신에서 웹 페이지를 병렬적으로 수집하기 위해 조정자(coordinator) 대리자(agent) 구조의 2-티어(tier) 모델을 사용한다. 조정자/대리자 모델은 각 머신에서 웹 페이지를 수집하기 위한 다수의 대리자들과 이 대리자들을 관리하기 위한 하나의 조정자로 구성된다. 병렬 웹 크롤러는 웹 페이지를 수집하기 위한 크롤링(crawling) 모듈, 수집한 웹 페이지를 데이타베이스 로딩 포맷으로 변환하기 위한 컨버팅(converting) 모듈, 수집된 웹 페이지의 중요도를 계산하기 위한 랭킹(ranking) 모듈로 구성된다. 본 논문에서는 병렬 웹 크롤러의 각 모듈들을 설명하고, 세부 구현 방법을 설명한다. 마지막으로, 실험을 통해 병렬 웹 크롤러의 성능을 평가하였다. 실험 결과, 제안된 병렬, 웹 크롤러가 수집해야할 웹 페이지 개수와 머신 개수에 따라 확장 가능함을 보였다.

메타검색엔진의 특징에 관한 연구 (A Study on the Characteristics of Meta Search Engines)

  • 이란주
    • 정보관리학회지
    • /
    • 제17권2호
    • /
    • pp.85-100
    • /
    • 2000
  • 본 연구 목적은 웹 정보원의 효과적인 정보 검색을 위하여 국내외 메타검색엔진 17개의 성격과 특징을 본 연구에서 제시한 메타검색엔진의 평가 요소와 함께 일반검색엔진의 평가 요소들을 중심으로 조사ㆍ분석하였다. 메타검색엔진은 여러 검색엔진들을 한번에 쉽게 검색할 수 있기 때문에 종종 웹 검색을 위한 첫 의뢰 검색엔진으로 사용되고 있다. 분석 결과에 의하면, 선정된 메타검색엔진들은 공통된 점을 갖고 있기도 하나 제각기 특성을 갖고 있다. 성능이 뛰어난 메타검색엔진이라면, 특별한 검색 질의를 위하여 초기 화면에 체크 상자 기능을 제공하여 검색엔진을 선택할 수 있도록 하며 개인의 희망에 맞추어 쉽게 제시되는 리스트를 제공하여야 한다. 메타검색엔진도 현재 주제별 검색엔진과 키워드형 검색엔진들이 이용자의 편의를 위해서 지향하고 있는 개인화, 주문화, 웹 문서 외의 다른 정보원을 검색 대상으로 포함하고 있는 추세를 잘 반영하고 있다. 본 연구 결과는 메타검색엔진의 선정과 효과적인 정보 검색에 반영될 수 있으며 국내 메타검색엔진 개발과 설계에 관심 있는 연구자들에게 기초자료로 활용될 수 있다.

  • PDF

워드넷 기반 협동적 평가와 하이퍼링크를 이용한 검색엔진의 성능 향상 (Improving Performance of Search Engine By Using WordNet-based Collaborative Evaluation and Hyperlink)

  • 김형일;김준태
    • 정보처리학회논문지B
    • /
    • 제11B권3호
    • /
    • pp.369-380
    • /
    • 2004
  • 본 논문에서는 정색엔진의 성능 향상을 위하여 질의어의 모호성 해결과 새로운 가중치 부여 방식을 제안한다. 일반적인 검색엔진은 질의어의 형태와 같은 것들이 포함되어 있는 웹 페이지를 결과로 보여주는 내용기만 방식을 사용하고 있다. 검색 결과로 나타난 웹 페이지들의 순위를 결정하는데 있어서도 주어진 질의어와 웹 페이지 사이의 키워드 매칭에 의한 내용기반 방식을 사용한다. 이와 같이 질의어의 형태만으로 웹페이지들과 유사도를 비교한다는 것은 정확한 검색에 많은 장애를 준다. 또한 질의어의 의미에 모호성이 존재할 경우에는 사용자의 의도와 관련 없는 것들이 결과로 나타나기도 한다. 이러한 원인의 발생은 일반적인 검색엔진들이 내용기반 방법을 기반으로 웹 검색에 이용되기 때문이다. 본 논문에서는 질의어에 모호성이 있는 경우 워드넷을 이용하여 모호성을 해결하도록 하는 사용자 인터페이스를 구현했다. 그리고 사용자의 클릭 수를 각 웹 페이지의 가중치에 누적함으로써 다수 사용자의 협동적 평가에 따른 웹 페이지의 중요도가 검색 순위에 반영되도록 하였다. 클릭수의 누적에 있어서 질의어의 의미 카테고리별로 가중치를 구분하여 저장함으로써 보다 세분화된 웹 페이지 가중치 부여 방식을 사용하였다 그리고 점 페이지의 하이퍼링크를 웹 페이지의 가중치에 적용하였다. 웹 페이지의 가중치에 하이퍼링크를 적용함으로써 웹 페이지의 대표성을 가중치에 부여하여 가중치에 신뢰도를 증가시켰다. 실험용 정색엔진이 일반 검색엔진에 비해 높은 검색 정확도를 나타내는 것을 실험을 통해 확인하였다.

웹 로봇 에이전트의 효율적인 인터넷 정보검색 (Efficient Information Retrieval of A Web Robot Agent on the Internet)

  • 김동범;곽병정;김연옥;오용철;이재영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (3)
    • /
    • pp.574-576
    • /
    • 2002
  • 인터넷상에서의 정보검색은 검색엔진을 이용하여 이루어지는데, 방대한 사이트들을 검색하여야 하므로 검색효율이나 검색된 정보의 유용성에 문제가 있게 된다. 만약 이러한 정보들을 미리 자동적으로 검색, 분류해서 저장한다면 위의 두 가지 문제들을 해결할 수 있을 것이다. 자동적으로 이런 일을 처리하도록 고안된 것이 웹 로봇 에이전트라고 하며 현재국내에도 여러 개의 웹 로봇 에이전트를 이용한 검색엔진이 사용되고 있다. 본 논문에서는 검색엔진을 구현하기 위해 하이퍼텍스트 전송규약에 대한 연구와 웹 로봇 에이전트에 대한 연구를 하여 올바른 로봇 에이전트를 구현하여, 구현된 검색엔진을 통한 효율적인 정보검색을 실현하는데 목적이 있다.

  • PDF

검색 엔진 분석

  • 수잔펠트먼
    • 디지털콘텐츠
    • /
    • 1호통권68호
    • /
    • pp.64-74
    • /
    • 1999
  • 올해 들어 월드 와이드 웹은 "증대한" 온라인 정보에 대한 주요 공급자로 자리매김했다. 웹 검색 엔진의 성능은 영구적인 시장 점유율을 확보하기 위해 고안된 새로운 서비스, 인터페이스, 기술들을 제공할 수 있도록 하루가 다르게 개선되는 것 같다.

  • PDF