• 제목/요약/키워드: search page

검색결과 180건 처리시간 0.027초

웹 페이지 비교통합 기반의 정보 수집 시스템 설계 및 개발에 대한 연구 (A Study on Design and Development of Web Information Collection System Based Compare and Merge Method)

  • 장진욱
    • 한국IT서비스학회지
    • /
    • 제13권1호
    • /
    • pp.147-159
    • /
    • 2014
  • Recently, the quantity of information that is accessible from the Internet is being dramatically increased. Searching the Web for useful information has therefore become increasingly difficult. Thus, much research has been done on web robots which perform internet information filtering based on user interest. If a web site which users want to visit is found, its content is searched by following the searching list or Web sites links in order. This search process takes a long time according as the number of page or site increases so that its performance need to be improved. In order to minimize unnecessary search with web robots, this paper proposes an efficient information collection system based on compare and merge method. In the proposed system, a web robot initially collects information from web sites which users register. From the next visit to the web sites, the web robot compares what it collected with what the web sites have currently. If they are different, the web robot updates what it collected. Only updated web page information is classified according to subject and provided to users so that users can access the updated information quickly.

웹로그 분석을 통한 의약품 정보 검색 주제별 이용 패턴에 관한 연구 (A Study on the Usage Patterns of Medicine Information Through Web Log Analysis)

  • 조경원;우영운
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2005년도 추계 종합학술대회 논문집
    • /
    • pp.269-274
    • /
    • 2005
  • 최근에 인터넷을 통한 의약품 정보가 범람하고 있다. 그러나 지금까지 일반인들이 웹페이지를 통하여 의약품 정보를 검색하는 패턴과 획득하는 방법에 대한 연구 결과가 미비한 실정이다. 따라서 이 논문에서는 의약품 정보를 제공하는 특정 회사의 웹 로그 파일을 WiseLog 툴을 사용하여 분석하였다. 특히 사용자 유형에 따른 웹페이지 사용 형태와 웹페이지 메뉴 사용 형태, 그리고 검색 메뉴 사용 형태의 3가지에 대한 웹 로그 파일 통계 결과 자료를 분석하였다. 그 결과 인터넷에서의 의약품 정보를 제공하는 회사들을 위한 보완 및 개선 방안들을 제시하였다.

  • PDF

심층 웹 문서 자동 수집을 위한 크롤링 알고리즘 설계 및 실험 (Crawling algorithm design and experiment for automatic deep web document collection)

  • 강윤정;이민혜;원동현
    • 한국정보통신학회논문지
    • /
    • 제27권1호
    • /
    • pp.1-7
    • /
    • 2023
  • 심층 웹 수집은 검색 양식에 질의어를 입력하고 응답 결과를 수집하는 것을 의미한다. 심층 웹이 가진 정보는 정적으로 구성되는 표면 웹보다 약 450~550배 이상의 정보를 가지고 있을 것으로 추산한다. 정적인 방식에서는 웹페이지가 새로 고쳐지기 전까지 변화된 정보를 보여주지 못한다. 동적 웹페이지 방식은 실시간으로 필요한 정보가 갱신되어 웹페이지를 새로 불러오지 않아도 실시간 정보 제공이 가능한 장점이 있지만, 일반적인 크롤러는 갱신된 정보에 접근하는 데 어려움이 있다. 따라서 이들 심층 웹에 있는 정보들을 크롤러를 이용해 자동으로 수집할 방안이 필요하다. 이에 본 논문은 스크립트를 일반적인 링크로 활용하는 방법을 제안하였으며, 이를 위해 클라이언트 스크립트를 일반 URL처럼 활용이 가능한 알고리즘을 제안하고 실험하였다. 제안된 알고리즘은, 검색 양식에 데이터를 입력하는 일반적인 방법 대신 메뉴 탐색 및 스크립트 실행으로 웹 정보를 수집하는 데 중점을 두었다.

그래프 탐색 기법을 이용한 효율적인 웹 크롤링 방법들 (Effective Web Crawling Orderings from Graph Search Techniques)

  • 김진일;권유진;김진욱;김성렬;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권1호
    • /
    • pp.27-34
    • /
    • 2010
  • 웹 크롤러는 웹에서 링크를 따라다니며 웹 페이지들을 자동으로 다운로드하는 프로그램으로 주로 웹 환경을 연구하거나 검색 엔진을 만들기 위해 사용된다. 기존의 연구들에서는 웹 크롤러가 인기 있는 웹 페이지들을 먼저 크롤링 할 수 있도록 몇 가지 방법들이 제안되었으나 그래프 이론 분야에서 연구되어 온 몇몇 그래프 탐색 기법들은 아직 웹 크롤링 방법으로 고려되지 않았다. 이 논문에서는 잘 알려진 너비 우선 탐색, 깊이 우선 탐색 뿐 아니라 사전식 너비 우선 탐색, 사전식 깊이 우선 탐색 및 최대 크기 탐색을 웹 크롤링 방법으로 고려하여 이 중에서 선형적인 시간복잡도를 가지면서도 인기 있는 웹 페이지를 효율적으로 수집할 수 있는 웹 크롤링 방법을 찾는다. 특히 선형 구현이 단순하지 않은 최대 크기 탐색과 사전식 너비 우선 탐색에 대해서는 분할 정제 방법을 이용한 선형 시간 웹 크롤링 방법을 제시한다. 실험 결과는 최대 크기 탐색이 다른 그래프 탐색 방법에 비해 시간 복잡도 및 크롤링 된 페이지들의 질에 있어서 바람직한 성질을 가짐을 보여준다.

웹 페이지 방문 시간을 고려한 연관 규칙 탐색

  • 강형창;김익찬;김철수
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2005년도 춘계 학술발표회 논문집
    • /
    • pp.263-269
    • /
    • 2005
  • 웹 사이트를 이용하는 사용자들은 정보를 편리하게 얻고자 한다. 웹 사이트 운영자들은 웹 사이트를 이용하는 사용자들에게 차별화된 서비스를 제공하기 위해 사용자에 따른 패턴 분석을 해야 한다. 연관 규칙은 패턴 발견을 위해 데이터 마이닝 기법중의 하나이다. 사용자에 따른 패턴을 찾아내면, 사용자에 따른 차별화된 서비스를 제공할 수 있다. 사용자에 따른 패턴은 연관 규칙 탐색으로 알 수 있고, 웹 페이지 방문 시간을 고려한 연관 규칙 탐색 결과는 차별화된 웹 구조 서비스 및 추천 서비스가 가능하다.

  • PDF

지식기반 의미 메타 검색엔진 (Knowledge-based Semantic Meta-Search Engine)

  • 이인근;손세호;권순학
    • 한국지능시스템학회논문지
    • /
    • 제14권6호
    • /
    • pp.737-744
    • /
    • 2004
  • 웹으로부터 사용자가 원하는 정보에 잘 부응하는 정보를 추출하는 것은 검색엔진이 갖추어야 할 기본적 요소라 할 수 있다. 그러나 질의어와의 패턴 매칭 방식에 의존하는 기존의 대부분의 검색엔진은 질의어가 갖는 애매성으로 인하여 사용자의 요구에 부합하는 검색결과를 제공하기가 쉽지 않다는 단점을 지니고 있다. 이를 극복하기 위하여 본 논문에서는 다음과 같은 5가지 과정, 즉, (i) 질의어 형성, (ii) 질의어 확장, (iii) 검색, (iv) 순위 재생성 및 (v) 지식베이스로 구성되는 지식기반 의미 메타 검색엔진의 기본 구조를 제안한다 영어로 구현된 웹 문서에 대한 모의실험을 통하여 본 논문에서 제안된 지식기반 의미 메타 검색엔진이 기존의 검색엔진(구글)을 사용하여 얻은 결과보다 좋은 결과를 보임을 확인할 수 있었다.

A Query Randomizing Technique for breaking 'Filter Bubble'

  • Joo, Sangdon;Seo, Sukyung;Yoon, Youngmi
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권12호
    • /
    • pp.117-123
    • /
    • 2017
  • The personalized search algorithm is a search system that analyzes the user's IP, cookies, log data, and search history to recommend the desired information. As a result, users are isolated in the information frame recommended by the algorithm. This is called 'Filter bubble' phenomenon. Most of the personalized data can be deleted or changed by the user, but data stored in the service provider's server is difficult to access. This study suggests a way to neutralize personalization by keeping on sending random query words. This is to confuse the data accumulated in the server while performing search activities with words that are not related to the user. We have analyzed the rank change of the URL while conducting the search activity with 500 random query words once using the personalized account as the experimental group. To prove the effect, we set up a new account and set it as a control. We then searched the same set of queries with these two accounts, stored the URL data, and scored the rank variation. The URLs ranked on the upper page are weighted more than the lower-ranked URLs. At the beginning of the experiment, the difference between the scores of the two accounts was insignificant. As experiments continue, the number of random query words accumulated in the server increases and results show meaningful difference.

국내 천문학 논문 검색 DB 구축 (CONSTRUCTION OF KOREAN ASTRONOMICAL JOURNAL DB)

  • 성현일;김순욱;임인성
    • 천문학논총
    • /
    • 제21권2호
    • /
    • pp.113-119
    • /
    • 2006
  • The Korean Astronomical Data Center(KADC) in Korea Astronomy and Space Science Institute(KASI) has developed a database of astronomical journals published by the Korean Astronomical Society and the Korean Space Science Society. It consists of all bibliographic records of the Journal of the Korean Astronomical Society(JKAS), Publication of the Korean Astronomical Society(PKAS), and Journal of Astronomy & Space Sciences(JASS). The KADC provides useful search functions in the search page such as search criterion of bibcode, publication date, author names, title words, or abstract words. The journal name is one of the search criterion in which more than one journal can be designated at the same time. The criterion of author name is provided bilingually: English or Korean. The abstract and full text can be downloaded as PDF files. It is also possible to search papers related to a specific research topic published in Korean astronomical journals, provided by the KADC, which often cannot be found the worldwide, Astrophysics Data System(ADS) services. The KADC will become basic infrastructure for the systematic construction of bibliographic records, and hence, make the society of Korean astronomers more interactive and collaborative.

웹 기반 선례검색에 관한 연구 (A Study of Web-based Drawing Search)

  • 리송준;리광철;이상현
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2006년도 추계학술발표논문집
    • /
    • pp.290-293
    • /
    • 2006
  • 본 연구는 웹 기반 선례검색 시스템을 개발하였다. 기존의 연구들에 대한 사례 조사를 통해서 지금까지의 선례 검색 방법의 한계: 변환과정에서의 의미 손실과 자료 공유의 시공간제한성 밝혔다. 해결책으로 의미기반 공통표현모듈을 도입하고 웹 환경을 이용하여 효과적인 선례검색 해결방법을 찾아냄으로써 검색과 자료 공유가 용이한 선례검색 시스템을 개발했다.

  • PDF

엔트리 페이지 검색을 위한 메타 검색 (MetaSearch for Entry Page Finding Task)

  • 강인호
    • 정보처리학회논문지B
    • /
    • 제12B권2호
    • /
    • pp.215-222
    • /
    • 2005
  • 본 연구에서는 웹에서 사용자가 방문하고자 하는 곳을 찾아가는 엔트리 페이지 검색을 위한 메타검색 방식을 제안한다. 기존의 연구에서 메타 검색이 여러 검색 엔진에서 많이 나타나는 중복된 문서를 강조하는 방식인 반면에 비해, 본 연구에서는 문서의 중복 개념을 확장하여 특정 도메인 및 디렉토리에서 나온 문서들도 중복되었다고 가정하여 메타검색에 이용하는 방식을 보인다. TREC에 제출된 시스템들의 결과물과 상용 검색 엔진의 결과물을 이용하여, 확장된 중복을 이용한 메타 검색의 유용성을 실험한다. 수행된 실험을 통해서 문서의 단순 중복을 이용하는 기존의 방식이 내용 기반 검색에 유용한 반면, 엔트리 페이지 검색에 있어서는 본 연구에서 제안하는 확장된 중복 방식이 기존 방식의 성능보다 $10\%$ 이상의 성능 향상을 얻을 수 있음을 알 수 있었다.