• 제목/요약/키워드: Korean Web Documents

검색결과 392건 처리시간 0.026초

Numerical Formula and Verification of Web Robot for Collection Speedup of Web Documents

  • 김원;김영기;진용욕
    • 인터넷정보학회논문지
    • /
    • 제5권6호
    • /
    • pp.1-10
    • /
    • 2004
  • A web robot is a software that has abilities of tracking and collecting web documents on the Internet(l), The performance scalability of recent web robots reached the limit CIS the number of web documents on the internet has increased sharply as the rapid growth of the Internet continues, Accordingly, it is strongly demanded to study on the performance scalability in searching and collecting documents on the web. 'Design of web robot based on Multi-Agent to speed up documents collection ' rather than 'Sequentially executing Web Robot based on the existing Fork-Join method' and the results of analysis on its performance scalability is presented in the thesis, For collection speedup, a Multi-Agent based web robot performs the independent process for inactive URL ('Dead-links' URL), which is caused by overloaded web documents, temporary network or web-server disturbance, after dividing them into each agent. The agents consist of four component; Loader, Extractor, Active URL Scanner and inactive URL Scanner. The thesis models a Multi-Agent based web robot based on 'Amdahl's Law' to speed up documents collection, introduces a numerical formula for collection speedup, and verifies its performance improvement by comparing data from the formula with data from experiments based on the formula. Moreover, 'Dynamic URL Partition algorithm' is introduced and realized to minimize the workload of the web server by maximizing a interval of the web server which can be a collection target.

  • PDF

웹 에이전트를 이용한 웹기반 교수-학습 시스템의 설계 및 개발 (An Implementation and Design Web-Based Instruction-Learning System Using Web Agent)

  • 김갑수;이건민
    • 정보교육학회논문지
    • /
    • 제5권1호
    • /
    • pp.69-78
    • /
    • 2001
  • 최근에, 컴퓨터를 이용한 학습은 CAI 환경에서 WBI 학습 환경으로 옮아가고 있다. WBI 학습에 필요한 대부분의 웹 문서는 검색 엔진을 이용하여 얻는다. 교수자는 검색한 웹 문서의 사용가능성을 평가한 후 학습 자료로 사용한다. 그러나 이런 교수-학습 과정은 다음과 같은 문제점이 있다. 첫째, 교수자에 의해 선정된 웹 문서를 반복해서 검색한다. 둘째, 웹 문서를 학습자에게 제시하기 위한 별도의 교수 설계 과정이 필요하다. 셋째, 학습자의 평가 결과와 웹 문서 사이의 관련성 분석이 매우 어렵다. 본 연구에서는 WBI 학습에 필요한 웹 문서를 검색하고 학습자에게 학습 과정을 안내하는 WAILS(Web Agent Instruction Learning System)를 제안한다. WAILS는 웹 에이전트를 이용하여 WBI 학습에 필요한 웹 문서를 수집한다. 교수자는 수집한 웹 문서를 평가하고 교수-학습 생성기를 통해 학습자에게 제시한다. 교수자는 WAILS를 이용하여 웹 문서의 검색과 교수-학습 설계를 동시에 하게 된다. 이는 WBI 학습을 더욱 촉진시키게 된다.

  • PDF

URL 패턴 스크립트를 이용한 효율적인 웹문서 수집 방안 (A Method of Efficient Web Crawling Using URL Pattern Scripts)

  • 장문수;정준영
    • 한국지능시스템학회논문지
    • /
    • 제17권6호
    • /
    • pp.849-854
    • /
    • 2007
  • 수많은 웹문서 중에서 원하는 문서만을 수집하는 것은 쉽지 않다. 이것을 해결하는 한 방법은 원하는 분야의 정보를 많이 제공하는 사이트에서 원하는 부분만 골라서 수집하는 것이다. 본 논문에서는 웹사이트의 URL 패턴을 XML 기반의 스크립트로 정의하여, 필요한 웹 문서만을 지능적으로 수집하는 방안을 제안한다. 제안하는 수집 방안은 데이터베이스와 같은 구조화된 자료를 정보로 제공하는 사이트에 대해서 매우 빠르고 효율적으로 적용될 수 있다. 본 논문에서는 제안하는 방법을 적용하여 5만개 이상의 웹 문서를 수집하였다.

중국의 기록물 공개 및 서비스 현황 (The Present Condition of Opening of Archival Documents and Providing Reference Services in China)

  • 윤미경
    • 한국기록관리학회지
    • /
    • 제8권2호
    • /
    • pp.105-125
    • /
    • 2008
  • 본 문은 중국의 기록물 공개 및 서비스에 관한 제도와 인터넷을 통한 온라인 서비스 현황을 고찰하였다. 중국의 기록물공개와 서비스 제도의 고찰을 위하여 1949년 중화인민공화국 성립 후에 반포된 각종 법규의 기록물의 공개와 서비스에 관한 주요 내용을 살펴보았다. 중국 기록관의 온라인 서비스 건설 현황 및 북경시기록관 사이트의 인터넷을 통한 온라인 서비스를 분석하였다.

사용자 로그 분석과 클러스터 내의 문서 유사도를 이용한 동적 추천 시스템 (A Dynamic Recommendation System Using User Log Analysis and Document Similarity in Clusters)

  • 김진수;김태용;최준혁;임기욱;이정현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.586-594
    • /
    • 2004
  • 웹 문서들은 빠른 생성과 소멸의 특징 때문에, 사용자는 찾고자하는 웹 문서를 신속하고 정확하게 추천해 줄 시스템을 요구하고 있다. 정제되지 않은 웹 데이타에는 사용자들의 축적된 경험들을 포함하는 유용한 정보들을 포함하고 있다. 현재, 이러한 유용한 정보를 마이닝 기법이나 통계학적 측정 방법 등을 가지고 정제하여 추천 시스템을 통해 사용자에게 제공하려는 노력이 시도되고 있다. 기존의 정보 필터링 방식은 사용자들의 프로파일을 반드시 이용해야 하는 문제점을 갖고 있으며, 협력적 필터링 방식은 First Rater 문제와 Sparsity 문제가 있다. 또한 사용자 브라우징 패턴을 이용하는 동적 추천 시스템은 연관성이 없는 웹 문서들을 결과로서 제공한다는 문제점이 있다. 본 논문에서는 웹 문서 형식에 따라 웹 문서 사이의 유사도를 이용하여 웹 문서를 분류하고, 웹 서버에 기록된 로그 파일을 이용하여 사용자 브라우징 순차 패턴 DB를 생성한다. 이렇게 생성된 정보들과 사용자들의 세션 정보를 이용하여, 사용자가 웹 문서에 접근했을 때 현재 웹 문서와 유사도가 높은 상위 N개의 연관 웹 문서 집합을 제공하고, 순차적인 특성을 갖는 웹 문서를 추천 문서로 제공하는 시스템을 제안한다.

웹 사이트의 인기도에 의한 도큐먼트 교체정책 (Document Replacement Policy by Web Site Popularity)

  • 유행석;장태무
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권1호
    • /
    • pp.227-232
    • /
    • 2008
  • 일반적으로 웹 캐시는 도큐먼트를 기반으로 하여 캐시 내에 임시적으로 도큐먼트를 저장하고 사용자의 요청이 있을 때 그에 해당된 도큐먼트가 캐시 내에 존재하면 그 도큐먼트를 사용자에게 전송해 주고, 캐시 내에 존재하지 않을 때에는 새로운 도큐먼트를 서버에게 요청하여 캐시 내에 복사를 하고 사용자에게 되돌려 준다. 이때 캐시의 용량 초과로 인해 새로운 도큐먼트를 기존의 도큐먼트와 교체하기 위해 도큐먼트 교체정책(replacement policy)을 사용한다. 일반적인 교체정책에는 도큐먼트를 기반으로 한 LRU기법이나 LFU기법 등이 있고, 그 밖의 여러 가지 교체정책을 사용하여 캐시내의 도큐먼트를 효과적으로 교체한다. 하지만. 위의 교체정책은 사이트의 인기도를 고려하지 않고 도큐먼트 요청 시간과 빈도수 만을 고려하여 교체정책을 수행한다. 따라서 본 논문에서는 요청이 빈번한 도큐먼트와 사이트의 인기도를 고려한 교체정책을 사용하여 요청이 빈번하지 않은 도큐먼트를 효과적으로 교체함으로써 캐시의 적중률(hit-ratio)을 높이고, 캐시의 내용을 효과적으로 관리할 수 있는 현대적인 네트워크 환경에 적합한 도큐먼트 교체정책인 웹사이트의 인기도를 고려한 도큐먼트 교체 정책을 제시한다.

  • PDF

균등한 웹 문서 샘플링을 이용한 웹 검색 서비스들의 커버리지 측정 (Estimating Coverage of the Web Search Services Using Near-Uniform Sampling of Web Documents)

  • 장성수;김광현;이준호
    • 정보처리학회논문지D
    • /
    • 제15D권3호
    • /
    • pp.305-312
    • /
    • 2008
  • 인터넷에는 유익한 정보들이 포함된 웹 문서들이 공개되고 있으며, 이러한 웹 문서들은 웹 검색 서비스를 통하여 접근할 수 있다. 따라서 웹 검색 서비스들은 보다 많은 웹 문서들을 수집하기 위하여 노력하고 있으나, 이들은 수집된 웹 문서들의 커버리지를 파악하는데 많은 어려움을 겪고 있다. 따라서 본 논문에서는 기존의 커버리지 측정 방법들을 분석하고, 효과적인 커버리지 측정 방법을 제안한다. 즉, 인터넷에서 웹 문서를 균등하게 샘플링하고, 이 웹 문서들이 웹 검색 서비스에 색인되어 있는지를 조사함으로써 웹 검색 서비스들의 절대 및 상대 커버리지를 측정한다. 그리고 본 논문에서는 제안한 방법으로 국내 웹 검색 서비스들의 커버리지를 측정하여 비교하였으며, 그 결과 구글, 네이버, 엠파스 순으로 절대 및 상대 커버리지가 높게 나타났다. 이러한 본 논문의 결과는 웹 검색 서비스들의 커버리지를 측정하는데 도움이 될 것으로 기대된다.

시소러스 브라우저 자동구현을 위한 Metadata를 이용한 색인어 처리방안에 대한 연구 (A Theoretical Study on Indexing Methods using the Metadata for the Automatic Construction of a Thesaurus Browser)

  • 서휘
    • 한국도서관정보학회지
    • /
    • 제35권4호
    • /
    • pp.451-467
    • /
    • 2004
  • 본 연구에서는 시소러스 브라우저를 자동으로 구성하기 위한 방법에 대한 이론적인 연구와 함께 시소러스 브라우저 구성과정의 핵심인 자동색인과 용어 간 계층을 자동으로 형성하는 클러스터링 알고리즘에 대한 선행 연구결과를 제시하였다. 그리고 웹 문헌에서 전통적인 종이 형태 문헌의 서지사항에 해당하는 메타데이터를 분석하고 이를 처리하는 방안을 조사함에 의해 웹 문헌에서 색인어를 자동으로 추출할 수 있는 방안에 대하여 연구하였다. 또한 대부분의 웹 문헌에 메타데이터가 수록되어 있지 않음에 착안하여 기존의 웹 문헌에 메타데이터 자동 편집기를 이용하여 메타데이터를 수록하는 방안에 대한 연구결과를 제시하였다.

  • PDF

다중-사용자 시스템에서의 효과적인 동적 웹 문서 발생 방법에 관한 연구 (A Study on the Effective Method of Generating the Dynamic Web Documents in the Multi-user System)

  • 이현창;이종언
    • 한국통신학회논문지
    • /
    • 제31권5B호
    • /
    • pp.478-485
    • /
    • 2006
  • 본 논문에서는 한 서버에 여러 사용자가 존재하는 다중-사용자 시스템에서 동적 웹 문서를 발생시키는데 필요한 조건을 분석하고 이를 효과적으로 발생시키는 방법을 제시하였다. CGI를 이용한 많은 응용에서는 웹 문서 원본의 수정을 위해 CGI 프로그램 원본을 수정하고 새로 컴파일 한 후 브라우저에서 호출해야하는 복잡한 과정을 거치는 데 비해, PSSI 기법은 외부 파일의 형태로 되어있는 HTML 웹 문서 원본만을 수정하는 단순한 작업으로 간소화할 수 있다. 제시한 다중-사용자 PSSI 기법은 웹 문서 원본이 외부 파일 형태로 되어있고 CGI의 장점인 프로그래밍의 유연성과 SSI의 장점인 웹 문서 원본 수정의 용이함을 가진 특징에 의해 프로그램은 1개이면서도 각 사용자들은 자신의 디렉토리에서 사용자 고유의 웹 문서를 작성하고 수정할 수 있음을 실험을 통해 확인하였다. 또한, CGI 서비스가 필요한 경우마다 프로그램을 설치해 사용하는 경우에 비해 서버 관리와 용량 등의 측면에서 우수한 효과가 있음을 확인하였다.

이동통신환경에서 XHTML을 이용한 무선인터넷 문서변환기 분석 및 구현 (Analysis and Implementation of a Web Document Converter for Wireless Internet Use XHTML On Mobile Communication Environment)

  • 백진영;이종옥;조성언;조경룡
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2001년도 추계종합학술대회
    • /
    • pp.105-108
    • /
    • 2001
  • 본 논문은 사용자가 휴대용 단말기를 이용하여 기존의 웹에 접속시 웹서버내의 XHTML 문서를 WML 문서로 변환하는 도구의 설계·구현을 목적으로 한다. 사용자가 XHTML(또는 기존의 HTML문서)의 웹페이지에 접속해 정보를 요청하게 되면 본 문서 변환기는 XHTML 문서 구조를 인식하고, 기준이 되는 기준 텍스트 정보를 추출하여 이를