• 제목/요약/키워드: web structure

검색결과 1,303건 처리시간 0.036초

Web Structure Management기법을 이용한 Spamming page filtering algorithm (Spamming page filtering algorithm using Web structure management management)

  • 신광섭;이우기;강석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.238-240
    • /
    • 2004
  • 정보 통신 기술의 발달로 엄청난 양의 정보가 World Wide Web을 통해 저장되고 공유된다. 특히, 사용자가 WWW을 이용하여 필요한 정보를 얻고자할 때, 가장 많이 사용되는 것이 Web search engine이다. 그러나 Web search engine의 algorithm 자체의 부정확성과 악의적으로 작성된 Web page로 인해 search engine 결과가 사용자의 요구와 일치하지 못하는 문제가 발생한다. 본 논문에서는 여러 Web search algorithm 중에서 Web structure management 기법을 중심으로 문제점을 분석하고 이를 해결할 수 있는 수정된 algorithm을 제시한다. 마지막으로 제시된 algorithm이 spamming page를 filtering하는 과정을 예시하여 논증한다.

  • PDF

월드와이드웹의 내용기반 구조최적화 (Optimization Model on the World Wide Web Organization with respect to Content Centric Measures)

  • 이우기;김승;김한도;강석호
    • 한국경영과학회지
    • /
    • 제30권1호
    • /
    • pp.187-198
    • /
    • 2005
  • The structure of a Web site can prevent the search robots or crawling agents from confusion in the midst of huge forest of the Web pages. We formalize the view on the World Wide Web and generalize it as a hierarchy of Web objects such as the Web as a set of Web sites, and a Web site as a directed graph with Web nodes and Web edges. Our approach results in the optimal hierarchical structure that can maximize the weight, tf-idf (term frequency and inverse document frequency), that is one of the most widely accepted content centric measures in the information retrieval community, so that the measure can be used to embody the semantics of search query. The experimental results represent that the optimization model is an effective alternative in the dynamically changing Web environment by replacing conventional heuristic approaches.

웹 사용 데이타와 하이퍼링크 구조를 통합한 웹 네비게이션 마이닝 (Web Navigation Mining by Integrating Web Usage Data and Hyperlink Structures)

  • 구흠모;최중민
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.416-427
    • /
    • 2005
  • 웹 네비게이션 마이닝은 웹 접근 로그 데이타를 분석하여 웹을 항해하는 패턴을 발견하는 기법이다. 하지만 사용자들은 웹을 항해할 때 정상적인 계층적 경로를 따르지 않는 경우가 많기 때문에 웹 접근 로그 데이타에는 웹 항해 패턴 발견에 장애가 되는 잡음 정보가 많이 포함된다. 결과적으로 웹 접근 로그 데이타만을 이용한 기존의 웹 네비게이션 마이닝은 이런 잡음을 해결하기 위한 전처리 과정의 복잡성 등으로 인하여 웹 항해 패턴을 효율적으로 발견하는 데 좋은 성능을 보여주지 못했다. 이런 문제를 해결하기 위해 본 논문에서는 웹 접근 로그 데이타 외에 웹의 하이퍼링크 구조 정보를 함께 이용하여 웹 네비게이션 패턴을 효율적으로 발견하는 기법을 제시하였다. 웹 사이트의 계층적인 하이퍼링크 구조로부터 생성된 WebTree라 불리는 구조를 이용하여 웹 접근 로그 데이타에 포함된 비정상적인 경로에 대한 잡음을 효율적으로 제거하였다. 이 기법을 이용해 구현된 SPMiner(Sequence Pattern Miner) 시스템은 로그 데이타와 하이퍼링크 계층구조를 함께 이용함으로써 전처리의 오버헤드를 현저히 감소시켰고 결과적으로 효율적으로 네비게이션 패턴을 찾아주고 이를 추천에 이용할 수 있는 기반을 제시하였다.

점진적인 웹 마이닝을 위한 효율적인 후보패턴 저장 트리구조 및 알고리즘 (An Efficient Candidate Pattern Storage Tree Structure and Algorithm for Incremental Web Mining)

  • 강희성;박병준
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2006년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.3-5
    • /
    • 2006
  • Recent advances in the internet infrastructure have resulted in a large number of huge Web sites and portals worldwide. These Web sites are being visited by various types of users in many different ways. Among all the web page access sequences from different users, some of them occur so frequently that may need an attention from those who are interested. We call them frequent access patterns and access sequences that can be frequent the candidate patterns. Since these candidate patterns play an important role in the incremental Web mining, it is important to efficiently generate, add, delete, and search for them. This thesis presents a novel tree structure that can efficiently store the candidate patterns and a related set of algorithms for generating the tree structure adding new patterns, deleting unnecessary patterns, and searching for the needed ones. The proposed tree structure has a kind of the 3 dimensional link structure and its nodes are layered.

  • PDF

Characterization of nano-fiber web structures using a morphological image processing

  • Kim, Jooyong;Lee, Jung-Hae
    • 한국섬유공학회:학술대회논문집
    • /
    • 한국섬유공학회 2003년도 The Korea-Japan Joint Symposium
    • /
    • pp.100-100
    • /
    • 2003
  • An image processing algorithm has been developed in order to analyze the nanofiber web images obtained from a high magnification microscope. It has been known that precise pore detection on thick webs is extremely difficult mainly due to lack of light uniformity, difficulty of fine focusing and translucency of nanofiber web. The pore detection algorithm developed has been found to show excellent performance in characterizing the porous structure, thus being a promising tool for on-line quality control system under mass production. Since the images obtained from an optical microscope represent only web surface, a scale factor has been introduced to estimate the web structure as a whole. Resulting web structures have been compared to those by mercury porosimetry, especially in pore size distribution. It has been shown that those two structures have a strong correlation, indicating that scaling of a single layer web structure can be an effective way of estimating the structure of thick fiber webs.

  • PDF

분산 환경하에서의 웹기반 시뮬레이션에 관한 연구 (Web-Based Simulation under Distributed Environment)

  • 이영해
    • 한국시뮬레이션학회논문지
    • /
    • 제7권2호
    • /
    • pp.79-90
    • /
    • 1998
  • This paper introduces the concept of web-based simulation and suggests the structure of web-based simulation which reduces the simulation run time and performs simulations in efficient way under distributed environments. Since its introducing in 1996, web-based simulation has been studied only with a tool of applet, but in this paper a method of server applications for client applets will be used. In server application, server transfers objects requested by clients such as simulation engines, reports, files. After each client connects to web-server, and then server allocates simulation modules to connected clients. These work magnify the transferring applets from server and simulation models which were made by clients. This paper also processes a structure for managing efficiently web-based simulation under distributed environment and steps in which clients connect, model, simulate with distributed structure, and programs of proposed structure.

  • PDF

웹 사이트의 구조와 항해가능성 (The Structure of a Web site and Navigability)

  • 민경실;천성규;장기호;정효숙;박성빈
    • 컴퓨터교육학회논문지
    • /
    • 제14권3호
    • /
    • pp.51-62
    • /
    • 2011
  • 항해가능성은 사용자가 웹 사이트에서 원하는 정보를 얼마나 찾기 쉬운지를 말하며 웹 사이트구조에 영향을 받는다. 본 논문에서는 세 종류의 웹 사이트, 즉 작은 세상 구조의 웹 사이트, 준 매트로이드 구조의 웹 사이트, 그리고 온톨로지를 이용한 웹 사이트를 제작하고 각 웹 사이트의 항해 가능성을 두 가지 기준 (사용자가 원하는 정보를 찾기 위해 클릭한 하이퍼링크의 수 및 원하는 정보를 찾기 위해 걸린 시간) 으로 측정하였다. 세가지 구조를 선택한 이유는 각 구조마다 사용자가 정보를 찾기에 도움이 될 수 있도록 하이퍼링크를 만들 수 있기 때문이다. 실험 결과, 한 사용자가 정보를 찾기까지 거쳐 간 링크의 평균 개수는 준 매트로이드 구조의 웹 사이트 (100.37개) < 온톨로지 구조의 웹 사이트 (117.63개) < 작은 세상 구조의 웹 사이트 (236.17개) 순으로 나왔다. 그리고 한 사용자가 정보를 찾는데 소요된 평균 시간은 온톨로지 구조의 웹 사이트 (20분 26초) < 준 매트로이드 구조의 웹 사이트 (23분 6초) < 작은 세상 구조의 웹 사이트(30분 47초) 였다. 따라서 준 매트로이드 구조나 온톨로지 기반 구조의 웹 사이트가 상대적으로 작은 세상 구조의 웹 사이트보다 항해가능 하다고 볼 수 있다. 본 논문에서는 실험 결과를 어떻게 교육용 웹 사이트 설계에 적용할 수 있을 지도 제안하였다.

  • PDF

웹 문서와 접근로그의 하이퍼링크 추출을 통한 웹 구조 마이닝 (Web Structure Mining by Extracting Hyperlinks from Web Documents and Access Logs)

  • 이성대;박휴찬
    • 한국정보통신학회논문지
    • /
    • 제11권11호
    • /
    • pp.2059-2071
    • /
    • 2007
  • 웹 사이트의 구조가 정확하게 주어진다면, 정보 제공자의 입장에서는 사용자의 행위 패턴이나 특성을 효과적으로 파악할 수 있어 보다 나은 서비스를 제공할 수 있고, 사용자의 입장에서는 더욱 쉽고 정확하게 유용한 정보를 찾을 수 있을 것이다. 하지만 웹상의 문서들은 빈발하게 수정되기 때문에 웹 사이트의 구조를 정확하게 추출하는 것은 상당한 어려움이 있다. 본 논문에서는 이러한 웹 사이트의 구조를 자동으로 추출하는 알고리즘을 제안한다. 제안하는 알고리즘은 두 단계로 구성된다. 첫 번째 단계는 웹 문서를 분석하여 그들 간의 하이퍼링크를 추출하고 이를 웹 사이트의 구조를 나타내는 방향 그래프로 표현한다. 하지만 플래시나 자바 애플릿에 포함된 하이퍼링크는 추출할 수 없는 한계가 있다. 두 번째 단계에서는 이러한 숨겨진 하이퍼링크를 추출하기 위하여 웹 사이트의 접근로그를 이용한다. 즉, 접근로그로부터 각 사용자의 클릭스트림을 추출한 후, 첫 번째 단계에서 생성한 그래프와 비교하여 숨겨진 하이퍼링크를 추출한다. 본 논문에서 제안한 알고리즘의 성능을 평가하기 위하여 다양한 실험을 수행하였고, 이러한 실험을 통하여 웹 사이트의 구조를 보다 정확하게 추출할 수 있음을 확인하였다.

웹 문서로부터 논리적 구조 추출 (Extracting Logical Structure from Web Documents)

  • 이민형;이경호
    • 한국멀티미디어학회논문지
    • /
    • 제7권10호
    • /
    • pp.1354-1369
    • /
    • 2004
  • 본 논문에서는 웹 문서를 XML 문서로 변환하기 위한 논리적 구조분석 방법을 제안한다. 제안된 방법은 비주얼 그룹화, 요소 식별, 그리고 논리적 그룹화의 세 단계로 구성된다. 특히 정교한 수준의 논리적 구조분석을 지원하기 위하여 특정 주제에 속하는 문서 유형의 논리적 계층 구조를 효과적으로 기술할 수 있는 문서 모델을 정의한다. 제안된 방법은 비주얼 그룹화를 통해서 추출된 시각적 계층구조와 문서 유형에 대한 논리적 구조 정보를 기술한 문서 모델에 기반하기 때문에 보다 정교한 수준의 구조 분석을 지원한다. 제안된 방법의 성능을 평가하기 위하여 웹으로부터 추출한 다수의 HTML 문서를 대상으로 실험한 결과, 기존 연구와 비교하여 논리적 구조분석을 성공적으로 수행하였다. 제안된 방법은 논리적 구조분석의 최종 결과로서 XML문서를 생성하기 때문에 문서의 재 사용성을 높인다.

  • PDF

유지보수에 특화된 웹 문서 작성기의 설계 및 구현 (Design and Implementation of a WebEditor Specialized for Web-Site Maintenance)

  • 조영석;권용호;도재수
    • 융합보안논문지
    • /
    • 제7권4호
    • /
    • pp.73-81
    • /
    • 2007
  • 웹 사이트들은 정보의 양이 방대해지고 웹 문서들의 잦은 생성, 삭제와 수정이 반복되면서 더욱 복잡한 구조의 양상을 띠게 되었으며 사용자가 원하는 최적의 정보에 접근하는 방법 또한 예측하기 힘든 구조를 가지게 되었다. 또한 웹 사이트를 처음 만드는데 들이는 노력에 비해 유지 보수에는 요구되는 비용 때문에 적은 노력을 들이고 있다. 이런 환경에서 웹 문서간의 관계와 그 관계들의 유효성을 분석하여 그 정보가 제공된다면 개발자 뿐 아니라 관리자들도 효과적이고 효율적인 서비스를 제공할 수 있다. 웹 사이트 전체의 구조를 쉽게 파악할 수 있고 하이퍼링크의 유효성을 확인하기 위해 웹 문서의 분석을 통해 하이퍼링크의 구조를 추출하고 체계적인 방법으로 웹 사이트를 관리 하는데 필요한 여러 가지 정보를 제공하여야 한다. 본 논문에서는 HTML 태그를 분석하여 하이퍼링크 정보를 추출, 문서간의 관계를 체계적으로 구조화 하고 관계를 이루는 하이퍼링크가 유효한지 여부를 판단하여 알려주는 두 가지 방법을 사용하여 웹 사이트의 유지 보수를 지원함과 동시에 새로운 문서를 생성 편집할 수 있는 웹 문서 작성 방안을 제안한다.

  • PDF