• Title/Summary/Keyword: 웹그래프

Search Result 236, Processing Time 0.031 seconds

Link Analysis of Korean Web Graph (국내 웹 그래프의 링크 구조 분석)

  • Seo, Jung-Joo;Kim, Jin-Il;Kim, Eun-Sang;Kim, Daniel;Jeong, Ha-Woong;Kim, Sung-Ryul;Park, Kun-Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.400-402
    • /
    • 2012
  • 웹을 구성하는 웹 페이지들과 페이지들 사이의 하이퍼링크들은 방향성을 지니는 그래프로써 표현될 수 있으며, 웹 그래프가 가지는 독자적인 링크 구조의 특성은 다양한 분야의 연구에서 활용되고 있다. 현재 검색 엔진들이 수집한 웹 페이지들은 그 규모가 수십억 개로 방대한 양을 이루고 있다. 본 논문에서는 약 3억 개의 국내 웹 페이지들을 수집하고, 링크 데이터를 추출하여 생성한 웹 그래프의 구조에 대해 분석한다. 국내 웹 페이지들의 링크의 진입 차수와 연결 요소들의 크기 분포는 멱법칙을 따르고, 웹 페이지의 진출 차수는 특정 차수 이상에서 멱법칙을 가짐을 확인한다. 또한 그래프 알고리즘을 이용하여 웹 그래프를 구성하는 요소들로 나눈 후 전체적인 구조를 도식화한 보우타이 다이어그램을 도출한다.

Graph Structure and Evolution of the Korea web (한국 웹 그래프와 진화에 대한 연구)

  • Han, In-Kyu;Lee, Sang-Ho
    • The KIPS Transactions:PartD
    • /
    • v.14D no.3 s.113
    • /
    • pp.293-302
    • /
    • 2007
  • The study of the web graph yields valuable insight into web algorithms for crawling, searching and community discovery, and the sociological phenomena which characterize its evolution, also it is useful for understanding the evolution process of web graph and predicting the scale of the Web. In this paper, we report experimental results on properties of the Korea web graph with over 116 million pages and 2.7 billion links. We indicate to study the Korea web properties such as the power law phenomenon and then to analyze the similarity and difference between the global and Korea web graph. Our analysis reveals the Korea web graph have different properties compared with the global web graph from the structure to the evolution of the Web. Finally, a number of measurements of the evolution of the Korea web graph ill be represented.

Information acquision of WEB using the conceptual graph in expert search engine (전문가 검색 엔진에서 개념 그래프를 이용한 Web 정보 획득)

  • 박사준;김상경;황수철;김기태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.295-297
    • /
    • 2000
  • 전문가 검색 엔진은 전문가 시스템과 같은 목적에서 특정 전문 분야에 대한 특수한 정보를 수집 검색하기 위한 검색 엔진을 내용이다. 본 논문은 전문가 검색 엔진을 만드는 과정에서 초기 작업에 해당하는 웹 정보 수집에 대한 논문이다. 본 논문은 웹 페이지에서 하이퍼링크와 참조되는 웹 페이지에 대한 표면 지식을 이용하여, 홈페이지 그래프를 작성한다. 그리고 나서 홈페이지 그래프와 사전에 미리 준비된 개념 그래프를 이용하여, 웹 페이지 수집 중 특정 전문 분야에 해당하는 웹 페이지인지를 판별하여 사용자가 수집하고자 하는 분야에 대한 웹 페이지만을 수집한다. 본 논문은 이에 대한 개념, 설계 및 구현과 앞으로의 개선 상황을 제안한다.

  • PDF

Web Site Evaluation Using Structure Analysis Agents (구조분석 에이전트를 사용한 웹사이트의 평가)

  • 정윤경;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.143-145
    • /
    • 2000
  • 인터넷이 보편화되면서 그에 따른 정보량도 급증하고 있다. 웹문서량이 많아짐에 따라 웹문서를 구조를 이용하여 저장, 분석하는 연구가 활발히 이루어지고 있다. 본 논문에서는 웹사이트를 사용자가 평가하기 위해 계층적인 웹문서들의 관계를 사이트맵으로 구성하며 웹문서 내의 계층구조를 추출, 저장하고 그래픽적으로 표시하였다. 이를 위해 웹문서 내의 계층구조를 위해 W3기관의 공용으로 사용되는 Tidy 라이브러리를 이용하여 URL에 대한 HTML 문서를 얻고 이를 XML로 변환하였다. 변환된 XML 결과로 이진트리를 구성하고 계층구조를 표현하였다. 웹문서들의 사이트맵은 그래프형식과 계층구조형식으로 표현했는데 그래프형식을 이용하여 사이트맵의 연결구조를 파악할 수 있게 하였으며, 계층구조를 이용하여 웹문서간의 계층구조에 따른 정보를 얻을 수 있었다. 사이트맵을 구성하기 위해 URL들의 구조를 인접리스트로 저장하였으며, 방향성 그래프형식을 이용하였다. 또한 웹문서 구조를 계층적으로 구성하기 위해 웹문서의 그래프형식에 대해 BFS(Breadth First Search)방식을 이용했다. 또한 계층적 사이트맵을 이용한 평가항목을 이용하여 증권사이트에 대해 실험하였다. 실험을 통해 본 시스템이 웹사이트 평가에 유용성함을 입증하였다.

  • PDF

웹에서 운영되는 그래프 모형을 위한 동적인 분석 시스템

  • 이우리;최현집
    • Communications for Statistical Applications and Methods
    • /
    • v.5 no.3
    • /
    • pp.755-765
    • /
    • 1998
  • 그래프 대수선형모형은 계층적 대수선형모형의 부분집합이며 연관 그래프로 모형을 나타낼 수 있다. 또한 그래프 대수선형모형은 연관 그래프에서 엣지를 추가하거나 제거하는 것으로 분석을 수행할 수 있다. 본 연구에서는 그래프 대수선형모형이 가진 이러한 특징을 이용한 분석 시스템을 구현하였으며, 본 논문을 통해 이를 소개하고자 한다. 구현된 시스템은 분석자와 상호작용하며 분석결과를 시각적으로 평가할 수 있는 동적 연관 그래프를 제공하며, 단순한 마우스 조작에 의해 명령어 없이 자료입력만으로도 분석을 수행할 수 있도록 설계되었다. 또한 시스템은 자바 애플릿과 어플리케이션으로 구현되었기 때문에 월드 와이드 웹에서 운영할 수 있다.

  • PDF

Visible Web-Based Graph Algorithm Learning System (시각적 웹 기반 그래프 알고리즘 학습 시스템)

  • Yoon, Sun-young;Han, Hyun-Goo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10a
    • /
    • pp.97-102
    • /
    • 2006
  • 정보 통신의 발달과 인터넷 기술의 발달로 그래픽 등의 매체를 통하여 시간과 장소에 구애받지 않는 학습자 수준에서 적절한 교육을 받을 수 있는 쌍방향 멀티미디어 환경의 원격 웹 기반교육(Web Based Instruction, WBI)이 등장하게 되었다. 인터넷을 활용한 교육을 함으로써 개별화된 교육을 할 수 있고, 학습자들이 인터넷을 통해 함께 탐구하고 대화하며 결론에 도달하는 협력 학습의 장을 제공할 수 있게 되었다. 그래프 알고리즘은 자료구조의 한 분야로 종류도 다양하고 개념도 복잡하여 학습자들이 쉽게 이해하지 못하는 부분이 많았다. 본 논문에서는 그래프 알고리즘을 하이퍼텍스트를 통한 단순한 자료의 제시에 그치지 않고 웹의 장점을 살려 플래시를 통해 각 그래프 알고리즘의 수행단계를 시각적으로 보임으로써 그래프 개념을 쉽게 이해하고 여러 종류의 그래프 알고리즘을 효율적으로 반복 학습할 수 있도록 하였다. 또한 C로 구현된 각 알고리즘의 소스를 볼 수 있게 하고 그 결과도 보여줌으로 그래프 알고리즘을 정확히 이해하도록 하였다. 학습 후 평가 문제를 통해 학습자의 이해도를 평가하고 평가 결과를 막대그래프 차트로 보임으로써 비교 평가가 쉽게 구현하였다.

  • PDF

Circuits Detection Algorithms Using Strongly Connected Components in Web Contents (웹 컨텐츠에서 강결합요소를 이용한 순환 탐색 알고리즘)

  • Lee, Woo-Key;Lee, Ja-Mes
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2006.11a
    • /
    • pp.641-651
    • /
    • 2006
  • 거대한 웹 컨텐츠 안에는 수많은 링크들로 인한 순환들이 존재하게 된다. 그 순환들은 강하게 뭉쳐있는 실타래 처럼, 강하게 결합한 순환들의 덩어리 형태로 존재하게 된다. 웹 컨텐츠는 흔히 방향그래프로 표현되는데, 즉 웹 컨텐츠에서 나타나는 수많은 링크둘을 방향그래프에서 강결합요소를 이용하면 모든 순환을 효율적으로 발견할 수 있다. 본 논문에서는 강결합요소를 이용하여 거대한 그래프에서 보다 효율적으로 모든 순환을 찾아낼 수 있는 방법을 제시하였다.

  • PDF

Effective Web Crawling Orderings from Graph Search Techniques (그래프 탐색 기법을 이용한 효율적인 웹 크롤링 방법들)

  • Kim, Jin-Il;Kwon, Yoo-Jin;Kim, Jin-Wook;Kim, Sung-Ryul;Park, Kun-Soo
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.37 no.1
    • /
    • pp.27-34
    • /
    • 2010
  • Web crawlers are fundamental programs which iteratively download web pages by following links of web pages starting from a small set of initial URLs. Previously several web crawling orderings have been proposed to crawl popular web pages in preference to other pages, but some graph search techniques whose characteristics and efficient implementations had been studied in graph theory community have not been applied yet for web crawling orderings. In this paper we consider various graph search techniques including lexicographic breadth-first search, lexicographic depth-first search and maximum cardinality search as well as well-known breadth-first search and depth-first search, and then choose effective web crawling orderings which have linear time complexity and crawl popular pages early. Especially, for maximum cardinality search and lexicographic breadth-first search whose implementations are non-trivial, we propose linear-time web crawling orderings by applying the partition refinement method. Experimental results show that maximum cardinality search has desirable properties in both time complexity and the quality of crawled pages.

Effective Information Extraction Wrapper Generation and Maintenance by Using a Block-Based Graph Model (블록 단위 그래프 모델을 통한 효율적인 정보 추출 Wrapper 생성과 유지 관리)

  • Park, Ju-Young;Yang, Jae-Young;Choi, Joong-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10c
    • /
    • pp.322-327
    • /
    • 2007
  • 기존의 정보 추출에서는 웹 문서의 구조가 변경되었을 때 Wrapper가 원하는 정보를 추출할 수 없었다. 또한 웹 문서의 구조가 바뀌는 경우 동일한 정보를 Wrapping함에도 불구하고 사용자는 정보를 추출 할 수 없었던 이유를 찾지 못하는 경우가 대부분이었다. 이 문제를 해결하기 위해 본 논문에서는 Web 페이지를 시각적 블록 단위로 잘라 인접한 블록들을 통해 그래프를 형성하여 웹 문서의 구조가 일부 변경되어도 기존의 Wrapper를 통해 정보를 추출할 수 있도록 보다 효율적으로 Wrapper를 생성하고 유지관리 하는 방법을 제안한다. 또한 웹 문서를 블록 단위로 분할하여 그래프를 생성함으로써 블록 내부에 추출하고자 하는 정보에 대한 규칙이 좀 더 유연하게 표현 될 수 있으며 문서의 구조가 아닌 추출하고자 하는 정보를 중심으로 규칙을 생성함으로써 그래프의 구조뿐 아니라 그래프를 구성하고 있는 블록 내부의 구조가 일부 변하더라도 기존의 규칙을 이용하여 정보를 추출할 수 있도록 하였다.

  • PDF

Directed Graph by Integrating Web Document Hyperlink and Web Access Log for Web Mining (웹 마이닝을 위한 웹 문서 하이퍼링크와 웹 접근로그를 통합한 방향그래프)

  • Park, Chul-Hyun;Lee, Seong-Dae;Kwak, Yong-Won;Jeon, Sung-Hwan;Park, Hyu-Chan
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.16-18
    • /
    • 2005
  • 웹은 사용자가 원하는 정보를 쉽고 정확하게 검색할 수 있도록 웹 문서를 자료구조화하여 보다 신뢰성 있는 패턴을 추출하고 사용자의 특성과 행동 패턴을 적용하여 개인화 하여야한다. 본 논문에서는 개인화하기 위한 전처리 과정으로서 웹 문서를 구조화 하는 방법을 제안한다. 제안 방법은 기본적으로 웹 문서 태그의 하이퍼링크를 깊이 우선 탐색 알고리즘을 사용하여 방향그래프를 만드는 것이다. 이때 웹 문서 태그 탐색 시 플래시, 스크립트 등의 찾기 힘든 하이퍼링크를 찾는 문제와 '뒤로' 버튼 사용 시 웹 접근로그에 기록되지 않는 문제점을 보완한다. 이를 위해 클릭 스트림을 스택에 저장하여 이미 만들어진 방향그래프와 비교하여 새롭게 찾은 정점과 간선을 추가함으로써 보다 신뢰성높은 방향그래프를 만든다.

  • PDF