• 제목/요약/키워드: hyperlinks

검색결과 62건 처리시간 0.021초

하이퍼링크를 이용한 그래프 기반의 웹 문서 클러스터링 (Web Document Clustering based on Graph using Hyperlinks)

  • 이준;강진범;최중민
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.590-595
    • /
    • 2009
  • 인터넷 상의 웹 문서의 수가 기하급수적으로 늘어남에 따라서, 정보검색에서의 웹 문서 클러스터링은 성능과 속도가 매우 중요하게 되었다. 웹 문서 클러스터링은 의미적으로 관계가 있는 웹 문서들을 같은 클러스터로 군집함으로써 정보 검색을 보다 빠르고, 정보를 정확하게 제공할 수 있다. 그물망 그래프 형태의 클러스터링은 모든 문서간의 유사도를 측정함으로써 재현율을 높일 수 있지만, 높은 계산 비용을 갖는다. 본 논문에서는 그물망 형태의 클러스터링의 재현율과 정확율을 유지하며 계산 비용을 줄이기 위하여, 웹 문서의 구조적 특징인 하이퍼링크(Hyperlinks)를 이용한 클러스터링 방법을 제안한다.

  • PDF

웹 문서와 접근로그의 하이퍼링크 추출을 통한 웹 구조 마이닝 (Web Structure Mining by Extracting Hyperlinks from Web Documents and Access Logs)

  • 이성대;박휴찬
    • 한국정보통신학회논문지
    • /
    • 제11권11호
    • /
    • pp.2059-2071
    • /
    • 2007
  • 웹 사이트의 구조가 정확하게 주어진다면, 정보 제공자의 입장에서는 사용자의 행위 패턴이나 특성을 효과적으로 파악할 수 있어 보다 나은 서비스를 제공할 수 있고, 사용자의 입장에서는 더욱 쉽고 정확하게 유용한 정보를 찾을 수 있을 것이다. 하지만 웹상의 문서들은 빈발하게 수정되기 때문에 웹 사이트의 구조를 정확하게 추출하는 것은 상당한 어려움이 있다. 본 논문에서는 이러한 웹 사이트의 구조를 자동으로 추출하는 알고리즘을 제안한다. 제안하는 알고리즘은 두 단계로 구성된다. 첫 번째 단계는 웹 문서를 분석하여 그들 간의 하이퍼링크를 추출하고 이를 웹 사이트의 구조를 나타내는 방향 그래프로 표현한다. 하지만 플래시나 자바 애플릿에 포함된 하이퍼링크는 추출할 수 없는 한계가 있다. 두 번째 단계에서는 이러한 숨겨진 하이퍼링크를 추출하기 위하여 웹 사이트의 접근로그를 이용한다. 즉, 접근로그로부터 각 사용자의 클릭스트림을 추출한 후, 첫 번째 단계에서 생성한 그래프와 비교하여 숨겨진 하이퍼링크를 추출한다. 본 논문에서 제안한 알고리즘의 성능을 평가하기 위하여 다양한 실험을 수행하였고, 이러한 실험을 통하여 웹 사이트의 구조를 보다 정확하게 추출할 수 있음을 확인하였다.

웹 사이트의 구조와 항해가능성 (The Structure of a Web site and Navigability)

  • 민경실;천성규;장기호;정효숙;박성빈
    • 컴퓨터교육학회논문지
    • /
    • 제14권3호
    • /
    • pp.51-62
    • /
    • 2011
  • 항해가능성은 사용자가 웹 사이트에서 원하는 정보를 얼마나 찾기 쉬운지를 말하며 웹 사이트구조에 영향을 받는다. 본 논문에서는 세 종류의 웹 사이트, 즉 작은 세상 구조의 웹 사이트, 준 매트로이드 구조의 웹 사이트, 그리고 온톨로지를 이용한 웹 사이트를 제작하고 각 웹 사이트의 항해 가능성을 두 가지 기준 (사용자가 원하는 정보를 찾기 위해 클릭한 하이퍼링크의 수 및 원하는 정보를 찾기 위해 걸린 시간) 으로 측정하였다. 세가지 구조를 선택한 이유는 각 구조마다 사용자가 정보를 찾기에 도움이 될 수 있도록 하이퍼링크를 만들 수 있기 때문이다. 실험 결과, 한 사용자가 정보를 찾기까지 거쳐 간 링크의 평균 개수는 준 매트로이드 구조의 웹 사이트 (100.37개) < 온톨로지 구조의 웹 사이트 (117.63개) < 작은 세상 구조의 웹 사이트 (236.17개) 순으로 나왔다. 그리고 한 사용자가 정보를 찾는데 소요된 평균 시간은 온톨로지 구조의 웹 사이트 (20분 26초) < 준 매트로이드 구조의 웹 사이트 (23분 6초) < 작은 세상 구조의 웹 사이트(30분 47초) 였다. 따라서 준 매트로이드 구조나 온톨로지 기반 구조의 웹 사이트가 상대적으로 작은 세상 구조의 웹 사이트보다 항해가능 하다고 볼 수 있다. 본 논문에서는 실험 결과를 어떻게 교육용 웹 사이트 설계에 적용할 수 있을 지도 제안하였다.

  • PDF

동적 정보 저장을 위한 자동 하이퍼텍스트 색인 기법의 개발 (Development of an Automatic Hypertext Indexer for Dynamic Information Storage)

  • 이동애;장덕성
    • 한국정보처리학회논문지
    • /
    • 제4권9호
    • /
    • pp.2333-2341
    • /
    • 1997
  • 하이퍼텍스트 정보를 저장할 때 정보가 삽입, 삭제, 변경되면, 인접한 정보들에 대한 하이퍼텍스트 링크도 변화되어야 한다. 하이터텍스트 링크는 하이터텍스트 색인어를 기준으로 관련있는 다른 정보를 찾는 수단을 제공한다. 따라서 하이퍼텍스트 색인어를 관리하는 것이 동적 정보 저장의 핵심이 된다. 본 논문에서는 새로운 정보가 삽입, 삭제, 변경될지라도 시스템이 안정성을 유지하며, 변경된 부분에 대한 하이퍼텍스트 색인어와 하이퍼텍스트 링크가 동적으로 결정될 수 있는 방법을 제시한다. 이를 위해 동적 색인기를 만들고, 동적 색인기의 동작을 돕기 위해 색인어 사전, 불용어 사전, 조사 사전, 역색인 파일, 시소러스 등을 구성한다.

  • PDF

웹 이용자의 접속 정보 분석을 통한 웹 활용 그래프의 구성 및 분석 (An Analysis on the Web Usage Pattern Graph Using Web Users' Access Information)

  • 김후곤;김재교
    • 경영과학
    • /
    • 제23권3호
    • /
    • pp.63-75
    • /
    • 2006
  • There are many kinds of research on web graph, most of them are focus on the hyperlinked structure of the web graph. Well known results on the web graph are rich-get-richer phenomenon, small-world phenomenon, scale-free network, etc. In this paper, we define 3 new directed web graph, so called the Web Usage Pattern Graph (WUPG), that nodes represent web sites arid arcs between nodes represent a movement between two sites by users' browsing behavior. The data to constructing the WUPG, approximately 56,000 records, are gathered from some users' PCs. The results analysing the data summarized as follows : (i) extremely rich-get-richer phenomenon (ii) average path length between sites is significantly less than the previous one (iii) less external hyperlinks, more internal hyperlinks.

웹 이용자의 접속 정보 분석을 통한 웹 활용 그래프의 구성 및 분석 (An analysis on the web usage pattern graph using web users' access information)

  • 김후곤
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 2005년도 추계학술대회 및 정기총회
    • /
    • pp.422-440
    • /
    • 2005
  • There are many kinds of research on web graph, most of them are focus on the hyperlinked structure of the web graph. Well known results on the web graph are rich-get-richer phenomenon, small-world phenomenon, scale-free network, etc. In this paper, we define a new directed web graph, so called the Web Usage Pattern Graph (WUPG), that nodes represent web sites and arcs between nodes represent a movement between two sites by users' browsing behavior. The data to constructing the WUPG, approximately 56,000 records, are gathered in the Kyungsung University. The results analysing the data summarized as follows: (i) extremely rich-get-richer phenomenon (ii) average path length between sites is significantly less than the previous one (iii) less external hyperlinks, more internal hyperlinks

  • PDF

텍스트정보와 하이퍼링크에 기반한 지능형 스팸 메일 필터링 (Intelligent Spam-mail Filtering Based on Textual Information and Hyperlinks)

  • 강신재;김종완
    • 한국지능시스템학회논문지
    • /
    • 제14권7호
    • /
    • pp.895-901
    • /
    • 2004
  • 본 논문은 텍스트 정보와 하이퍼링크에 기반한 2단계 지능형 스팸 메일 필터링에 관한 방법을 제시한다. 일반적으로 스팸 메일의 본문에는 텍스트 문장보다는 그림이 더 많이 포함되어 있기 때문에 단어의 블랙리스트와 같은 전형적인 방법으로 스팸 메일을 구분하기에는 많은 어려움이 따른다. 이러한 문제를 해결하기 위하여 본 논문에서는 스팸 메일에 포함되어 있는 하이퍼링크를 추출하여 해당 웹페이지를 가져온 후, 이를 확장된 형태의 메일 본문이라 간주하여 텍스트 정보를 추출하였다. 또한 스팸 메일을 구분하기 위한 정보를 두 가지로 구분하여 사용하였는데, 메일 송신자의 정보와 확실한 스팸 키워드 리스트를 확실한 정보군으로 구분하여 먼저 적용하고, 이보다 덜 명확한 정보들은 따로 구분하여 속성벡터를 만들어 SVM 알고리즘을 적용하였다. 실험결과 하이퍼링크를 통하여 웹페이지를 가져온 방법이 그냥 원본 메밀만 사용한 방법보다 F-measure 값이 평균 9.4% 의 성능향상을 보였다.

웹페이지의 의학용어 출현 빈도와 하이퍼링크에 기반한 웹사이트 분류 (Website Classification based on Occurrence Frequency of Medical Terms and Hyperlinks in Webpage)

  • 이인근;김화선;조훈
    • 한국지능시스템학회논문지
    • /
    • 제23권2호
    • /
    • pp.126-132
    • /
    • 2013
  • 본 논문은 웹페이지에 포함된 의학용어의 출현 빈도와 웹페이지 간의 하이퍼링크로 이루어진 웹사이트의 구조에 기반하여 인터넷 웹사이트를 분류하는 방법을 제안한다. 제안하는 방법에서는 (1)웹페이지에 포함된 전체 용어에서의 의학용어 출현빈도와 (2)웹페이지에 포함된 중복을 제거한 용어에서의 의학용어 출현 빈도를 인자로 하여 웹페이지의 의학분야 적합도를 측정한다. 그리고 (3)홈페이지로부터 특정 웹페이지에 접근하기 위해 거쳐야 하는 하이퍼링크의 개수를 이용한 전체 웹페이지의 적합도 연산을 통해 웹사이트의 의학분야 적합도를 측정한다. 인터넷 포털 사이트의 디렉토리 검색 서비스에 등록된 80 개의 의학분야 웹사이트와 127 개의 비 의학분야 웹사이트를 대상으로 제안한 방법에 기반하여 웹사이트 분류 실험을 수행하였고, 82.5 %의 분류 정확률을 확인하였다.

대학 웹페이지 방문자 패턴분석 (Analysis on the Visitors' Pattern of the University Webpages)

  • 전미현;권혜정;황자희;김규태;조형준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권4호
    • /
    • pp.153-158
    • /
    • 2018
  • 대학 내 기관별 웹페이지의 방문자 패턴을 분류하고, 하이퍼링크에 따른 네트워크 분석을 통해 방문자수와의 연관성을 연구하였다. 웹페이지 언어에 따라 영문 홈페이지는 국문홈페이지 방문자수와 선형적인 연관관계를 가졌으나 낮은 비율의 방문패턴을 보였으며, 단과대학이 개별학과에 비해 높은 방문자수를 보였다. 웹페이지 하이퍼링크의 중심성(Centrality) 분석에서는 사이 중심성(Betweenness centrality)을 정도(degree)로 정규화한 값이 방문자수의 상한 값에 대응되는 현상이 발견되었다. 홍보효과를 위해 홈페이지 내용, 구조 설계뿐만 아니라 웹상에 적절한 노출 전략도 도움이 됨을 알 수 있었다.

월드와이드웹에 나타난 국제 학술 커뮤니케이션 네트워크에 대한 탐사적 연구 (International Scientific and Scholarly Communication Networks on World Wide Web)

  • 박한우
    • 한국문헌정보학회지
    • /
    • 제37권2호
    • /
    • pp.153-168
    • /
    • 2003
  • 학문공동체에서 월드와이드웹이 대중화되면서 하이퍼링크를 통한 커뮤니케이션이 새롭게 나타나고 있다. 본 논문은 웹이 (특히 하이퍼링크가) 어떻게 학술 커뮤니케이션 네트워크의 한 형태로 이해될 수 있는지에 대해서 검토한다. 본 연구는 아시아 10개국간 공저자 네트워크와 학술 웹사이트간 하이퍼링크 연결구조를 사회 네트워크 이론과 방법론의 관점에서 살펴보았다. 국가간 공저자 네트워크와 학술 하이퍼링크 네트워크는 통계적으로 유의미한 상관관계를 보였다. 이것은 웹에 나타난 온라인 학술 커뮤니케이션 관계와 오프라인 공간의 네트워크가 상호관련성이 있다는 것을 제시한다.