• 제목/요약/키워드: Journal PageRank

검색결과 80건 처리시간 0.144초

PageRank 변형 알고리즘들 간의 순위 품질 평가 (Ranking Quality Evaluation of PageRank Variations)

  • 팜민득;허준석;이정훈;황규영
    • 전자공학회논문지CI
    • /
    • 제46권5호
    • /
    • pp.14-28
    • /
    • 2009
  • PageRank 알고리즘은 구글(Google)등의 검색 엔진에서 웹 페이지의 순위(rank)를 정하는 중요한 요소이다. PageRank 알고리즘의 순위 품질(ranking quality)을 향상시키기 위해 많은 변형 알고리즘들이 제안되었지만 어떤 변형 알고리즘(혹은 변형 알고리즘들간의 조합)이 가장 좋은 순위 품질을 제공하는지가 명확하지 않다. 본 논문에서는 PageRank 알고리즘의 잘 알려진 변형 알고리즘들과 그들 간의 조합들에 대해 순위 품질을 평가한다. 이를 위해, 먼저 변형 알고리즘들을 웹의 링크(link) 구조를 이용하는 링크기반 방법(Link-based approaches)과 웹의 의미 정보를 이용하는 지식기반 방법(Knowledge-based approaches)으로 분류한다. 다음으로, 이 두 가지 방법에 속하는 알고리즘들을 조합한 알고리즘들을 제안하고, 변형 알고리즘들과 그들을 조합한 알고리즘들을 구현한다. 백만 개의 웹 페이지들로 구성된 실제 데이터에 대한 실험을 통해 PageRank의 변형 알고리즘들과 그들 간의 조합들로부터 가장 좋은 순위 품질을 제공하는 알고리즘을 찾는다.

페이지랭크 알고리즘의 재검토 : 놈-누수 현상과 해결 방법 (Revisiting PageRank Computation: Norm-leak and Solution)

  • 김성진;이상호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권3호
    • /
    • pp.268-274
    • /
    • 2005
  • 페이지랭크 알고리즘은 웹 문서들을 효과적으로 랭킹(ranking)하는 것으로 알려져 있다. 페이지랭크 알고리즘은 그 유용함에도 불구하고 경우에 따라 문서의 페이지랭크 값을 본래 값보다 작게 계산하는 현상을 유발한다. 본 논문에서는 이러한 현상을 놈-누수(norm-leak)라 명명하고, 웹 문서의 페이지 랭크 값을 정확히 산출하는 개선된 페이지랭크 알고리즘과 효율적인 구현방법을 제시한다. 또한, 약 67,000,000개의 실제 웹 문서들에 기존의 페이지랭크 알고리즘과 개선된 페이지랭크 알고리즘을 적용하여 그 결과를 비교 평가한다.

PageRank 알고리즘을 이해하기 위한 언플러그드 활동 (An Unplugged Activity to Understand the PageRank Algorithm)

  • 박영기
    • 정보교육학회논문지
    • /
    • 제22권4호
    • /
    • pp.409-417
    • /
    • 2018
  • 현재 초등학생에게 인터넷을 가르칠 수 있는 여러 언플러그드 활동들이 개발되어 있다. 그러나 이 활동들은 인터넷의 작동 원리를 가르치는 것이 주목적이기 때문에, 초등학생들에게 웹(Web)의 개념을 알려주기에는 충분하지 않다. 웹은 인터넷처럼 제3차 산업혁명의 핵심 기술일 뿐만 아니라 학생들이 매일 접하는 기술이기 때문에 기본 상식으로 알아둘 필요가 있다. 본 논문에서는 초등학생에게 웹을 이해시키기 위해, PageRank 알고리즘의 원리를 이해하는 언플러그드 활동을 개발하였다. 개발된 언플러그드 활동은 실제 PageRank 알고리즘을 상당히 높은 정확도로 모사한다는 것을 실험적으로 나타내었다.

페이지랭크 알고리즘 적용을 위한 구현 기술 (Implementation Techniques to Apply the PageRank Algorithm)

  • 김성진;이상호;방지환
    • 정보처리학회논문지D
    • /
    • 제9D권5호
    • /
    • pp.745-754
    • /
    • 2002
  • 1998년에 등장한 구글 검색 사이트(http://www.google.com)에 처음 소개된 페이지랭크 알고리즘은 웹 문서들의 연결 구조에 기반하여 문서들간의 순위를 부여하는 방법이다. 페이지랭크 알고리즘은 상용 검색 엔진에서 구현되어 사용되고 있으나, 상업상의 이유들로 인하여 구현 기법에 관한 연구 결과는 거의 발표되지 않고 있다. [4,8]에서 소개된 페이지랭크 알고리즘의 구현 기법은 웹 문서들의 페이지랭크 값을 산출하기에 충분하지 않다. 본 논문은 페이지랭크 알고리즘의 구현 기법[4,8]을 설명하고, 이를 적용하는데 필요한 입/출력 자료 구조 및 4가지 주요 구현 기술을 제시한다. 본 논문은 실제 웹 문서의 페이지랭크 값을 산출하는 시스템을 예로 들어 페이지랭크 알고리즘을 적용하는 방법에 대한 이해를 돕도록 하였다.

국내 인용 데이터베이스에서 저널 페이지랭크 측정 방안 (Journal PageRank Calculation in the Korean Science Citation Database)

  • 이재윤
    • 한국비블리아학회지
    • /
    • 제22권4호
    • /
    • pp.361-379
    • /
    • 2011
  • 이 연구는 국내 인용 데이터베이스에서 저널 페이지랭크를 올바르게 측정할 수 있는 방안을 모색하고자 하였다. 국내 인용 데이터베이스는 해외 인용 데이터베이스에 비해서 인용 링크가 외부로 향하는 비율과 자기 인용 비율이 높다는 특성이 있다. 페이지랭크 공식은 반복 계산을 통해서 수렴하는 알고리즘이기 때문에 이런 특성을 감안하지 않으면 신뢰할만한 저널 페이지랭크 측정이 이루어질 수 없다. 따라서 국내 인용 데이터베이스에 적합한 저널 페이지랭크 측정 방안을 살펴보고 KSCD를 대상으로 측정한 결과를 분석하였다. 산출된 페이지랭크 지수에 대해서 상관분석과 회귀분석으로 검증해본 결과 SCImago 저널 랭크 공식을 적용하고 cr2 방식으로 저널 자기 인용을 조정하는 것이 국내 인용 색인 데이터베이스에서 저널 영향력을 평가하기에 적합한 방안인 것으로 확인되었다.

트위터에서 형태소 분석과 PageRank 기반 화제단어 추출 방법 제안 (Proposal of keyword extraction method based on morphological analysis and PageRank in Tweeter)

  • 이원형;조성일;김동회
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.157-163
    • /
    • 2018
  • SNS를 이용하는 사람들은 매일 자신의 다양한 생각을 SNS에 게시한다. SNS에 게시된 데이터는 수많은 사람들의 생각과 의견이 담겨있다고 할 수 있다. 특히 트위터에서 서비스되는 인기 화제어는 사용자가 올린 글에서 자주 등장한 단어의 횟수를 집계해 순위를 결정한다. 하지만 이와 같은 방법은 단순히 중복된 단어가 나열된 불필요한 데이터에 민감하다. 제안하는 방법은 단어간의 관계도를 이용한 단어의 화제성을 기반으로 순위를 결정하므로 불필요한 데이터의 영향을 적게 받고 주요단어를 안정적으로 추출할 수 있다. 성능 비교를 위하여 내림차순 화제어 순위와 상위 20개중에서 의미 없는 화제어의 비율 측면에서 형태소 분석과 PageRank 기반의 제안 방식과 단순 등장 횟수 기반의 기존 방식을 비교한다. 제안하는 방안과 기존 방안은 상위 20개중에서 무의미한 화제어를 각각 55%과 70%를 순위권에 포함시켰으며 제안한 방법이 기존 방법과 비교할 때 15% 정도 향상된다.

특허 인용 네트워크 분석 (Patent citation network analysis)

  • 이민정;김용대;장원철
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.613-625
    • /
    • 2016
  • 과학 기술의 발전은 사회를 급격하게 변화시켜 왔다. 특허 자료 분석은 현대 과학 기술의 흐름을 이해하고 미래 유망기술을 예측할 수 있게 한다. 본 연구에서는 기술의 동향을 파악하고자 1985년과 2012년 사이에 미국 특허청에 등록된 특허를 중심으로 특허 인용 네트워크를 분석한다. 주요 기술군을 파악하기 위해 PageRank 알고리즘 외에 다양한 중심성 지표를 이용하고, 통계적 네트워크 모형을 통해 유사한 기술들의 군집을 찾아내고자 한다.

하이퍼텍스트 정보 관점에서 의도적으로 왜곡된 웹 페이지의 검출에 관한 연구 (Detecting Intentionally Biased Web Pages In terms of Hypertext Information)

  • 이우기
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권1호
    • /
    • pp.59-66
    • /
    • 2005
  • 웹(World Wide Web)은 정보의 저장 및 검색에 있어서 보편적인 매체가 되고 있다 웹에서는 일반적으로 검색엔진(Web search engine)을 통해 정보 검색을 수행하지만, 그 결과가 사용자의 요구와 늘 일치하는 것은 아니며 때로는 의도적으로 조작된 검색 결과가 제시되기도 한다. 웹 페이지에 대한 평가를 조작하는 것을 의도적 조작이라고 부른다. 최근에 가장 각광을 받는 링크 기반 검색 방식에는 의도적 조작이 상대적으로 어렵지만, 링크 기반 검색 방식의 대표격인 구글의 페이지 점수법(PageRank algorithm)도 구글밤처럼 조작할 수 있는 방법이 있다 본 논문에서는 기본적으로 링크 기반 검색 방식을 기초로 웹을 하나의 유향그래프(directed graph)로 인식하여 각 웹 페이지들은 하나의 노드로, 하이퍼텍스트 링크를 에지(edge)로 표현하며. 하이퍼텍스트 정보관점에서 링크 내역과 대상 페이지(target page) 사이의 유사도(similarity)를 구하고. 이것을 이용하여 페이지 점수화 (PageRank) 접근법의 전이 행렬(transition matrix)을 재구성하는 방법을 취했다 결과적으로 기존의 점수화 방법과 비교하여 효과가 $60\%$ 이상 될 수 있음을 입증했다.

  • PDF

페이지 랭크지수와 질의 확장을 이용한 재랭킹 방법 (A Reranking Method Using Query Expansion and PageRank Check)

  • 김태환;전호철;최중민
    • 정보처리학회논문지B
    • /
    • 제18B권4호
    • /
    • pp.231-240
    • /
    • 2011
  • 사람들은 월드 와이드 웹 상에서 사용자가 원하는 정보를 검색하는 여러 알고리즘들을 구현해 왔다. 이렇게 구현된 검색 알고리즘 중 가장 좋은 기술을 가지고 있는 곳은 페이지랭크(PageRank)방식의 구글이다. 하지만 외부에서 참조하는 링크가 많은 문서를 가지고 있는 문서 즉, 대중들이 관심을 가지는 문서를 상위에 보여주는 페이지랭크 방식으론 사용자가 원하는 문서를 찾아서 제공하지 못할 수 있다. 개인에게 가치가 있는 문서를 찾기보다 대중에게 가치가 있는 문서를 찾기 때문이다. 이러한 문제를 해결하기 위하여 본 논문에서는 어휘의 의미를 정확히 표현하고 있는 워드넷을 이용하여 사용자 질의 이력 정보를 분석하여 현재 질의를 확장한 개인적 가치와 페이지 랭크지수를 이용한 대중적 가치를 모두 고려한 방법을 제안한다. 실험결과 제안한 방법은 상위 30개의 검색결과 중 평균 약 60% 결과들에 대해 만족하는 것으로 나타났으며, 구글 검색 결과에 비해 평균 약 14% 향상된 만족도를 나타내었다.

링크내역을 이용한 페이지점수법 알고리즘 (PageRank Algorithm Using Link Context)

  • 이우기;신광섭;강석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권7호
    • /
    • pp.708-714
    • /
    • 2006
  • 웹은 정보의 저장 및 검색에 있어서 보편적인 매체가 되고 있다. 웹에서 정보 검색은 검색엔진을 출발점으로 이용하는 것이 대부분이지만, 그 결과는 사용자의 요구와 늘 일치하는 것은 아니며 때로는 의도적으로 조작된 검색 결과가 제시되기도 한다. 검색엔진의 데이타를 의도적으로 조작하는 것을 스패밍(spamming)이라고 부르며, 다양한 스패밍과 방지기술이 있지만, 최근에 각광을 받고있는 링크기반 검색 방식에는 스패밍이 쉽지 않은 것으로 알려져 있다. 그러나 이러한 방식에서도 구글폭탄(Google Bombing)과 같이 페이지점수법(PageRank)을 조작할 수 있는 약점이 있다. 본 논문에서는 이러한 약점을 방지할 수 있는 알고리즘을 제시한다. 기본적으로 링크 기반 검색 방식을 기초로 하여 웹을 하나의 유향 레이블 그래프로 인식하여 각 웹 페이지들은 하나의 노드로, 하이퍼링크는 에지로 표현함에 있어서 본 연구에서는 링크구조를 기반으로 링크내역(link context)을 부여하고 이를 에지의 레이블로 사용한다. 링크내역과 대상 페이지 사이의 유사도를 구하고, 이것을 이용하여 페이지점수법의 인접행렬을 재구성하는 방법을 취했다. 결과로써 기존의 방법 및 특이값 추출기법(SVD)에 기반한 새로운 기준을 도입해 그 효과를 입증했다.