• 제목/요약/키워드: PageRank

검색결과 102건 처리시간 0.029초

Finding Top-k Answers in Node Proximity Search Using Distribution State Transition Graph

  • Park, Jaehui;Lee, Sang-Goo
    • ETRI Journal
    • /
    • 제38권4호
    • /
    • pp.714-723
    • /
    • 2016
  • Considerable attention has been given to processing graph data in recent years. An efficient method for computing the node proximity is one of the most challenging problems for many applications such as recommendation systems and social networks. Regarding large-scale, mutable datasets and user queries, top-k query processing has gained significant interest. This paper presents a novel method to find top-k answers in a node proximity search based on the well-known measure, Personalized PageRank (PPR). First, we introduce a distribution state transition graph (DSTG) to depict iterative steps for solving the PPR equation. Second, we propose a weight distribution model of a DSTG to capture the states of intermediate PPR scores and their distribution. Using a DSTG, we can selectively follow and compare multiple random paths with different lengths to find the most promising nodes. Moreover, we prove that the results of our method are equivalent to the PPR results. Comparative performance studies using two real datasets clearly show that our method is practical and accurate.

최신 분산 그래프 처리 시스템에서의 PageRank/BFS 질의 처리 성능 평가 (Experimental Evaluation of PageRank/BFS Queries on Distributed Graph Processing Systems)

  • 이경준;김현지;이유경;이준영;김강수;한욱신
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.826-828
    • /
    • 2017
  • 그래프는 객체와 객체 간의 관계를 표현하는 데에 있어 효과적인 데이터 표현 방법이다. 그래프 데이터는 웹 그래프, 사회 관계망 서비스, 신약 개발, 생명정보학 등의 다양한 분야에서 활용되고 있으며, 그래프 마이닝 응용에서 활용되기 위한 효율적인 처리 기술을 필요로 한다. 최근까지 그래프 데이터의 처리 및 분석을 위한 많은 시스템들이 개발되었다. 본 논문에서는 최신 분산 그래프 처리 시스템 중에서 대표적인 그래프 분석 질의인 페이지랭크(pagerank)와 너비 우선 탐색(breadth first search)를 수행하고 시스템의 성능을 평가한다.

Anchor Text 정보와 링크 정보를 이용한 정보 검색 모델 (Information Retrieval Model Using Anchor Text Information and Link Information)

  • 한기덕;정성원;허희근;이교운;권혁철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.916-918
    • /
    • 2004
  • 90년대 이전에 정보 검색에 대한 연구는 문서의 내용을 기반으로 한 연구가 주류였으며, 90년대에는 링크를 이용한 연구가 활발하였다. 90년대 말에 Page Rank와 HITS가 링크를 이용한 연구의 대표적 사례이며, 최근에는 문서의 내용과 링크 정보를 같이 이용하는 연구가 많이 발표되고 있다. 본 논문도 문서의 정보와 링크 정보를 이용한 새로운 검색 모델을 제시하고자 한다. 본 논문에서 사용하는 링크 정보는 수집된 문서에서 추출한 Page Rank의 가중치와 한 페이지를 가리키는 링크들의 목록이며, 상용하고자 하는 문서의 정보는 본문 내용과 Anchor Text이다. 링크 정보와 문서 정보를 이용하여 Anchor 벡터와 문서 벡터를 만들고, 각각 질의어 벡터와 Cosine Measure를 하여 값을 구한 후, 더한 값을 해당 문서의 가중치로 하여 검색에 이용한다.

  • PDF

하둡 맵리듀스와 페이지 랭크를 이용한 서울시 대중 교통 인구 이동 분석 (Analysis of the population flow of public transportation in Seoul using Hadoop MapReduce and PageRank algorithm)

  • 백민석;오상윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.354-356
    • /
    • 2022
  • 소셜 네트워크 및 웹 데이터와 같은 대규모 그래프 데이터를 처리하기 위해 병렬 처리 기반의 기법들이 많이 사용되어 왔다. 본 연구에서는 그래프 형식의 대규모 교통 데이터를 하둡 맵리듀스를 이용하여 처리하는 효과적인 기법을 제안한다. 제안하는 방식에서는 도시의 유동 인구 흐름을 가중치로 고려할 수 있도록 Weighted PageRank 알고리즘을 기반으로 하는 병렬 그래프 알고리즘을 사용하며, 해당 알고리즘을 하둡 맵리듀스에 적용하여 주거 및 근무지 등의 지역을 분류하도록 결과를 분석하였다. 제안 기법을 통한 분석 결과를 기반으로 지역 간 유동 인구 그래프 데이터에서 각 도시의 영향력을 측정하는 페이지랭크, 하둡 맵리듀스 기반의 기법을 제시한다.

Malware Containment Using Weight based on Incremental PageRank in Dynamic Social Networks

  • Kong, Jong-Hwan;Han, Myung-Mook
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권1호
    • /
    • pp.421-433
    • /
    • 2015
  • Recently, there have been fast-growing social network services based on the Internet environment and web technology development, the prevalence of smartphones, etc. Social networks also allow the users to convey the information and news so that they have a great influence on the public opinion formed by social interaction among users as well as the spread of information. On the other hand, these social networks also serve as perfect environments for rampant malware. Malware is rapidly being spread because relationships are formed on trust among the users. In this paper, an effective patch strategy is proposed to deal with malicious worms based on social networks. A graph is formed to analyze the structure of a social network, and subgroups are formed in the graph for the distributed patch strategy. The weighted directions and activities between the nodes are taken into account to select reliable key nodes from the generated subgroups, and the Incremental PageRanking algorithm reflecting dynamic social network features (addition/deletion of users and links) is used for deriving the high influential key nodes. With the patch based on the derived key nodes, the proposed method can prevent worms from spreading over social networks.

하이퍼링크 구조를 이용한 웹 검색의 순위 알고리즘에 관한 연구 (The Study on the Ranking Algorithm of Web-based Sear ching Using Hyperlink Structure)

  • 김성희;오건택
    • 정보관리연구
    • /
    • 제37권2호
    • /
    • pp.33-50
    • /
    • 2006
  • 본 연구에서는 하이퍼 링크 구조를 이용한 웹 검색 알고리즘에 대해 살펴 본 후 페이지 품질을 측정하기 위해 웹의 하이퍼 구조를 이용하고 있는 알고리즘인 HITS와 PageRank를 분석하였다. 이어서 이들 방법을 이용한 검색 엔진인 Google과 Ask.com을 검색 알고리즘의 특성을 기준으로 분석하였다. 이런 연구는 미래의 웹 문서의 중요도를 평가하는 데 기초자료로 활용할 수 있으며, 웹 정보검색의 검색성능을 향상시키는 시스템 개발에 도움이 될 수 있을 것이라 생각한다.

기술의 진보와 혁신, 그리고 사회변화: 특허빅데이터를 이용한 정량적 분석 (Innovation of technology and social changes - quantitative analysis based on patent big data)

  • 김용대;정상조;장원철;이종수
    • 응용통계연구
    • /
    • 제29권6호
    • /
    • pp.1025-1039
    • /
    • 2016
  • 본 논문에서는 특허빅데이터를 분석하여 기술적 혁신과 사회변화의 관계를 규명하는 다양한 방법에 대하여 소개를 한다. 특히, 미국특허청에 1985년부터 2015년까지 등록된 4백만개 이상의 특허자료를 분석하였다. 먼저, 특허법의 변천사를 살펴보고 특허법의 발전이 특허활동에 미차는 영향에 대해서 살펴보았다. 두 번째로는, 국가별 기술군별 등록특허수를 바탕으로 군집분석을 이용하여 기술혁신 패턴이 비슷한 국가들로 군집을 만들고 각 군집의 기술혁신 특징들을 살펴보았다. 세번째로는 특허간의 인용정보를 바탕으로 특허간의 네트워크를 구축하고 page-rank 알고리즘을 이용하여 주요특허를 탐지하는 방법을 설명하였다. 마지막으로, 정준상관분석을 이용하여 기술혁신과 사회변화와의 관계를 규명하였다.

네트워크 분석을 이용한 거점평가지표 개발 및 특성분석 (Development and Analysis of the Interchange Centrality Evaluation Index Using Network Analysis)

  • 김수현;박승태;우선희;이승철
    • 대한교통학회지
    • /
    • 제35권6호
    • /
    • pp.525-544
    • /
    • 2017
  • 빅데이터 시대에 발맞추어, 데이터에 기반한 실효성 있는 국토공간 개편의 바람직한 방향을 제시하기 위해 교통 데이터를 활용한 국토개발에 대한 관심이 높아지고 있다. 하지만 현재 교통 데이터에 대한 연구는 데이터 정리 혹은 보정하는 수준에만 머물고 있다. 본 연구는 여기서 더 나아가 데이터를 가공함으로써 국토공간에 존재하는 숨겨진 가치를 제시하고자 한다. 이에 교통 데이터가 네트워크 구조와 유사하다는 점에 착안하여, 네트워크 분석에 사용되는 알고리즘을 통하여 국토공간에 존재하는 가치를 찾고자 하였다. 본 연구는 중심지를 파악하기 위해 PageRank와 HITS알고리즘을 활용하였다. 알고리즘의 거점 평가 지표로서의 성능을 확인하기 위해 TCS데이터를 이용하여 단순교통량과 비교하여 성능을 확인하였다. 이를 통해 단순히 교통량에만 의지하여 제시되었던 중심지들을 더 세분화된 특성에 맞추어 파악할 수 있었다. 알고리즘을 이용하여 찾은 중심지는 시간적, 기능적 특성을 세분화하여 담고 있으므로 경제권 내의 중심지를 판단하는 객관적인 근거로서 지역 거점 선정과 같은 정책적 결정을 위한 기초자료로 활용할 수 있을 것이다.

그래프 모델과 중심성 분석을 이용한 당뇨환자의 처방 및 검사결과의 상관관계 분석 (Analysis on Correlation between Prescriptions and Test Results of Diabetes Patients using Graph Models and Node Centrality)

  • 유강민;박성찬;이수진;유경상;이상구
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권7호
    • /
    • pp.482-487
    • /
    • 2015
  • 본 논문은 11,938명의 당뇨환자 의료데이터를 그래프 모델로 변환하고 중심성 분석 기법으로 처방과 검사결과 간 상관관계를 추출해내는 과정에 대해 다루고 있다. 관계형 데이터베이스로 저장되어있는 데이터를 RDB2Graph 프레임워크를 사용하여 유의미한 그래프로 변환하였다, 변환된 그래프에 Personalized PageRank를 적용하여 처방과 검사 간 상관관계를 분석했다. 사용된 그래프 모델에는 환자 별 의료 기록 모델과 의료 기록의 시간적 간격을 고려한 모델이 있다. 분석 결과 기존의 의학적 지식에 부합하는 상관관계를 다수 발견할 수 있었으며, 본 논문에서는 발견한 상관관계 중 주요 사례를 소개하여 본 분석 방법의 유효함을 보인다.

계량정보학분야의 협력연구 네트워크 및 문헌네트워크 분석 : 국가, 기관, 문헌단위 분석 (Collaboration Networks and Document Networks in Informetrics Research from 2001 to 2011: Finding Influential Nations, Institutions, Documents)

  • 이재윤;최상희
    • 정보관리학회지
    • /
    • 제30권1호
    • /
    • pp.179-191
    • /
    • 2013
  • 계량정보학자들이 학술논문을 통해 과학 연구 동향을 분석하기 시작한 이후 계량서지학, 과학계량학, 계량정보학, 웹계량학, 인용분석 등은 정보학의 주요 분야로 성장하였다. 계량정보학의 최근 동향을 분석하기 위하여 이 연구에서는 계량정보학 연구출판물을 기반으로 하여 이 분야 연구 발전에 기여한 국가, 기관, 논문을 파악하고자 네트워크 분석을 수행하였다. 데이터 수집을 위해서는 SCI 데이터베이스를 이용하였으며 2001년부터 2011년까지 출판된 논문을 대상으로 하였다. 분석기법으로 Pathfinder 네트워크 분석과 PNNC기법을 사용하고, 협력관계와 연구영향도를 측정하기 위한 지표로 PageRank와 h-index 기반의 지표들을 사용하였다. 협력연구네트워크에서 주요한 역할을 하는 국가는 미국과 영국인 것으로 조사되었으며 기관으로는 유럽의 암스테르담 대학과 루벤 카톨릭대학 그리고 미국의 인디아나 대학과 해군연구개발국이 기여를 하고 있는 것으로 나타났다. 개인 논문 수준에서는 PageRank와 single paper h-index 척도로 분석한 결과 Hirsch의 h-index 논문과 Ingwersen의 웹 영향력 지수 논문이 가장 영향력 있는 것으로 조사되었다.