• 제목/요약/키워드: 랭크 알고리즘

검색결과 48건 처리시간 0.025초

페이지랭크 알고리즘의 재검토 : 놈-누수 현상과 해결 방법 (Revisiting PageRank Computation: Norm-leak and Solution)

  • 김성진;이상호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권3호
    • /
    • pp.268-274
    • /
    • 2005
  • 페이지랭크 알고리즘은 웹 문서들을 효과적으로 랭킹(ranking)하는 것으로 알려져 있다. 페이지랭크 알고리즘은 그 유용함에도 불구하고 경우에 따라 문서의 페이지랭크 값을 본래 값보다 작게 계산하는 현상을 유발한다. 본 논문에서는 이러한 현상을 놈-누수(norm-leak)라 명명하고, 웹 문서의 페이지 랭크 값을 정확히 산출하는 개선된 페이지랭크 알고리즘과 효율적인 구현방법을 제시한다. 또한, 약 67,000,000개의 실제 웹 문서들에 기존의 페이지랭크 알고리즘과 개선된 페이지랭크 알고리즘을 적용하여 그 결과를 비교 평가한다.

페이지랭크 알고리즘 적용을 위한 구현 기술 (Implementation Techniques to Apply the PageRank Algorithm)

  • 김성진;이상호;방지환
    • 정보처리학회논문지D
    • /
    • 제9D권5호
    • /
    • pp.745-754
    • /
    • 2002
  • 1998년에 등장한 구글 검색 사이트(http://www.google.com)에 처음 소개된 페이지랭크 알고리즘은 웹 문서들의 연결 구조에 기반하여 문서들간의 순위를 부여하는 방법이다. 페이지랭크 알고리즘은 상용 검색 엔진에서 구현되어 사용되고 있으나, 상업상의 이유들로 인하여 구현 기법에 관한 연구 결과는 거의 발표되지 않고 있다. [4,8]에서 소개된 페이지랭크 알고리즘의 구현 기법은 웹 문서들의 페이지랭크 값을 산출하기에 충분하지 않다. 본 논문은 페이지랭크 알고리즘의 구현 기법[4,8]을 설명하고, 이를 적용하는데 필요한 입/출력 자료 구조 및 4가지 주요 구현 기술을 제시한다. 본 논문은 실제 웹 문서의 페이지랭크 값을 산출하는 시스템을 예로 들어 페이지랭크 알고리즘을 적용하는 방법에 대한 이해를 돕도록 하였다.

소셜 관계 랭크 및 토픽기반_소셜 관계 랭크 알고리즘; 소셜 검색을 향해 (SRR(Social Relation Rank) and TS_SRR(Topic Sensitive_Social Relation Rank) Algorithm; toward Social Search)

  • 박건우;정재학;이상훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.364-368
    • /
    • 2009
  • "소셜 네트워크(Social Network)와 검색(Search)의 만남"은 현재 인터넷 상에서 매우 의미 있는 두 영역의 결합이다. 이와 같은 두 영역의 결합을 통해 소셜 네트워크 내에서 친구들의 생각이나 관심사 및 활동을 검색하고 공유함으로써 검색의 효율성과 적합성을 높이기 위한 연구들이 활발히 수행되고 있다. 본 논문에서는 일반적인 소셜 관계 랭크(SRR : Social Relation Rank) 및 토픽이 반영된 소셜 관계 랭크(TS_SRR : Topic Sensitive_Social Relation Rank) 알고리즘을 제안한다. SRR은 소셜 네트워크 내에 존재하는 웹 사용자들의 내재적인 특성 및 검색 성향 등에 대한 관련성(또는 유사정도)을 수치로 산정한 '소셜 관계 지수(SRV : Social Relation Value)'에 랭킹(Ranking)을 부여한 것을 의미한다. 제안하는 알고리즘의 검색 적용 가능성을 검증하기 위해 첫째, 웹 사용자간 직접 또는 간접적인 연결로 구성된 소셜네트워크를 구성 한다. 둘째, 웹 사용자들의 속성에 내재된 정보를 이용하여 토픽별 SRV를 산정한 후 랭킹을 부여하고, 토픽별 변화되는 랭킹에 따라 소셜 네트워크를 재구성 한다. 마지막으로 (TS_)SRR과 웹 사용자들의 검색 패턴(Search Pattern)을 비교 실험 한다. 실험 결과 (TS_)SRR이 높은 웹 사용자 간에는 검색 패턴 또한 유사함을 확인 하였다. 결론적으로 (TS_)SRR 알고리즘을 기반으로 관심분야에 연관성이 높은, 즉 상위에 랭크 된 웹 사용자들을 검색하여 검색 패턴을 공유 또는 상속받는 다면 개인화 검색(Personalized Search) 및 소셜 검색(Social Search)의 효율성과 신뢰성 향상에 기여 할 수 있다.

스마트폰 상에서의 개인화 학습을 위한 랭크부스트 알고리즘 (RankBoost Algorithm for Personalized Education of Chinese Characters on Smartphone)

  • 강대기;장원태
    • 한국정보통신학회논문지
    • /
    • 제14권1호
    • /
    • pp.70-76
    • /
    • 2010
  • 본 논문에서는 스마트폰 상에서 한자 학습 시스템을 랭크부스트 알고리즘을 이용하여 개인화하는 방법에 대해 논하고자 한다. 한자 학습의 일반적인 환경을 보면, 학습자는 급수에 따라 일정한 개수의 학습할 한자들이 있으며, 학습이 진행됨에 따라 그 한자들 중 자신이 잘 틀리는, 즉 자신에게는 난이도가 높은 한자들이 생기게 된다. 본 논문에서는 이러한 난이도의 측정을 랭크부스트 알고리즘을 통해 구현하였다. 알고리즘은 초기에는 모든 한자들에 대해 동일한 가중치를 가지고 학습을 시작하게 하지만, 사용자가 자주 틀리는 한자에 대해서는 가중치를 높여 나간다. 본 논문에서 제안하는 랭크부스트 알고리즘은 학습자에 개인화된 난이도 순위를 매겨줌으로, 학습자가 어려운 한자에 더 자주 노출되게 한다면 학습 효과를 높일 수 있다.

국내 인용 데이터베이스에서 저널 페이지랭크 측정 방안 (Journal PageRank Calculation in the Korean Science Citation Database)

  • 이재윤
    • 한국비블리아학회지
    • /
    • 제22권4호
    • /
    • pp.361-379
    • /
    • 2011
  • 이 연구는 국내 인용 데이터베이스에서 저널 페이지랭크를 올바르게 측정할 수 있는 방안을 모색하고자 하였다. 국내 인용 데이터베이스는 해외 인용 데이터베이스에 비해서 인용 링크가 외부로 향하는 비율과 자기 인용 비율이 높다는 특성이 있다. 페이지랭크 공식은 반복 계산을 통해서 수렴하는 알고리즘이기 때문에 이런 특성을 감안하지 않으면 신뢰할만한 저널 페이지랭크 측정이 이루어질 수 없다. 따라서 국내 인용 데이터베이스에 적합한 저널 페이지랭크 측정 방안을 살펴보고 KSCD를 대상으로 측정한 결과를 분석하였다. 산출된 페이지랭크 지수에 대해서 상관분석과 회귀분석으로 검증해본 결과 SCImago 저널 랭크 공식을 적용하고 cr2 방식으로 저널 자기 인용을 조정하는 것이 국내 인용 색인 데이터베이스에서 저널 영향력을 평가하기에 적합한 방안인 것으로 확인되었다.

블로그의 구조적 특성을 고려한 효율적인 블로그 검색 알고리즘 (The Effective Blog Search Algorithm based on the Structural Features in the Blogspace)

  • 김정훈;윤태복;이지형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권7호
    • /
    • pp.580-589
    • /
    • 2009
  • 오늘날, 대부분의 웹 페이지는 블로그영역에서 생성되고 기존의 웹 페이지 또한 블로그영역으로 전환되어가고 있다. 블로그 페이지는 트랙백연결, 블로거, 태그, 댓글과 같은 기폰 웹 페이지에는 존재 하지 않는 특징이 있다. 따라서 이러한 차이를 반영하지 않는 전통적인 웹 페이지 랭킹 알고리즘을 블로그 페이지에 단순히 적용하는 것은 효율적인 검색을 위해 적절하지 않다. 본 논문에서는 이러한 문제를 해결하기 위해 블로그 검색을 위한 "블로그-랭크" 알고리즘을 제안한다. 제안하는 알고리즘은 블로그의 구조적특징들을 활용하여 트랙백 연결성, 블로거의 명성, 사용자 반응성을 평가하고 이를 기반으로 블로그 페이지를 랭크 한다. 우리는 알고리즘의 검색효율성을 증명하기 위해 제안한 알고리즘을 적용한 블로그 검색 시스템을 구현하고 기존의 블로그 검색시스템과 검색효율성을 비교하였으며, 그 결과 블로그 랭크 알고리즘을 적용한 검색시스템이 기존의 검색시스템보다 더욱 뛰어난 검색효율성을 보임을 확인하였다.

페이지 랭크지수와 질의 확장을 이용한 재랭킹 방법 (A Reranking Method Using Query Expansion and PageRank Check)

  • 김태환;전호철;최중민
    • 정보처리학회논문지B
    • /
    • 제18B권4호
    • /
    • pp.231-240
    • /
    • 2011
  • 사람들은 월드 와이드 웹 상에서 사용자가 원하는 정보를 검색하는 여러 알고리즘들을 구현해 왔다. 이렇게 구현된 검색 알고리즘 중 가장 좋은 기술을 가지고 있는 곳은 페이지랭크(PageRank)방식의 구글이다. 하지만 외부에서 참조하는 링크가 많은 문서를 가지고 있는 문서 즉, 대중들이 관심을 가지는 문서를 상위에 보여주는 페이지랭크 방식으론 사용자가 원하는 문서를 찾아서 제공하지 못할 수 있다. 개인에게 가치가 있는 문서를 찾기보다 대중에게 가치가 있는 문서를 찾기 때문이다. 이러한 문제를 해결하기 위하여 본 논문에서는 어휘의 의미를 정확히 표현하고 있는 워드넷을 이용하여 사용자 질의 이력 정보를 분석하여 현재 질의를 확장한 개인적 가치와 페이지 랭크지수를 이용한 대중적 가치를 모두 고려한 방법을 제안한다. 실험결과 제안한 방법은 상위 30개의 검색결과 중 평균 약 60% 결과들에 대해 만족하는 것으로 나타났으며, 구글 검색 결과에 비해 평균 약 14% 향상된 만족도를 나타내었다.

페이지랭크를 이용한 암환자의 이질적인 예후 유전자 식별 및 예후 예측 (Identification of Heterogeneous Prognostic Genes and Prediction of Cancer Outcome using PageRank)

  • 최종환;안재균
    • 정보과학회 논문지
    • /
    • 제45권1호
    • /
    • pp.61-68
    • /
    • 2018
  • 암환자의 예후 예측에 기여하는 유전자를 찾는 것은 환자에게 보다 적합한 치료를 제공하기 위한 도전 과제 중 하나이다. 예후 유전자를 찾기 위해 유전자 발현 데이터를 이용한 분류 모델 개발 연구가 많이 이루어지고 있다. 하지만 암의 이질성으로 인해 예후 예측의 정확도 향상에 한계가 있다는 문제가 있다. 본 논문에서는 유방암을 비롯한 6개의 암에 대한 암환자의 마이크로어레이 데이터와 생물학적 네트워크 데이터를 이용하여 페이지랭크 알고리즘을 통해 예후 유전자들을 식별하고, K-Nearest Neighbor 알고리즘을 사용하여 암 환자의 예후를 예측하는 모델을 제안한다. 그리고 페이지랭크를 사용하기 전에 K-Means 클러스터링으로 유전자 발현 패턴이 비슷한 샘플들을 나누어 이질성을 극복하고자 한다. 본 논문에서 제안한 방법은 기존의 유전자 바이오마커를 찾는 알고리즘보다 높은 예측 정확도를 보여 주었으며, GO 검증을 통해 클러스터에 특이적인 생물학적 기능을 확인하였다.

블로그 검색 성능 향상을 위한 주제-랭크 기법 (The Topic-Rank Technique for Enhancing the Performance of Blog Retrieval)

  • 신현일;윤은일;류근호
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권1호
    • /
    • pp.19-29
    • /
    • 2011
  • 1인 미디어인 블로그에 대한 관심이 증가함에 따라, 블로그 검색과 관련된 다양한 랭킹 알고리즘들이 제안되었다. 이러한 알고리즘들은 블로그가 웹 페이지와 다르게 갖는 구조적 특징에 맞게 변형되었으며, 각 블로그간의 연결이나, 댓글, 트랙백들을 통해 이루어진 상호소통 속에서 나타난 결과들을 바탕으로 블로그의 평판이나 인기도를 수치화하여 검색 시스템에 반영한다. 하지만 실제 블로그 검색에서는 블로그 자체의 랭크뿐만 아니라 검색어와 블로그 글과의 적합성과시간등의요소를복합적으로사용하게된다. 그런데기존에알려진요소만으로는검색결과의품질이낮을수 있다. 본 논문에서는 블로그의 주제와 관련도가 가장 높은 블로그를 찾아 낼 수 있는 주제-랭크 기법을 제안한다. 이 기법은 블로그와 블로그 글의 색인어뿐만 아니라, 블로그 글을 대표하는 주제와의 관계까지 랭킹을 매기는 방법이다. 제안된 기법을 통해 블로그 검색에서 검색어와 블로그의 연관성에 따라 랭킹을 효과적으로 부여할 수 있다. 본 논문 제안하는 주제-랭크 기법을 적용한 블로그 검색 시스템의 정확률과 적용률을 국내의 다른 블로그 검색 시스템들과 비교해 본 결과, 주제-랭크 기법을 사용한 블로그 검색 시스템의 성능이 타 시스템에 비해 더 우수함을 알 수 있었다.

하둡 맵리듀스와 페이지 랭크를 이용한 서울시 대중 교통 인구 이동 분석 (Analysis of the population flow of public transportation in Seoul using Hadoop MapReduce and PageRank algorithm)

  • 백민석;오상윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.354-356
    • /
    • 2022
  • 소셜 네트워크 및 웹 데이터와 같은 대규모 그래프 데이터를 처리하기 위해 병렬 처리 기반의 기법들이 많이 사용되어 왔다. 본 연구에서는 그래프 형식의 대규모 교통 데이터를 하둡 맵리듀스를 이용하여 처리하는 효과적인 기법을 제안한다. 제안하는 방식에서는 도시의 유동 인구 흐름을 가중치로 고려할 수 있도록 Weighted PageRank 알고리즘을 기반으로 하는 병렬 그래프 알고리즘을 사용하며, 해당 알고리즘을 하둡 맵리듀스에 적용하여 주거 및 근무지 등의 지역을 분류하도록 결과를 분석하였다. 제안 기법을 통한 분석 결과를 기반으로 지역 간 유동 인구 그래프 데이터에서 각 도시의 영향력을 측정하는 페이지랭크, 하둡 맵리듀스 기반의 기법을 제시한다.