• 제목/요약/키워드: PageRank

검색결과 102건 처리시간 0.022초

폭소노미 사이트를 위한 랭킹 프레임워크 설계: 시맨틱 그래프기반 접근 (A Folksonomy Ranking Framework: A Semantic Graph-based Approach)

  • 박현정;노상규
    • Asia pacific journal of information systems
    • /
    • 제21권2호
    • /
    • pp.89-116
    • /
    • 2011
  • In collaborative tagging systems such as Delicious.com and Flickr.com, users assign keywords or tags to their uploaded resources, such as bookmarks and pictures, for their future use or sharing purposes. The collection of resources and tags generated by a user is called a personomy, and the collection of all personomies constitutes the folksonomy. The most significant need of the folksonomy users Is to efficiently find useful resources or experts on specific topics. An excellent ranking algorithm would assign higher ranking to more useful resources or experts. What resources are considered useful In a folksonomic system? Does a standard superior to frequency or freshness exist? The resource recommended by more users with mere expertise should be worthy of attention. This ranking paradigm can be implemented through a graph-based ranking algorithm. Two well-known representatives of such a paradigm are Page Rank by Google and HITS(Hypertext Induced Topic Selection) by Kleinberg. Both Page Rank and HITS assign a higher evaluation score to pages linked to more higher-scored pages. HITS differs from PageRank in that it utilizes two kinds of scores: authority and hub scores. The ranking objects of these pages are limited to Web pages, whereas the ranking objects of a folksonomic system are somewhat heterogeneous(i.e., users, resources, and tags). Therefore, uniform application of the voting notion of PageRank and HITS based on the links to a folksonomy would be unreasonable, In a folksonomic system, each link corresponding to a property can have an opposite direction, depending on whether the property is an active or a passive voice. The current research stems from the Idea that a graph-based ranking algorithm could be applied to the folksonomic system using the concept of mutual Interactions between entitles, rather than the voting notion of PageRank or HITS. The concept of mutual interactions, proposed for ranking the Semantic Web resources, enables the calculation of importance scores of various resources unaffected by link directions. The weights of a property representing the mutual interaction between classes are assigned depending on the relative significance of the property to the resource importance of each class. This class-oriented approach is based on the fact that, in the Semantic Web, there are many heterogeneous classes; thus, applying a different appraisal standard for each class is more reasonable. This is similar to the evaluation method of humans, where different items are assigned specific weights, which are then summed up to determine the weighted average. We can check for missing properties more easily with this approach than with other predicate-oriented approaches. A user of a tagging system usually assigns more than one tags to the same resource, and there can be more than one tags with the same subjectivity and objectivity. In the case that many users assign similar tags to the same resource, grading the users differently depending on the assignment order becomes necessary. This idea comes from the studies in psychology wherein expertise involves the ability to select the most relevant information for achieving a goal. An expert should be someone who not only has a large collection of documents annotated with a particular tag, but also tends to add documents of high quality to his/her collections. Such documents are identified by the number, as well as the expertise, of users who have the same documents in their collections. In other words, there is a relationship of mutual reinforcement between the expertise of a user and the quality of a document. In addition, there is a need to rank entities related more closely to a certain entity. Considering the property of social media that ensures the popularity of a topic is temporary, recent data should have more weight than old data. We propose a comprehensive folksonomy ranking framework in which all these considerations are dealt with and that can be easily customized to each folksonomy site for ranking purposes. To examine the validity of our ranking algorithm and show the mechanism of adjusting property, time, and expertise weights, we first use a dataset designed for analyzing the effect of each ranking factor independently. We then show the ranking results of a real folksonomy site, with the ranking factors combined. Because the ground truth of a given dataset is not known when it comes to ranking, we inject simulated data whose ranking results can be predicted into the real dataset and compare the ranking results of our algorithm with that of a previous HITS-based algorithm. Our semantic ranking algorithm based on the concept of mutual interaction seems to be preferable to the HITS-based algorithm as a flexible folksonomy ranking framework. Some concrete points of difference are as follows. First, with the time concept applied to the property weights, our algorithm shows superior performance in lowering the scores of older data and raising the scores of newer data. Second, applying the time concept to the expertise weights, as well as to the property weights, our algorithm controls the conflicting influence of expertise weights and enhances overall consistency of time-valued ranking. The expertise weights of the previous study can act as an obstacle to the time-valued ranking because the number of followers increases as time goes on. Third, many new properties and classes can be included in our framework. The previous HITS-based algorithm, based on the voting notion, loses ground in the situation where the domain consists of more than two classes, or where other important properties, such as "sent through twitter" or "registered as a friend," are added to the domain. Forth, there is a big difference in the calculation time and memory use between the two kinds of algorithms. While the matrix multiplication of two matrices, has to be executed twice for the previous HITS-based algorithm, this is unnecessary with our algorithm. In our ranking framework, various folksonomy ranking policies can be expressed with the ranking factors combined and our approach can work, even if the folksonomy site is not implemented with Semantic Web languages. Above all, the time weight proposed in this paper will be applicable to various domains, including social media, where time value is considered important.

특허 인용 네트워크 분석을 활용한 국가연구개발사업 특허의 평가 방안 (New Evaluation Method of Patents by National R&D Program with Patent Citation Network Analysis)

  • 임홍래
    • 기술혁신연구
    • /
    • 제27권4호
    • /
    • pp.1-19
    • /
    • 2019
  • 본 연구는 특허 인용 정보를 활용하여 국가연구개발사업의 특허를 평가할 수 있는 새로운 방법을 제시하였다. 이를 위해 가장 대표적으로 특허의 가치나 질을 나타내는 특허의 전방인용 수(피인용 수)를 활용하고, 특허 인용 네트워크에서 개별 특허가 얼마나 중요한 역할을 하고 있는지를 나타내는 네트워크의 중심성 지수를 활용하여 국가연구개발사업의 특허와 민간부문의 특허를 비교하였다. 분석 결과 국가연구개발사업의 특허는 특허의 특성과 출원인의 특성, 기술분야의 특성, 연도 효과를 통제하고도 전방인용 수, 연결중심성, 매개중심성, 페이지 랭크 모두 높은 것으로 나타났다. 즉, 국가연구개발사업의 특허는 민간부문의 특허에 비해 후행기술에 직접 더 많은 영향을 주며, 선행기술과 후행기술을 직접 연결한다. 또한 국가연구개발사업의 특허는 민간부문의 특허에 비해 기술의 효율적인 발전에 기여하며, 중요한 기술들을 연결하는 것으로 나타났다.

공동연구 네트워크 분석을 위한 중심성 지수에 대한 비교 연구 (A Comparative Study on the Centrality Measures for Analyzing Research Collaboration Networks)

  • 이재윤
    • 정보관리학회지
    • /
    • 제31권3호
    • /
    • pp.153-179
    • /
    • 2014
  • 이 연구의 목적은 공동연구 네트워크에서 연구자의 영향력과 입지를 분석하는데 사용되는 중심성 지수들의 특징에 대해서 고찰하는 것이다. 전통적인 이진 네트워크 중심성 지수로는 연결정도중심성, 매개중심성, 근접중심성, 페이지랭크를 다루었고, 공동연구 네트워크에서의 중심성을 측정하기 위해서 개발되었거나 사용된 가중 네트워크 중심성 지수로는 삼각매개중심성, 평균연관성, 가중페이지랭크, 공동연구 h-지수와 공동연구 hs-지수, 복합연결정도중심성, c-지수에 대해서 살펴보았으며, 새로운 지수로 제곱근합 지수 SSR을 제안하였다. 이들 12종의 중심성 지수를 건축학, 문헌정보학, 마케팅 분야의 세 가지 공동연구 네트워크에 적용해본 결과 각 지수들의 특성과 지수 간 관계를 파악할 수 있었다. 분석 결과 공동연구 네트워크에서 공동연구 범위와 공동연구 강도를 모두 고려하기 위해서는 가중 네트워크 중심성 지수를 사용해야 하는 것으로 나타났다. 특히 공동연구 범위와 강도를 모두 고려하는 전역중심성을 측정하기 위해서는 삼각매개중심성 지수를 사용하고, 지역중심성을 측정하기 위해서는 SSR 지수를 사용하는 것이 바람직하다고 제안하였다.

저자 인용 네트워크에서 명망성 지표의 차별된 영향력 측정기준에 관한 연구 (The Distinct Impact Dimensions of the Prestige Indices in Author Citation Networks)

  • 안혜림;박지홍
    • 정보관리학회지
    • /
    • 제33권2호
    • /
    • pp.61-76
    • /
    • 2016
  • 본 연구는 명망성 지표(closeness prestige, input domain, proximity prestige)를 인용 네트워크 내에서 특정 노드의 영향력 측정을 위한 유용한 척도로 제안하는 것을 목적으로 한다. 명망성 지표의 영향력 측정기준에 대해 알려진 바가 없으므로 본 연구는 이 세 개의 명망성 지표와 다른 영향력 지표를 비교하고자 한다. 무방향 네트워크의 중심성 지표와 유사하게 명망성 지표는 유방향 네트워크에서 특정 중심 노드들을 차별화 시켜준다. 저자 인용 네트워크에서 수행된 상관분석과 주성분분석을 통하여 본 연구는 기존 영향력 지표와 차별된 명망성 지표만의 측정기준을 발굴하였다. 세 개의 무방향 네트워크 중심성 지표와 더불어 단순인용수, h-index, PageRank를 본 연구에서 제시한 명망성 지표와 비교하였다. 이러한 명망성 지표는 기존 영향력 지표와는 차별화된 영향력을 측정하고 있다는 결과를 도출하였으며 명망성 지표는 간접적인 영향력을 기존의 다른 영향력 지표는 직접적인 영향력을 반영한다.

CUDA 기반 GPU에서 효율적인 Power Method의 구현 (Implementation of Efficient Power Method on CUDA GPU)

  • 김정환;김진수
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.9-16
    • /
    • 2011
  • GPU는 저렴한 비용으로 쉽게 대규모 데이터 병렬성을 활용할 수 있는 장점을 갖고 있어 많은 고성능 컴퓨팅 응용 분야에서 사용되고 있는 추세다. 행렬의 고유벡터를 구하는 power method는 웹 페이지의 중요도를 계산하는 PageRank 알고리즘 등 여러 응용 분야에서 활용되고 있는 방법으로써, 본 연구에서는 power method를 GPU에서 병렬화하여 구현하였으며, 성능을 최적화하기 위한 개선 방법을 제시하였다. Power method는 행렬과 벡터의 곱셈 연산이 반복적으로 수행되며 GPU에서 쉽게 병렬화가 가능하다. 그러나, 고유벡터의 수렴 여부 판단을 위한 연산 등의 작업과 다음 곱셈을 위한 벡터 크기의 조정 등의 작업이 부가적으로 필요하며, 이러한 작업은 GPU 내의 커널 코드를 여러 차례 호출하고 불필요한 데이터 이동을 유발하는 문제점이 있다. 본 연구에서는 커널 호출 회수를 줄이고 스레드 배치를 최적함과 동시에 수렴 여부 판단을 위한 연산을 최적함으로써 power method의 성능을 향상시켰다.

동시출현 자질과 집단 지성을 이용한 지식검색 문서 사용자 명성 평가 (User Reputation Evaluation Using Co-occurrence Feature and Collective Intelligence)

  • 이현우;한요섭;김래현;차정원
    • 인지과학
    • /
    • 제19권4호
    • /
    • pp.459-476
    • /
    • 2008
  • 많은 사용자들의 참여로 구축된 집단 지성을 이용한 지식 검색 서비스에서 사용자가 원하는 답변을 빨리 찾고자 하는 요구가 증가하고 있다. 기존의 연구에서 조회 수, 추천 수, 답변 수와 같은 비텍스트 정보가 답변을 평가하는데 좋은 자질임이 증명되었고, 신뢰도를 추정할 수 있는 여러 종류의 단어 사전을 이용하여 답변의 좋고 나쁨을 평가할 수 있는 연구도 진행되었다. 하지만, 조회 수, 추천 수, 답변 수와 같은 비텍스트 정보는 사용자 조작이 간단하여 지속적으로 관리를 해야 하며, 신뢰도를 추정할 수 있는 단어는 지속적으로 보강되어야 한다. 본 논문에서는 이러한 문제점을 해결하고자 동시출현 자질을 이용한 질문과 답변의 유사성을 활용하여 집단 지성에서 사용자의 활동을 분석하여 사용자의 명성을 평가하는 방법을 제안한다. 사용자의 명성을 계산할 수 있다면 조회 수와 추천 수가 많지 않은 답변의 신뢰도도 비교적 정확하게 추정할 수 있다. 이를 위해 우리는 PageRank 알고리즘을 수정하여 사용자 명성을 계산한다. 네이버 지식iN의 문서로 실험한 결과, 기존 정답 선택률을 보완할 수 있는 결과를 보였다.

  • PDF

STW를 이용한 웹 문서 장르 분류에 관한 연구 (A Research for Web Documents Genre Classification using STW)

  • 고병규;오군석;김판구
    • 정보화연구
    • /
    • 제9권4호
    • /
    • pp.413-422
    • /
    • 2012
  • 웹 문서의 지속적인 증가로 인해 텍스트 기반, Page Rank 등의 방법으로 한 연구들이 증가하고 있다. 특히 웹 문서 내 URL 정보, HTML Tag 정보 등을 활용하는 연구들이 다시 주목을 받고 있다. 따라서 웹 문서 장르 분류를 위해 앞서 언급한 웹 문서 내 특징 요소들을 바탕으로 본 논문에서는 STW(Semantic Term Weight)를 적용하여 웹 문서 장르 분류하는 연구를 기술한다. 웹 문서 장르 분류에 사용되는 데이터 셋은 학습 문서와 테스트 문서로 구성되고, SVM 알고리즘을 사용하여 웹 문서 분류 실험을 수행한다. 학습 과정을 위해 20-Genre-collection corpus 내 1,000여개의 문서를 선정하여 SVM 알고리즘을 통해 학습하였고, 테스트 과정에서 사용된 데이터 셋은 KI-04 corpus를 사용하였다. 테스트 과정 후 STW를 사용한 실험과 STW를 사용하지 않은 실험으로 분류하여 정확도를 측정하였다. 또한 이를 바탕으로 1,212개의 테스트 문서를 분류하였다. 그 결과 STW를 사용한 실험 이 그렇지 않은 실험 보다 약 10.2% 높은 정확도를 보였다.

지능정보기술 분야에서의 글로벌 기술 지식 경쟁력 분석 : 한국을 중심으로 (Global Technical Knowledge Flow Analysis in Intelligent Information Technology : Focusing on South Korea)

  • 곽기현;윤정섭
    • 한국콘텐츠학회논문지
    • /
    • 제21권1호
    • /
    • pp.24-38
    • /
    • 2021
  • 본 연구는 4차 산업혁명의 핵심 기술인 지능정보기술에 있어 한국의 글로벌 경쟁력을 측정하였다. 분석을 위해 PATSTAT Online을 사용하여 미국특허청에서 2010~2018년 사이에 출원된 각 분야의 특허 및 이들이 인용한 선행특허를 수집하였고, 인용·피인용 관계를 국가 수준에서 블록화하여 글로벌 지식 흐름 네트워크를 구축하였다. 각 기술 분야별로 다음과 같은 방식으로 한국의 글로벌 경쟁력을 평가하였다. 먼저 새로운 기술적 지식을 생성하기 위해 기존의 기술적 지식을 재조합하는 과정인 기술수용을 평가하기 위해 입선-연결 중심성을, 다음으로 새로운 기술적 지식 창출의 밑거름인 원친지식 보유 정도를 나타내는 기술파급을 평가하기 위해 출선-연결 중심성을, 그리고 마지막으로 국가 간 지식 흐름의 양적 측면과 질적 측면을 모두 고려할 수 있는 PageRank 중심성을 사용하였다. 분석 결과, 자료의 수집 및 축적, 그리고 확보한 대용량 자료의 처리 분야에 해당하는 사물인터넷·클라우드 및 빅데이터 분야에 비해, 이를 활용하는 인공지능 분야에서 한국의 경쟁력이 상대적으로 가장 열위에 있음이 사용된 모든 지표들을 통해 확인되었다.

기계학습과 네트워크를 이용한 수학교육 연구의 영향력 판별 프로그램 개발 (Development of an impact Identification Program in Mathematical Education Research Using Machine Learning and Network)

  • 오세준;권오남
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제37권1호
    • /
    • pp.21-45
    • /
    • 2023
  • 본 연구는 수학교육에서 영향력 있는 논문을 판별하는 기계학습 프로그램 개발 연구이다. 이를 위하여 과학계량학의 관점에서 논문의 영향력을 조명하고, 수학교육 연구 네트워크를 구성하고, 네트워크 중심성 지수인 PageRank로 수학교육 연구의 영향력으로 정의하였다. 영향력 있는 수학교육 연구를 판별하기 위하여 기계학습 모델을 설계하였으며, 이를 이용하여 영향력 있는 논문이 게재된 비율이 높은 학술지를 조사한 결과 Journal for Research in Mathematics Education(25.66%), Educational Studies in Mathematics(22.12%), Zentralblatt für Didaktik der Mathematik(8.46%), Journal of Mathematics Teacher Education(5.8%), Journal of Mathematical Behavior(5.51%) 순으로 나타났다. 수학교육 전문가들이 직접 논문을 읽고 질적으로 평가한 선행연구 결과와 유사한 결과를 기계학습 프로그램으로 도출할 수 있었다. 많은 인원과 시간이 필요했던 수학교육 연구의 영향력 평가를 인공지능을 이용하여 효율적으로 실시할 수 있었다는 점에서 의의가 있다.

연관 피드백과 퍼지 함의 연산자를 이용한 스니핏 추출 방법 (Snippet Extraction Method using Fuzzy Implication Operator and Relevance Feedback)

  • 박선;심천식;이성로
    • 한국정보통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.424-431
    • /
    • 2012
  • 정보 검색 시 검색엔진은 사용자에게 웹페이지 순위와 웹페이지의 요약정보를 제공한다. 이중 웹 페이지를 대표 할 수 있는 요약된 정보를 스니핏(snippet)이라한다. 스니핏은 사용자의 웹페이지 방문에 큰 영향을 준다. 정확한 방문 페이지의 정보를 모르고 단지 스니핏 만을 이용할 때에 가끔 사용자의 의도와는 다른 잘못된 웹 페이지를 방문할 수 있다. 이것은 검색엔진에서 지원하는 스니핏에 사용자의 의도를 정확하게 반영하는 것이 어렵기 때문이다. 본 논문은 이러한 문제를 해결하기 위해 연관 피드백과 퍼지 함의 연산자를 이용한 새로운 스니핏 추출 방법을 제안한다. 제안방법은 연관 피드백을 이용하여 사용자의 질의를 확장하고, 확장된 질의와 웹 페이지 사이에 퍼지 함의 연산자를 이용하여 질의와 확장된 질의의 포함관계가 반영된 스니핏을 추출함으로써 사용자의 의도를 스니핏에 더 잘 반영할 수 있다. 실험결과에서 제안방법이 다른 방법보다 스니핏 추출에 더 좋은 성능을 보인다.