• 제목/요약/키워드: PageRank

검색결과 102건 처리시간 0.02초

태그 서열 위치와 경사 부스팅을 활용한 한국어 웹 본문 추출 (Korean Web Content Extraction using Tag Rank Position and Gradient Boosting)

  • 모종훈;유재명
    • 정보과학회 논문지
    • /
    • 제44권6호
    • /
    • pp.581-586
    • /
    • 2017
  • 웹 문서를 자동으로 수집하면 대량의 정보를 손쉽게 모을 수 있다. 이러한 정보 수집 과정을 위해 웹 문서에서 메뉴, 광고 등 불필요한 정보를 제거하고 본문을 자동으로 추출할 필요가 있다. 특히 한국어 웹문서는 영어권과 달리 메타데이터가 포함된 경우가 드물고 디자인이 복잡하여 한국어 웹에 맞는 자동 본문 추출 방법이 필요하다. 기존의 본문 추출 방법은 주로 본문 블록의 문자적, 구조적 특성을 활용한다. 시각적 특성을 처리하기 위해서는 렌더링, 이미지 처리 등에 많은 계산이 필요하기 때문이다. 이 논문에서는 HTML에서 태그 위치를 준-시각적 특성으로 활용한 새로운 본문 추출 방법을 제시한다. 태그 위치는 텍스트의 길이에 따라 가변적이기 때문에 태그 서열 위치라는 특성을 개발하였고, 이를 경사 부스팅과 함께 이용하면 정확한 본문 추출이 가능함을 보인다. 본 논문의 연구 결과는 텍스트 분석에 필요한 양질의 문서 자료를 다양한 형태의 웹페이지에서 자동으로 수집하는 데에 쓰일 수 있다.

랜덤화 블록 모형에서 정렬방법과 위치를 이용한 순서형 대립가설에 대한 비모수 검정법 (Nonparametric procedures based on aligned method and placement for ordered alternatives in randomized block design)

  • 김효숙;김동재
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.707-717
    • /
    • 2016
  • 랜덤화 블록 계획법을 검정하는 비모수 방법은 일반 대립가설에서 Friedman (1937), 순서형 대립가설에서 Page (1963)가 제안한 방법이 있다. 이 방법은 각 블록 내 처리 간 순위를 이용해 처리 간의 차이를 검정하는 방법이다. 본 논문에서는 Hodges와 Lehmann (1962)이 제안한 정렬방법을 이용하여 블록 간 정보의 손실을 줄이고, Orban과 Wolfe (1982)가 제안한 위치를 확장하여, Kim (1999)이 제안한 대조군과 처리군의 방법을 이용하여 랜덤화 블록 모형에서 새로운 비모수 검정 방법을 제안하였다. 또한 Monte Carlo 모의실험을 통해 제안방법과 기존의 검정 방법을 비교하였다.

A Query Randomizing Technique for breaking 'Filter Bubble'

  • Joo, Sangdon;Seo, Sukyung;Yoon, Youngmi
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권12호
    • /
    • pp.117-123
    • /
    • 2017
  • The personalized search algorithm is a search system that analyzes the user's IP, cookies, log data, and search history to recommend the desired information. As a result, users are isolated in the information frame recommended by the algorithm. This is called 'Filter bubble' phenomenon. Most of the personalized data can be deleted or changed by the user, but data stored in the service provider's server is difficult to access. This study suggests a way to neutralize personalization by keeping on sending random query words. This is to confuse the data accumulated in the server while performing search activities with words that are not related to the user. We have analyzed the rank change of the URL while conducting the search activity with 500 random query words once using the personalized account as the experimental group. To prove the effect, we set up a new account and set it as a control. We then searched the same set of queries with these two accounts, stored the URL data, and scored the rank variation. The URLs ranked on the upper page are weighted more than the lower-ranked URLs. At the beginning of the experiment, the difference between the scores of the two accounts was insignificant. As experiments continue, the number of random query words accumulated in the server increases and results show meaningful difference.

블로그의 구조적 특성을 고려한 효율적인 블로그 검색 알고리즘 (The Effective Blog Search Algorithm based on the Structural Features in the Blogspace)

  • 김정훈;윤태복;이지형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권7호
    • /
    • pp.580-589
    • /
    • 2009
  • 오늘날, 대부분의 웹 페이지는 블로그영역에서 생성되고 기존의 웹 페이지 또한 블로그영역으로 전환되어가고 있다. 블로그 페이지는 트랙백연결, 블로거, 태그, 댓글과 같은 기폰 웹 페이지에는 존재 하지 않는 특징이 있다. 따라서 이러한 차이를 반영하지 않는 전통적인 웹 페이지 랭킹 알고리즘을 블로그 페이지에 단순히 적용하는 것은 효율적인 검색을 위해 적절하지 않다. 본 논문에서는 이러한 문제를 해결하기 위해 블로그 검색을 위한 "블로그-랭크" 알고리즘을 제안한다. 제안하는 알고리즘은 블로그의 구조적특징들을 활용하여 트랙백 연결성, 블로거의 명성, 사용자 반응성을 평가하고 이를 기반으로 블로그 페이지를 랭크 한다. 우리는 알고리즘의 검색효율성을 증명하기 위해 제안한 알고리즘을 적용한 블로그 검색 시스템을 구현하고 기존의 블로그 검색시스템과 검색효율성을 비교하였으며, 그 결과 블로그 랭크 알고리즘을 적용한 검색시스템이 기존의 검색시스템보다 더욱 뛰어난 검색효율성을 보임을 확인하였다.

분석 CRM 실무자의 자연어 질의 처리를 위한 기업 데이터베이스 구성요소 인덱싱 방법론 (A PageRank based Data Indexing Method for Designing Natural Language Interface to CRM Databases)

  • 박성혁;황경서;이동원
    • CRM연구
    • /
    • 제2권2호
    • /
    • pp.53-70
    • /
    • 2009
  • 분석 CRM 영역에서는 고객 데이터 분석을 통하여 고객 행동과 관련된 통찰력을 얻는 것이 중요하다. 이러한 분석 과정에서, 사용자 스스로 기업 데이터베이스에서 대용량 고객 이력 데이터를 조회하고 추출하기 위해서는 SQL 을 사용하여 자유롭게 질의구문을 작성할 수 있어야 한다. 그런데 일반 사용자들이 이러한 업무를 수행하고자 할 때, 기업 데이터베이스 구성 요소에 대한 전문적인 지식이 부족하기 때문에 정보 탐색에 있어서 어려움을 겪는다. 이를 해결하기 위한 방안으로 본 연구에서는 사용자가 제공하는 자연어 수준의 질의를 분석하고, 데이터베이스를 구성하는 값을 중심으로 올바른 질의 결과를 제공하기 위한 데이터베이스 구성요소 인덱싱 방법론을 제안한다. 구체적으로 기업 데이터베이스를 구성하는 세 가지 요소인 관계, 속성, 값에 대한 정보를 읽어 들여 요약 정보에 대한 인덱스를 구성한 다음 사용자의 자연어 질의에서 분석된 의미 단위 별로 데이터베이스 요약 정보와 연결해주는 TableRank 기법을 소개한다. 실험용 데이터베이스를 대상으로 테스트를 수행한 결과, 사용자의 자연어 질의 결과가 데이터베이스를 구성하는 값 정보와 연결되는 것이 관찰되었다. 논문의 후반부에서는 자연어 질의를 자동적으로 처리하기 위한 선행 모듈 개발의 시사점을 정리하고, 향후 기업 데이터베이스 자동 검색 시스템으로 발전하기 위한 방안에 대해서도 설명한다.

  • PDF

SSD 타입 저장장치를 포함하는 Hadoop 시스템의 Iterative Processing 처리 성능 분석 (Performance Analysis on Hadoop with SSD for Interative Process)

  • 오상윤;권성민;이수경
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제54차 하계학술대회논문집 24권2호
    • /
    • pp.191-193
    • /
    • 2016
  • 본 논문에서는 SSD 저장장치를 포함하는 하둡의 Iterative Processing에 대한 성능 분석 결과를 소개한다. 하둡은 맵 리듀스 병렬 프로그래밍 모델을 통해 Batch Processing에 특화된 구조를 가지고 있는 프레임 워크이다. 이는 병렬/분산 환경에서 큰 성능향상을 보장하지만, 반복 작업을 수행하는 Iterative Processing에 대하여는 성능이 낮아지는 문제가 존재하고 있다. 이에 본 논문에서는 점차 낮아지는 가격으로 인해 하둡시스템에 적용 가능성이 타진되는 SSD를 통해 반복 작업의 성능이슈를 해결할 수 있는지 확인하고, SSD를 통한 성능향상의 요소가 존재하는지 알아보고자 실험을 진행하였다. 실험에서는 Batch Processing인 word count와 Iterative Processing인 Page Rank 알고리즘을 MapReduce로 구현하고 데이터 크기에 따른 성능 향상도를 측정하였고, SSD 추가와 같은 하드웨어적인 성능을 통한 하둡의 반복 작업은 큰 효율을 기대하기가 어렵다는 결론을 보였다.

  • PDF

웹의 연결구조와 웹문서의 적합도를 이용한 효율적인 인터넷 정보추출 (Efficient Internet Information Extraction Using Hyperlink Structure and Fitness of Hypertext Document)

  • 황인수
    • Journal of Information Technology Applications and Management
    • /
    • 제11권4호
    • /
    • pp.49-60
    • /
    • 2004
  • While the World-Wide Web offers an incredibly rich base of information, organized as a hypertext it does not provide a uniform and efficient way to retrieve specific information. Therefore, it is needed to develop an efficient web crawler for gathering useful information in acceptable amount of time. In this paper, we studied the order in which the web crawler visit URLs to rapidly obtain more important web pages. We also developed an internet agent for efficient web crawling using hyperlink structure and fitness of hypertext documents. As a result of experiment on a website. it is shown that proposed agent outperforms other web crawlers using BackLink and PageRank algorithm.

  • PDF

다중 쓰레드 환경에서 웹 크롤러의 성능 분석 (Performance Analysis of Web-Crawler in Multi-thread Environment)

  • 박정우;김준호;이원주;전창호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2008년도 제39차 동계학술발표논문집 16권2호
    • /
    • pp.473-476
    • /
    • 2009
  • 본 논문에서는 다중 쓰레드 환경에서 동작하는 웹 크롤러를 구현하고 성능을 분석한다. 이 웹 크롤러의 특징은 검색시간을 단축하기 위하여 크롤링, 파싱 및 페이지랭킹, DB 저장 모듈을 서로 독립적으로 다른 작업을 수행하도록 구현한 것이다. 크롤링 모듈은 웹상의 데이터를 수집하는 기능을 제공한다. 그리고 파싱 및 페이지랭크 모듈은 수집한 데이터를 파싱하고, 웹 페이지의 상대적인 중요도를 수치로 계산하여 페이지랭크를 지정한다. DB 연동 모듈은 페이지랭크 모듈에서 구한 페이지랭크를 데이터베이스에 저장한다. 성능평가에서는 다중 쓰레드 환경에서 쓰레드 수와 웹 페이지의 수에 따른 검색 시간을 측정하여 그 결과를 비교 평가한다.

  • PDF

SNA to assess the Influence of Organization Members (Focusing on core members of North Korea)

  • Lee, Young-Seok;Yoon, Soungwoong;Lee, Sang-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권7호
    • /
    • pp.73-80
    • /
    • 2018
  • There are various organizations in modern society, in which people have direct and indirect relationships. Internal structure of these organizations can be analyzed by the relationships which are officially pressed on the media. However, this task will be difficult when the media information is strictly limited, though the necessity of analyzing organization structure remains. In this study, we try to estimate the influence of North Korea's core members by using PageRank centrality to supplement the limitation of previous SNA analysis methods. Experimental results show that we can show and predict NK's power shifts more efficiently.

링크 중요도에 기반한 웹사이트의 계층 구조화 (Link ranking-based hierarchical structuring of web site)

  • 임태수;박범환;이우기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.745-747
    • /
    • 2005
  • 수많은 웹페이지들이 하이퍼링크를 통해 복잡하게 연결된 그래프 구조를 가지고 있는 웹사이트를 계층적으로 구조화하는 것은 해당 사이트를 검색하고자 할 때, 정보를 재조직화하고 고려해야 할 대안들의 개수를 감소시킨다는 점에서 매우 유용하다. 본 논문은 웹사이트의 의미론적인 계층화를 최적화하기 위하여 사용자의 순회 경로, 즉 웹아크의 중요도 합을 최대화할 수 있는 트리 구조를 생성하였다. 구체적으로 첫째 PageRank에 기반한 웹아크 중요도를 생성하였고, 둘째 Minimum-Cost Arborescence 문제를 이용하여 최적 트리 구조를 생성하였다. 사용자의 질의에 독립적으로 생성된 트리 구조는 웹사이트의 의미 있는 계층 구조로서 사용자로 하여금 해당 사이트를 보다 효과적으로 검색할 수 있도록 도와줄 것이다.

  • PDF