• 제목/요약/키워드: Web Document Retrieval

검색결과 129건 처리시간 0.021초

A Study on Effective Internet Data Extraction through Layout Detection

  • Sun Bok-Keun;Han Kwang-Rok
    • International Journal of Contents
    • /
    • 제1권2호
    • /
    • pp.5-9
    • /
    • 2005
  • Currently most Internet documents including data are made based on predefined templates, but templates are usually formed only for main data and are not helpful for information retrieval against indexes, advertisements, header data etc. Templates in such forms are not appropriate when Internet documents are used as data for information retrieval. In order to process Internet documents in various areas of information retrieval, it is necessary to detect additional information such as advertisements and page indexes. Thus this study proposes a method of detecting the layout of Web pages by identifying the characteristics and structure of block tags that affect the layout of Web pages and calculating distances between Web pages. This method is purposed to reduce the cost of Web document automatic processing and improve processing efficiency by providing information about the structure of Web pages using templates through applying the method to information retrieval such as data extraction.

  • PDF

Xpath에 의한 인터넷 문서의 레이아웃 추출 방법에 관한 연구 (A Study on Layout Extraction from Internet Documents Through Xpath)

  • 한광록;선복근
    • 한국콘텐츠학회논문지
    • /
    • 제5권4호
    • /
    • pp.237-244
    • /
    • 2005
  • 현재 뉴스 데이터 등 대부분의 인터넷 문서는 일정한 템플릿을 기반으로 작성되고 있으며 템플릿은 메인 데이터 이외에 인덱스, 광고, 헤더데이터 등 정보검색에 도움이 되지 않는 형태로 구성되어 있다. 이는 인터넷 문서를 정보검색의 데이터로서 사용하려고 할 때 적합한 형태가 아니다. 그러므로 다양한 정보검색 분야에서 인터넷 문서를 처리하기 위해선 광고, 페이지 인덱스 등의 부가정보를 분별해야 한다. 따라서 본 논문에서는 웹페이지의 레이아웃에 영향을 미치는 블럭 태그의 특징과 구조를 파악하고 웹페이지간의 거리를 계산하여, 웹페이지의 레이아웃을 검출하는 방법을 제안한다. 실험결과 1000개의 문서 중 640개를 분류했으며, 평균 64%의 recall 수치를 얻을 수 있었다. 이 방법을 데이터 추출, 문서요약 등의 정보검색 분야의 전처리 과정에 적용할 경우 문서의 자동화 처리 시간을 감소시키고 처리의 효율성을 높일 수 있을 것으로 기대된다.

  • PDF

XML DOM을 이용한 웹문서 검색 알고리즘 (Retrieval algorithm for Web Document using XML DOM)

  • 김노환;정충교
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권6호
    • /
    • pp.775-782
    • /
    • 2001
  • 현재까지 웹 검색엔진은 각 문서가 어떤 키워드를 얼마나 갖고 있는지, 키워드의 빈도수에 따라서, 문서에 키워드를 많이 포함하는 문서가 가까운 문서라는 가정에 의거 문서 순위를 사용자에게 보여주는 형태였다. 이런 형태의 검색은 HTML 웹 데이터처럼 구조적인 정보를 포함하지 않은 일반 문서형태의 경우 키워드의 발생빈도를 고려하는 형태에서는 별 문제가 없지만 구조적인 정보를 갖고 있는 XML로 표현된 웹 데이터일 경우에는 그래프 형태의 모델표현이 가능하기 때문에 단순히 키워드의 빈도만을 고려하는 형태로서는 바른 검색결과를 얻을 수 없다. 따라서 XML 문서의 구조적인 특성을 최대한 활용하여 SQL과 유사한 형태의 질의를 통하여 원하는 데이터만을 추출한다면 단순히 키워드에 의존하는 형태의 질의를 탈피하며 보다 분명한 검색결과를 획득할 수 있다고 생각한다. 본 논문에서는 XML DOM을 이용하여 XML 데이터의 정보검색 시스템을 모델링하고, 이와 관련된 알고리즘을 제안하고자 한다.

  • PDF

XML 링크정보를 이용한 정보 검색 색인 기법의 설계 (Design of an Information Retrieval Indexing Method using XML Links)

  • 김은정;배종민
    • 한국정보처리학회논문지
    • /
    • 제7권7호
    • /
    • pp.2020-2027
    • /
    • 2000
  • The hypertext document is used for information exchange in the Web environments. Its structure is considered as having graph structures with links, which makes nonlinear processing of documents possible. This paper proposes an indexing method for information retrieval system using XML links. We define new attributes that control links of a remote document and assign an unique identifier for the attribute of each link. Each identifier has a different weight according to its occurrence position that is local or remote documents. We index a word not only from a local document but a remote document based on the given weight. Experimental results show that the proposed method outperforms conventional retrieval systems that ignore links.

  • PDF

하이퍼링크를 이용한 그래프 기반의 웹 문서 클러스터링 (Web Document Clustering based on Graph using Hyperlinks)

  • 이준;강진범;최중민
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.590-595
    • /
    • 2009
  • 인터넷 상의 웹 문서의 수가 기하급수적으로 늘어남에 따라서, 정보검색에서의 웹 문서 클러스터링은 성능과 속도가 매우 중요하게 되었다. 웹 문서 클러스터링은 의미적으로 관계가 있는 웹 문서들을 같은 클러스터로 군집함으로써 정보 검색을 보다 빠르고, 정보를 정확하게 제공할 수 있다. 그물망 그래프 형태의 클러스터링은 모든 문서간의 유사도를 측정함으로써 재현율을 높일 수 있지만, 높은 계산 비용을 갖는다. 본 논문에서는 그물망 형태의 클러스터링의 재현율과 정확율을 유지하며 계산 비용을 줄이기 위하여, 웹 문서의 구조적 특징인 하이퍼링크(Hyperlinks)를 이용한 클러스터링 방법을 제안한다.

  • PDF

분산 정보 검색을 위한 신경망 기반 사용자 피드백 학습 메카니즘 (Neural Net Based User Feedback Learning Mechanism for Distributed Information Retrieval)

  • 최용석
    • 컴퓨터교육학회논문지
    • /
    • 제4권2호
    • /
    • pp.85-95
    • /
    • 2001
  • 웹과 같은 분산 정보 검색 환경에서 문서들은 많은 문서 데이터 베이스들에 자연스럽게 분할되어서 존재한다. 그러므로 이러한 문서들의 효율적인 검색을 위해서는 먼저 질의에 관련되어 문서들을 제공할 것으로 판단되는 문서 데이터 베이스를 찾아내고 다음으로 그 문서 데이터 베이스에 질의를 줌으로써 분산 정보 검색을 수행해야 한다. 본 논문에서는 이러한 효율적인 분산 정보 검색을 위한 신경망 기반 사용자 피드백 학습 메카니즘을 제안한다. 제안된 학습 메카니즘은 질의 검색 예제들을 통하여 얻어진 질의에 대한 사용자의 관련도 피드백 정보에 기반하여 역전파 알고리즘으로 분산 정보 검색 지식을 학습한다. 충분히 학습한 후의 학습 메카니즘은 주어진 질의에 대하여 관련 문서 데이터 베이스들을 찾아내고 그 문서 데이터 베이스들로부터 관련되는 문서들을 검색하는데 효과적으로 사용될 수 있다. 실험에서는 제안된 학습 메카니즘을 적용한 신경망 에이전트 시스템을 구현하고 이 시스템의 정보 검색 성능을 기존 시스템들과 비교하여 제안된 학습 메카니즘의 유용성을 입증한다.

  • PDF

웹 기반의 전자상거래를 위한 도서검색 시스템 설계 (A Design of Book Retrieval System for Electronic Commerce in based Web)

  • 하추자;정종근;박종훈;김철원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 춘계종합학술대회
    • /
    • pp.659-662
    • /
    • 2005
  • XML is standard of web document, and is used in language for document data exchange. XML document is used as example that change existing document to XML or makes new document by XML increases and XML search system to search XML document efficiently accordingly is requiring. This paper describes design and implementation of query processing system for translating XML elements and data between XML documents and relational database and consist of XML to DB processor, DB to XML processor and XML document management processor. Through this, described for design and embodiment of efficient XML document search system of JAVA base using XQL that is proposed in language of quality of XML document.

  • PDF

지능적인 웹문서 분류를 위한 구조 및 프로세스 설계 연구 (A Study on Building Structures and Processes for Intelligent Web Document Classification)

  • 장영철
    • 디지털융복합연구
    • /
    • 제6권4호
    • /
    • pp.177-183
    • /
    • 2008
  • This paper aims to offer a solution based on intelligent document classification to create a user-centric information retrieval system allowing user-centric linguistic expression. So, structures expressing user intention and fine document classifying process using EBL, similarity, knowledge base, user intention, are proposed. To overcome the problem requiring huge and exact semantic information, a hybrid process is designed integrating keyword, thesaurus, probability and user intention information. User intention tree hierarchy is build and a method of extracting group intention between key words and user intentions is proposed. These structures and processes are implemented in HDCI(Hybrid Document Classification with Intention) system. HDCI consists of analyzing user intention and classifying web documents stages. Classifying stage is composed of knowledge base process, similarity process and hybrid coordinating process. With the help of user intention related structures and hybrid coordinating process, HDCI can efficiently categorize web documents in according to user's complex linguistic expression with small priori information.

  • PDF

An Efficient Information Retrieval System for Unstructured Data Using Inverted Index

  • Abdullah Iftikhar;Muhammad Irfan Khan;Kulsoom Iftikhar
    • International Journal of Computer Science & Network Security
    • /
    • 제24권7호
    • /
    • pp.31-44
    • /
    • 2024
  • The inverted index is combination of the keywords and posting lists associated for indexing of document. In modern age excessive use of technology has increased data volume at a very high rate. Big data is great concern of researchers. An efficient Document indexing in big data has become a major challenge for researchers. All organizations and web engines have limited number of resources such as space and storage which is very crucial in term of data management of information retrieval system. Information retrieval system need to very efficient. Inverted indexing technique is introduced in this research to minimize the delay in retrieval of data in information retrieval system. Inverted index is illustrated and then its issues are discussed and resolve by implementing the scalable inverted index. Then existing algorithm of inverted compared with the naïve inverted index. The Interval list of inverted indexes stores on primary storage except of auxiliary memory. In this research an efficient architecture of information retrieval system is proposed particularly for unstructured data which don't have a predefined structure format and data volume.

클러스터의 주요항목 가중치 기반 XML 문서 클러스터링 (Clustering XML Documents Considering The Weight of Large Items in Clusters)

  • 황정희
    • 정보처리학회논문지D
    • /
    • 제14D권1호
    • /
    • pp.1-8
    • /
    • 2007
  • 발달된 인터넷 환경과 데이터 교환 표준 언어로서 확정되고 있는 XML을 기반으로 하여 대량의 웹 문서들이 생산되면서 정보 추출의 대상은 자연스럽게 웹 문서로 이동하게 되었다. 이에 따라 급속히 증가하고 있는 XML 문서에 대한 구조, 통합 및 검색을 위한 연구들이 있다. 이 논문에서는 XML 문서들에 대한 질의 처리, 검색 등을 효율적으로 처리하기 위한 기반으로써 빈발구조 중심의 XML 문서를 클러스터링 하는 방법을 제안한다. 첫째 XML 문서를 트리 구조로 표현하여 분리하고 분리된 구조들을 대상으로 빈발하게 발생하는 구조들을 추출한다. 둘째 각 XML 문서에서 추출된 빈발 구조들을 트랜잭션의 항목으로 취급하여 클러스터링을 수행한다. 클러스터링을 수행할 때 각 클러스터의 생성 및 생성된 전체 클러스터의 응집도를 함께 고려하는 주요항목 가중치를 이용한다. 셋째 기존연구와의 비교 실험을 통해 제안하는 방법의 우수성을 증명한다.