DOI QR코드

DOI QR Code

A Study on Focused Crawling of Web Document for Building of Ontology Instances

온톨로지 인스턴스 구축을 위한 주제 중심 웹문서 수집에 관한 연구

  • 장문수 (서경대학교 소프트웨어학과)
  • Published : 2008.02.25

Abstract

The construction of ontology defines as complicated semantic relations needs precise and expert skills. For the well defined ontology in real applications, plenty of information of instances for ontology classes is very critical. In this study, crawling algorithm which extracts the fittest topic from the Web overflowing over by a great number of documents has been focused and developed. Proposed crawling algorithm made a progress to gather documents at high speed by extracting topic-specific Link using URL patterns. And topic fitness of Link block text has been represented by fuzzy sets which will improve a precision of the focused crawler.

복잡한 의미관계를 정의하는 온톨로지를 구축하는 일은 매우 정밀하고 전문적인 작업이다. 잘 구축된 온톨로지를 응용 시스템에 활용하기 위해서는 온톨로지 클래스에 대한 많은 인스턴스 정보를 구축해야 한다. 본 논문은 온톨로지 인스턴스 정보 추출을 위하여 방대한 양의 웹 문서로부터 주어진 주제에 적합한 문서만을 추출하는 주제 중심 웹 문서 수집 알고리즘을 제안하고, 이 알고리즘을 바탕으로 문서 수집 시스템을 개발한다. 제안하는 문서 수집 알고리즘은 URL의 패턴을 이용하여 주제에 적합한 링크만을 추출함으로써 빠른 속도의 문서 수집을 가능하게 한다. 또한 링크 블록 텍스트에 대한 퍼지집합으로 표현된 주제 적합도는 문서의 주제 관련성을 지능적으로 판단하여 주제 중심 문서 수집의 정확도를 향상시킨다.

Keywords

References

  1. 김성진, 이상호, "웹 로봇 구현 및 한국 웹 통계보고," 한국정보처리학회논문지C, 제10권, 4호, pp.509-518, 2003
  2. 정한민, 성원경, "과학기술 용어에 대한 용어 생명 주기 고찰," 한국콘텐츠학회 종합학술대회 논문집, 제4권 2호, pp.84-89, 2006
  3. Lawrence Page, Sergey Brin, Rajeev Motwani and Terry Winograd, "The PageRank Citation Ranking: Bringing Order to the Web," Stanford InfoLab Publication Server, 1999
  4. Soumen Chakrabarti, Martin van den Berg and Byron Dom, "Focused crawling: a new approach to topic-specific Web resource discovery," Computer Networks, Vol.31, No.11-16, pp.1623-1640, 1999 https://doi.org/10.1016/S1389-1286(99)00052-3
  5. G. Almpanidis, C. Kotropoulos and I. Pitas, "Combine text and link analysis for focused crawling - An application for vertical search engines," Information Systems, Vol.32, No.6, pp.886-908, 2007 https://doi.org/10.1016/j.is.2006.09.004
  6. 하은용, 최선완, "정확도 높은 검색 엔진을 위한 문서 수집 방법," 한국정보과학회 학술발표논문집, 제26권 2호(III), pp.471-473, 1999
  7. 조창희, 이남용, 강진범, 양재영, 최중민, "주변정보 분할을 이용한 주제 중심 웹 문서 수집기," 정보처리학회논문지B, 제12권 6호, pp.697-702, 2005 https://doi.org/10.3745/KIPSTB.2005.12B.6.697
  8. 이정훈, 전서현, 김선희, "웹 문서 수집을 위한 효율적인 문서 분류," 한국정보과학회 학술발표논문집, 제33권 2호(B), pp.397-401, 2006
  9. 김기주, 최영식, "포커스드 크롤러를 이용한 웹 검색 및 모니터링 개인화 시스템," 한국인터넷정보학회 춘계학술발표대회 논문집, 제5권 1호, pp.297-300, 2004
  10. 김중태, 시맨틱 웹, 디지털미디어리서치, 2006
  11. 정준영, 장문수, "URL 패턴을 이용한 웹문서의 선 택적 자동 수집 방안," 퍼지 및 지능 시스템학회 추 계학술대회, 제17권 2호, pp41-44, 2007
  12. 장문수, 강선미, "도메인지식의 계층화를 통한 온톨로지 인스턴스의 속성정보 추출", 퍼지 및 지능시스템학회 논문지, 제17권 3호, pp.291-296, 2007 https://doi.org/10.5391/JKIIS.2007.17.3.291
  13. 김원우, 변영태, "Link와 Clustering을 이용한 적극적 문서 수집 기법," 한국지능정보시스템학회 학술대회논문집, 제1권, pp.393-398, 2001
  14. 조광제, 김준태, "하이퍼링크 정보를 이용한 HTML 문서의 자동 분류," 한국정보과학회 학술발표논문집, 제24권 2호(II), pp.277-280, 1997