Learning Web-Document Characteristics Using Evolutionary Computation

진화연산을 이용한 웹 문서의 특성 학습

  • Kim, Sun (Artificial Intelligence Lab (SCAI) School of Computer Science and Engineering, Seoul National University) ;
  • Jang, Byung-Tak (Artificial Intelligence Lab (SCAI) School of Computer Science and Engineering, Seoul National University)
  • 김선 (서울대학교 컴퓨터 공학부) ;
  • 장병탁 (서울대학교 컴퓨터 공학부)
  • Published : 2000.05.01

Abstract

대용량의 문서를 대상으로 한 정보 검색은 인터넷과 WWW이 대중화되면서 웹 분서로 확장되었다. 기존의 문서는 주로 텍스트만으로 구성되는데 반해 웹 문서는 HTML을 기반으로 문서가 작성된다. HTML은 문서의 형태를 이루게 하는 여러 종류의 태그들로 구성되어 있고 문서 작성자는 이를 이용, 자기 의도를 홈페이지에 반영한다. 따라서 태그 정보의 학습은 검색 효율을 향상시키는데 도움을 줄 수 있다. 본 논문에서는 이러한 HTML의 태그 특성을 이용해 검색 효율을 향상하는 방법을 제시한다. 제시된 방법은 진화 알고리즘을 사용하여 질의와 검색결과를 담고 있는 데이터를 학습한다. 학습을 통해 얻어지는 결고는 각 태그에 대한 가중치 정보들이며, 이는 검색엔진의 문서 가중치 정보로 사용된다. TREC 데이터를 사용하여 실험 하였으며 태그 정보를 이용함에 따른 검색 성능 변화를 비교 분석하였다.

Keywords