Clustering of Web Document Exploiting with the Co-link in Hypertext

동시링크를 이용한 웹 문서 클러스터링 실험

  • 김영기 (부산대학교 문헌정보학과) ;
  • 이원희 (부산대학교 한국어정보처리연구실) ;
  • 권혁철 (부산대학교 전자전기정보컴퓨터공학부)
  • Published : 2003.06.01

Abstract

Knowledge organization is the way we humans understand the world. There are two types of information organization mechanisms studied in information retrieval: namely classification md clustering. Classification organizes entities by pigeonholing them into predefined categories, whereas clustering organizes information by grouping similar or related entities together. The system of the Internet information resources extracts a keyword from the words which appear in the web document and draws up a reverse file. Term clustering based on grouping related terms, however, did not prove overly successful and was mostly abandoned in cases of documents used different languages each other or door-way-pages composed of only an anchor text. This study examines infometric analysis and clustering possibility of web documents based on co-link topology of web pages.

인간은 지식의 조직을 통해 세계를 이해한다. 정보검색분야에서 연구되고 있는 정보의 조직화에는 분류와 클러스터링이라는 두 가지 유형이 있다. 분류는 미리 정의된 범주에 각 항목을 배정하는 행위인 반면, 클러스터링은 유사하거나 관련된 항목을 집단화함으로써 정보를 조직한다. 인터넷 정보자원의 조직은 웹 문서에 출현하는 단어들에서 키워드를 추출하여 역파일을 작성함으로써 검색에 활용하는 것이 일반적인 방법이다. 그러나 키워드의 출현 위치나 단어빈도를 통한 문서유사도 기법은 사용된 언어가 다르거나 대부분이 앵커텍스트만으로 구성되어 있는 대문페이지처럼 적용하기 어려운 경우가 많다. 이 연구는 계량정보학적 분석 기법 중에서 동시인용 기법을 웹 문서의 하이퍼링크에 적용하여, 웹 문서의 클러스터링 가능성을 실험한다.

Keywords

References

  1. 제19회 한국정보관리학회 학술대회 논문집 인용문헌을 이용한 검색 성능 향상에 관한 실험적 연구 국민상;정영미
  2. 제 11회 한글 및 한국어 정보처리 학술대회 점진적으로 계산되는 분휴정보와 링크정보를 이용한 하이퍼텍스트 문서 분류 모델 오효정;임정묵;이만호;맹성현
  3. 제10회 한글 및 한국어 정보처리 학술대회 문서구조 정보에 기반한 웹 페이지 범주화 모델 정상화;이종혁
  4. 한글 및 한국어 정보처리 제14집 v.14 웹 문서 중 의미 있는 표의 추출 정성원;이원희;김영기;권혁철
  5. 문헌분류의 이론과 실제 최정태;양재한;도태현
  6. Proc. of the 17th Annual International ACM-SIGIR Towards language independent automated learning of text categorization models Apte, Chidanand;Damerau, Fred;Weis, Sholom M.
  7. Proc. of the 17th Annual International ACM-SIGIR Distributional clustering of words for text classification Baker, L. Douglas;Maccallu, Andrew K.
  8. Finding Out About: A Cognitive perspective on search engine technology and the WWW Belew, R. K.
  9. Proc. of International Conference on SIGMOD '98 Enhanced hypertext categorization using hyperlinks Chakrabarti, Soumen;Dom, Byron;Piotr Indyk
  10. Proc. of European Conference on Machine Learning, ECML '98 Text categorization with support vector machines Joachims, Thorsten
  11. American Documentation v.14 no.1 Bibliographic coupling between scientific papers Kessler, M. M. https://doi.org/10.1002/asi.5090140103
  12. Proc. of the 21th Annual International ACM-SIGIR Automatic essay grading using text categorization techniques Larkey, Leah S.
  13. Proc. of the 3rd Annual Symposium on Document Analysis and Information Retrieval A comparison of two learning algorithms for text categorization Lewis, David L.;Ringuette, Marc.
  14. Proc. of the 19th Annual International ACM-SIGIR Training algorithms for linear text classifier Lewis, David L.;Schapire, Robert E.;Callan, James P.;Papka, Ron
  15. Journal of American society for Information Science v.24 Co-citation in the scientific literature: A new measure of the relationship between two documents Small, H. https://doi.org/10.1002/asi.4630240406