Similarity Computation for XML Document with Semantically Extended Tags

의미적으로 확장된 태그들을 이용한 XML 문서들의 유사성 계산.

  • Song, In-Sang (Dept. of Computer Engineering, SungKyunKwan University) ;
  • Paik, Ju-Ryun (Dept. of Computer Engineering, SungKyunKwan University) ;
  • Kim, Ung-Mo (Dept. of Computer Engineering, SungKyunKwan University)
  • 송인상 (성균관대학교 정보통신공학부 컴퓨터공학과) ;
  • 백주련 (성균관대학교 정보통신공학부 컴퓨터공학과) ;
  • 김응모 (성균관대학교 정보통신공학부 컴퓨터공학과)
  • Published : 2006.11.10

Abstract

XML(eXtensible Markup language) 사용의 급속한 증가는 웹에 존재하는 많은 양의 정보들을 XML기반 데이터로 생성하게 했으며 저장과 교환에 있어서 표준이 되도록 했다. 이는 사용자에 의한 임의의 태그정의를 가능하게 하는 XML 사용의 용이성에 기반한다. 그러나 이러한 장점은 비슷한 내용을 갖는 XML 문서에 대해서 사람들마다 개개의 태그이름과 구조를 사용한다는 문제점을 만든다. 따라서 유사한 의미를 가지고 있지만 서로 다른 문서로 분류된다. 이러한 점을 개선하기 위해 XML 문서 태그들 간의 벡터 스페이스 모델과 XML 데이터를 이용하여 시소러스를 구축하는 방법 등이 연구되고 제안되어 왔지만 아직 초보적인 단계이다. 본 논문에서는 XML 문서를 구성하는 태그들을 동의어로 확장하여 벡터를 생성하고 생성된 벡터를 가지고 태그들 간의 유사성을 체크하여 서로 다른 XML 문서들의 유사성을 수치적으로 계산한다.

Keywords