Technique for Path-based Similarity Evaluation of XML Documents

경로 기반의 XML 문서 유사도 계산 기법

  • Yi Dong-Ae (Dept. of Information and Communication Engineering, Keimyung University) ;
  • Jang Duck-Sung (Dept. of Information and Communication Engineering, Keimyung University)
  • 이동애 (계명대학교 정보통신공학과) ;
  • 장덕성 (계명대학교 정보통신공학과)
  • Published : 2004.11.01

Abstract

XML은 의미적으로는 동일하거나 혹은 유사하지만 서로 다른 구조의 XML 문서들을 허용하므로 XML 문서들을 대상으로 하는 검색, 클러스터링 등의 응용에서는 XML 문서들간의 유사도 계산이 선행되어져야 한다. XML 문서간 유사도를 계산하기 위해서는 문서의 구조 정보인 엘리먼트들과 이들 엘리먼트들의 계층적 구조가 고려되어져야 한다. 본 연구에서는 두 XML 문서가 얼마나 유사한 경로들을 공통으로 가지냐를 두 문서간의 유사도로 보고, 경로 유사도 계산식과, 이를 기반으로 하는 문서 거리 및 문서 유사도 계산식을 정의하여, 유사도 계산 기법을 제안한다. 제안된 기법과 기존 유사도 계산 기법들을 예제 문서들을 통해 계산결과를 비교한다.

Keywords