Abstract
The change detection of XML documents is a major research area. However, though XML becomes a file format for Hangul documents, research on change detection of Hangul documents based on the characteristics of Hangul documents is rather scarce. Since format data in Hangul documents are very large, which is different from ordinary XML documents, it is not proper to apply general XML change detection algorithms such as X-treeDiff+ to Hangul documents without any change. In this paper, we propose new contents-based matching algorithm and implement it in X-treeDiff+. The result of our testing shows better performance for most documents in editing process.
XML 문서에 대한 변화탐지는 중요한 연구 분야이다. 그러나 한글 문서 파일 형식으로 XML이 지원되고 있음에도 한글 문서의 특성을 반영한 변화 탐지 연구는 아직 미비하다. 한글 문서는 일반적인 XML 문서와는 달리 서식 정보의 비중이 매우 커서 X-treeDiff+와 같은 일반적인 XML 문서의 변화탐지 알고리즘을 그대로 적용하기에는 적합하지 않다. 본 논문에서는 한글 문서에 대한 변화탐지를 위해 새로운 내용 기반의 대응 알고리즘을 제안하고 이를 X -treeDiff+에 구현하였다. 실험을 통해 제안된 알고리즘은 대부분의 편집과정의 문서에 대해 우수한 성능을 보이고 있음을 제시했다.