DOI QR코드

DOI QR Code

A Minimization Technique of XML Path Comparison Based on Signature

시그니쳐를 이용한 XML 경로 비교의 최소화 기법

  • 장경훈 (NHN I&S 사내정보시스템센터) ;
  • 황병연 (가톨릭대학교 컴퓨터정보공학부)
  • Received : 2012.06.12
  • Accepted : 2012.08.10
  • Published : 2012.08.31

Abstract

Since XML allows users to define any tags, XML documents with various structures have been created. Accordingly, many studies on clustering and searching the XML documents based on the similarity of paths have been done in order to manage the documents efficiently. To retrieve XML documents having similar structures, the three-dimensional bitmap indexing technique uses a path as a unit when it creates an index. If a path structure is changed, the technique recognizes it as a new path. Thus, another technique to measure the similarity of paths was proposed. To compute the similarity between two paths, the technique compares every node of the paths. It causes unnecessary comparison of the nodes, which do not exist in common between the two paths. In this paper, we propose a new technique that minimizes the comparison using signatures and show the performance evaluation results of the technique. The comparison speed of proposed technique was 20 percent faster than the existing technique.

XML은 사용자가 태그를 자유롭게 정의할 수 있어 다양한 구조의 문서가 생성된다. 이렇게 작성된 XML 문서를 효율적으로 관리하기 위해 경로의 유사도에 기반한 클러스터링 및 검색에 대한 연구가 진행되어 왔다. 이에 대한 초기 연구인 3차원 비트맵 인덱싱 기법에서는 유사한 XML 문서를 클러스터링하고 검색하기 위해 경로가 인덱스를 구성하는 단위로 사용되었다. 이 기법은 XML 문서의 구조가 변경되었을 때 변경 전의 경로와 변경 후의 경로가 정도에 상관없이 완전히 다른 것으로 인식되는 문제점이 있다. 이에 따라 경로의 유사도를 측정하는 기법들이 제안되었다. 경로의 유사도를 측정하기 위해서는 비교 대상이 되는 두 경로의 노드들을 비교하는데, 이 과정에서 두 경로에 공통으로 존재하지 않는 노드로 인해 불필요한 비교가 발생한다. 하지만 기존의 경로 유사도 기법들은 이러한 점을 고려하지 않았다. 이를 해결하기 위해 본 논문에서는 시그니쳐를 이용하여 경로 간 노드의 비교를 최소화하는 기법을 제안한다. 실제 다양한 구조의 XML 문서를 가지고 성능 평가를 실시하여, 본 논문에서 제안한 기법을 이용했을 때 기존 기법을 이용했을 때보다 약 20%의 성능을 개선시켜 제안한 기법의 우수함을 보인다.

Keywords

References

  1. 김우생, "비트벡터에 기반한 XML 문서 군집화 기법", 전자공학회논문지 C1, 제47권, 제5호, pp. 10-16, 2010.
  2. 김현주, 박소미, 박석, "확장된 질의 처리를 위한 경로간 의미적 유사도를 고려한 XML 문서 순위화 기법", 정보과학회논문지 D, 제37권, 제2호, pp. 113-120, 2010.
  3. 이경하, 문봉기, 이규철, "관계형 XML 가지 패턴 질의를 위한 비트맵 인덱스와 질의 처리 기법", 정보과학회논문지 D, 제37권, 제3호, pp. 146-164, 2010.
  4. 이범석, 황병연, "XML 문서의 유사 경로 검색을 위한 인덱싱 시스템", 정보처리학회논문지, 제15-D권, 제2호, pp. 171-178, 2008. https://doi.org/10.3745/KIPSTD.2008.15-D.2.171
  5. Dalamagas, T., Cheng, T., Winkel, K. J., and Sellis, T., "A Methodology for Clustering XML Documents by Structure," Information Systems, Vol. 31, No. 3, pp. 187-228, 2006. https://doi.org/10.1016/j.is.2004.11.009
  6. Faloutsos, C., "Signature Files : Design and Performance Comparison of Some Signature Extraction Methods," ACM SIGMOD, pp. 63-82, 1985.
  7. http://www.w3.org/TR/REC-xml/.
  8. Hwang, J. H. and Ryu, K. H., "Clustering and Retrieval of XML Documents by Structure," Lecture Notes in Computer Science, Vol. 3481, 2005.
  9. Lee, J. M. and Hwang, B. Y., "Path Bitmap Indexing for Retrieval of XML Documents," Lecture Notes in Computer Science, Vol. 3885, pp. 329-339, 2006.
  10. Sacks-Davis, R., Kent, A., and Ramamohanarao, K., "Multikey Access Methods Based on Superimposed Coding Techniques," ACM Transactions on Database Systems, Vol. 12, No. 4, pp. 655-696, 1984.
  11. XQEngine, http://www.fatdog.com.
  12. Yoon, J. P., Raghavan, V., Chakilam, V., and Kerschberg, L., "BitCube : A Three- Dimensional Bitmap Indexing for XML Documents," Journal of Intelligent Information System, Vol. 17, pp. 241-254, 2001. https://doi.org/10.1023/A:1012861931139