DOI QR코드

DOI QR Code

XML 문서의 구조기반 검색성능 평가

Performance Evaluation on Structure-based Retrievals of XML Documents

  • 김수희 (호서대학교 컴퓨터공학부)
  • 발행 : 2009.02.28

초록

이 논문에서는 XML 문서의 효율적인 구조검색을 위하여 기존의 연구에 이어 엘리먼트들의 순서를 명시하는 메타데이터들을 추가로 개발하였고, 이들을 바탕으로 구조기반 인덱싱 모델을 설계하였다. 설계한 구조검색 인덱스들은 문서의 계층구조에서 수직관계에 있는 엘리먼트들 뿐만 아니라 수평관계에 있는 엘리먼트들을 효율적으로 검색할 수 있게 한다. 제안한 구조기반 인덱스의 성능을 평가하기 위해 프로토타입 XML 문서 검색 시스템 개발하였고, XML 코퍼스를 대상으로 검색 실험을 수행하였다. 자손검색, 조상검색, 형제검색에서 ETID 모델보다 평균 검색 시간이 약 12% 정도 향상되었으며, 특정 엘리먼트 타입의 순서를 명시한 검색에서는 평균 검색 시간이 ETID 모델보다 25% 이상의 향상률을 보였다. 이것은 이 논문에서 제시한 Etype, Asso, LSSO를 이용한 검색이 엘리먼트의 순서를 명시한 검색 성능 향상에 큰 기여를 한 것으로 분석된다.

In extension to our previous study, we develop metadata that specify elements' structural orders, to increase the efficiency level of XML document's retrieval process. Then, we proposed a structure-based indexing model. We expect the model to generate a more efficient retrieval process of horizontally and vertically related elements. To evaluate the model's performance level, we developed an experimental prototype and conducted an experiment on an XML corpus. On average, descendant, ancestor and sibling retrievals were approximately twelve percent faster than the ETID model. And retrievals specifying structural orders of particular element types were approximately twenty-five percent faster than the ETID model. In conclusion, metadata, such as Etype, Asso and Lsso, may make a meaningful contribution to retrieval processes that specify elements' order.

키워드

참고문헌

  1. S. Aviteboul, S. Buneman, and D. Suciu, "Data on the Web-From Relations to Semistructured Data," Morgan Kaufman Publishers, San Francisco, 2000.
  2. A. Deutch D. Fernandez, M. and Florescu, and D. Suciu, “A query language for XML," WWW8/Computer Networks, 31(11-16): 1155-1169, 1999. https://doi.org/10.1016/S1389-1286(99)00020-1
  3. D. Kossmann, "Special Issue on XML," IEEE Data Engineering Bulletin, 22(3), 1999.
  4. D. Chamberlin, J. Robie, and D. Florescu, Quilt: "An XML query language for heterogeneous data sources," In D. Suciu and G. Vossen, editors, 3rd International Workshop on the Web and Databases, Dallas, Texas 2000.
  5. 김수희, 한예지, "XML 문서의 효율적인 구조검색을 위한 인덱싱," 정보과학회 데이터베이스연구회, 2003
  6. 박종관, 손충범, 강형일, 유재수, 이병엽, "XML 문서의 효율적인 구조기반 검색을 위한 색인모델," 정보처리학회논문지 D 제8-D권 제5호, pp. 451-460, 2001.
  7. Yong Kyu Lee, Seong-Joon Yoo, Kyoungro Yoon and P. Bruce Berra, "Index Structure for Structured Documents," In DL 96, Bethesda, 1996.
  8. Dongwook Shin, Hyuncheol Jang and Honglan Jin, "Bus: An Effective Indexing and Retrieval Scheme in Structured Documents," In DL 98, Pittsburgh, 1998.
  9. Hyunchul Jang, Youngil Kim, and Dongwook Shin, "An Effective Mechanism for Index Update in Structured Documents," In CIKM 99, Kansas City, 1999.
  10. Vincent Oria, Amit Shah, Samuel Sowell, "Indexing XML Documents: Improving the BUS Method," 7th Workshop on Multimedia Information Systems, 7-9 November 2001, Villa Orlandi, Capri, Italy, Proceedings, PI'. 51-60, 2001.
  11. Sung Wan Kim, Jaeho Lee, Hae Chull Lim, "Indexing and Retrieval of XML-Encoded Structured Documents in Dynamic Environment," Springer-Verlag Berlin Heidelberg 2002, pp. 141-154, 2002.
  12. 김성완, 정현석, 이재호, 임해철, "XML 문서에서 엘리먼트 타입을 이용한 구조적 검색 기법의 설계," 2003년도 한국정보과학회 봄학술발표논문집 Vol.30, No.1, pp. 584-586, 2003.
  13. 한성근외 4명, "동적 환경에 적합한 SGML 인덱스 관리자의 설계 및 구현", 한국정보처리논문지, 제6권 제10호, 1999. (IM-E)
  14. Norbert Govert, Norbert Fuhr, Mohammad Abolhassani, and Kai Gro$\beta$johann. "Contentoriented XML retrieval with HyREX," In Proceedings of the 1st INEX Workshop, Sophia Antipolis, France, pp. 26-32, 2003.