Extracting Information from XML Documents by Reverse Generating DTDs

DTD 역 구성을 통한 XML문서에서의 정보추출

  • Published : 2003.04.01

Abstract

XML documents are widely used for exchanging information in the distributed computing environment. Here, actual information contained in the document can only be interpreted with the provision of a proper DTD. However, XML documents collected from the web nay not always be accompanied by corresponding DTD, so that it may not be easy to extract information from such sources. In this study, we reverse construct a DTD from DTU-unknown XML sources. We then use the DTD to extract information from XML inputs and to store it into the underlying DB. The DTD construction module developed is designed in such a way that, it scans input XML files in 1-path, where most other implementations use 2-path approach. The information extraction module provides clean Java programming interfaces as well, so that it can be easily integrated with other web applications.

분산된 환경에서 정보를 교환하기 위한 수단으로의 XML문서는, 그 자료의 구성을 정의하는 DTD를 통해서만 정확한 의미가 파악될 수 있다. 하지만 인터넷에서 수집된 XML 문서에 항상 DTD가 제공되리라는 보장은 없으며, 이러한 경우에는 수집 된 XML 문서의 구조를 파악한 후 정보를 추출해야 한다. 본 연구에서는 DTD가 알려지지 않은 XML 문서를 바탕으로 적합한 DTD를 구성하고, 이를 이용해 XML 정보를 구조적인 형태로 하부 DB에 저장할 수 있는 방법에 대해 설명하고자 한다. 특히, 본 연구를 통해 개발된 DTD 추출기는 XML 파일을 1-Path로 스캔하기에 기존에 나와있는 다른 방식보다 더 효율적으로 DTD를 구축할 수 있다.

Keywords