Abstract
In the semistructured distributed documents, it is very difficult to formalize and implement the query processing system due to the lack of structure and rule of the data. In order to precisely retrieve and process the heterogeneous semistructured documents, it is required to handle multiple mappings such as 1:1, 1:W and W:1 on an element simultaneously and to generate the schema from the distributed documents. In this paper, we have proposed an query processing algorithm for querying and answering on the heterogeneous semistructured data or documents over distributed systems and implemented with a metadata interface. The algorithm for generating local queries from the global query consists of mapping between g1oba1 and local nodes, data transformation according to the mapping types, path substitution, and resolving the heterogeneity among nodes on a global input query with metadata information. The mapping, transformation, and path substitution algorithms between the global schema and the local schemas have been implemented the metadata interface called DBXMI (for Distributed Documents XML Metadata Interface). The nodes with the same node name and different mapping or meanings is resolved by automatically extracting node identification information from the local schema automatically. The system uses Quilt as its XML query language. An experiment testing is reported over 3 different OEM model semistructured restaurant documents. The prototype system is developed under Windows system with Java and JavaCC compiler.
반구조적 분산 문서에서는 구조 정보가 제공되지 않고, 자료 구조에 대한 엄격한 형식이 없기 때문에 질의 처리 시스템을 정형화하고 구현하기 어렴다. 이질적이고 이구조적인 반구조적 문서의 요소를 정확하게 검색하기 위해서는 한 요소가 1:1, 1:N, W:1과 같이 서로 다른 매핑 형태를 취하면서 동시에 여러 요소에 매핑되는 다중 매핑을 처리할 수 있어야 하며, 지역문서의 태그를 파싱하여 구조적인 정보를 얻고 경로 트리를 생성해야 한다. 본 논문에서는 분산된 시스템에 존재하는 이질적인 반구조적 자료나 문서에 대한 동시 다중 매핑을 완벽히 지원하고, 문서 자체를 파싱하여 구조적 정보를 얻을 수 있도록 통합 질의와 검색을 수행하기 위한 추상적인 질의 처리 알고리즘을 설계하고 메타데이타 인터페이스를 이용하여 구현하였다. 이 알고리즘은 전역질의를 기반으로 지역질의를 생성하기 위해서 메타데이타 정보를 이용하여 노드들 사이의 매핑, 매핑 종류에 따른 데이타의 변환, 경로교체 및 노드 사이의 이질성을 해결하기 위한 알고리즘으로 제시하였다. 전역스키마와 지역스키마에 대한 매핑과 함수에 의한 데이타의 변환 및 경로교체는 사용자에 의해 구축된 메타데이타 인터페이스인 DDXMI(for Distributed Documents XML Metadata Interface)를 기반으로 하여 구현되었으며, 같은 이름을 갖지만 다른 의미를 갖는 자료나 노드에 대한 검색은 노드를 구분할수 있는 노드가 가지고 있는 자식정보를 이용하여 노드 구분 조건절을 생성하여 구현하였다. XML 질의언어로 Quilt를 사용하였으며, OEM 모델로 제시한 세 개의 서로 다른 반구조적 레스토랑 안내 문서에서구현한 결과를 보였다. 프로토타입 시스템은 윈도우즈 환경에서 Java와 JavaCC 컴파일러를 이용하여 개발하였다.