A Design of XML-Based Distributed MDR Retrieval System for Data Preparation

데이터준비를 위한 XML 기반의 분산 MDR 검색 시스템 설계

  • 고석범 (육군사관학교 전자계산학과) ;
  • 윤성대 (부경대학교 전자계산학과)
  • Published : 2004.09.01


The purpose of data mining is to extract multi-dimensional information from a large database. The only information that we can extract from a large database is the column name, data type or simple comments included in the columns of database tables. With such unstructured and scarce information, it is very difficult and time taking to collect and to cleanse data by analyzing the purpose, characteristic and schema of the column during the data preparation step. In order to solve this problem, we propose solutions for reducing the time spent data preparation step in a relational database environment in this paper. That is, we propose useful elements to be considered during the data preparation step and then these elements are organized to constitute MDR(Metadata Registry) which is becoming the international standard of ISO/IEC : ll179. Finally, we propose a XML-based distributed MDR retrieval system that is convertible among heterogeneous systems and heterogeneous DBMSS.

데이터마이닝은 방대한 데이터로부터 다차원적인 정보를 추출하는 것이다. 방대하게 구축되어 있는 데이터베이스에서 임의의 테이블의 컬럼에 대해 참조 할 수 있는 정보는 단순하게 컬럼명과 자료형 혹은 간단한 주석 정도이다. 그러한 비구조적이고 빈약한 내용만으로는 데이터마이닝을 위한 자료수집 및 자료탐색 단계에서 컬럼의 용도와 특성 및 스키마를 파악하여 데이터를 정제하고 수집하는 것이 난해 할 뿐만 아니라 너무 많은 시간이 소요된다. 이러한 문제를 해결하기 위해 본 논문에서는 관계형 데이터베이스 환경에서 데이터준비 단계 에 대부분의 시간을 소요하는 문제를 해결하기 위한 방안을 제안한다. 즉, 데이터 준비 단계에서 유용한 요소들을 메타데이터의 표준인 ISO/IEC : 11179 MDR (MetaData Registry) 규격에 맞는 표준 메타데이터를 제안하고, 이기종 및 이질 DBMS간에 호환 가능한 XML 기반의 분산 MDR 검색 시스템 구조를 제안한다.
