• Title/Summary/Keyword: 엘리먼트 매칭

Search Result 12, Processing Time 0.032 seconds

An XML Document Mathcing using Element Frequency Information (엘리먼트 빈도수 정보를 이용한 XML 문서 매칭)

  • 고승규;강명수;임순범;최윤철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.61-63
    • /
    • 2003
  • XML이 널리 사용됨에 따라 많은 정보가 XML 형태로 표현되고 있다. 또한 인터넷의 대중화로 다양한 정보를 통합하여 처리하거나 교환, 변환하는 경우가 빈번하게 발생한다. 따라서 XML로 표현된 정보도 교환되거나 통합되는 경우가 많이 발생하게 된다. 이와 같은 XML 문서 간의 통합이나 변환에서는 XML의 특징인 문서의 논리적인 구조가 적절하게 반영되어야 한다. 그리고 이를 위해서는 XML 문서의 기본적인 구성 요소인 엘리먼트 간의 매칭이 필수적이다. 기존의 XML 문서 매칭 기법에서는 엘리먼트 이름과 계층 정보 등 명시적으로 표현된 최소한의 정보만을 이용하여 매칭을 수행한다. 이러한 최소한의 제한된 정보를 최대로 이용하여 많은 매칭을 수행하기 위하여 기존의 방법에서는 동의어 사전이나 구조 정보를 과도하게 이용하는 경향이 많다. 따라서 많은 대응을 생성할 수 있지만 동시에 잘못된 대응의 수도 증가한다. 이에 본 논문에서는 명확한 대응을 생성 시키기 위하여 XML의 명시적인 정보 이외에 엘리먼트의 빈도수 정보로부터 엘리먼트 간의 연결성 정보를 정의하고, 이를 이용한 매칭 방법을 제안한다. 제안 방법은 엘리먼트 이름이나 계층 구조 등의 명시적인 정보뿐 아니라 엘리먼트의 연결성을 이용하기 때문에 매칭의 정확도가 향상될 수 있다. 최근에 발표되는 XML 기반의 표준들은 크기가 방대하고 점점 더 복잡해지고 있다. 이같은 환경에서는 잘못된 대응으로 인해 발생하는 비용이 무척 크다. 제안 기법은 매칭의 정확도가 높으므로 이러한 환경에서 좋은 성능을 발휘할 것으로 기대된다.

  • PDF

XML Element Matching Algorithm based on Structural Properties and Rules (룰과 구조적 속성에 기반한 XML 엘리먼트 매칭 알고리즘)

  • Park, Hyung;Jeong, Chanki
    • Journal of Information Technology and Architecture
    • /
    • v.10 no.1
    • /
    • pp.71-77
    • /
    • 2013
  • XML schema matching is the task of finding semantic correspondences between elements of two schemas. XML schema matching plays an important role in many application, such as schema integration, data integration, data warehousing, data transformation, peer-to-peer data management, semantic web etc. In this paper, we propose an XML element matching algorithm based on rules and structural properties. The proposed algorithm involves classifying elements as unique or non-unique elements according to the structural properties of XML documents and deciding on element matching in accordance with rules. We present experimental results that demonstrate the effectiveness of the proposed approach.

Schema Element Matching System using WordNet (워드넷을 이용한 스키마 엘리먼트 매칭 시스템)

  • Lee, Min-Ho;Lee, Won-Goo;Choi, Yun-Soo;Yun, Hwa-Muk;Choi, Dong-Hoon;Cho, Min-Hee;Jung, Han-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.122-124
    • /
    • 2012
  • 정보의 상호운용성 확보를 위해서 여러 형태로 정의되어 있는 스키마들을 매칭하는 것은 반드시 필요한 작업이다. 워드넷은 영어의 의미 어휘목록으로 유의어 집단과 어휘 목록사이의 다양한 의미관계를 기록하여 자동화된 본문 분석과 인공지능 응용에 활용할 수 있다. 본 논문에서는 워드넷을 이용하여 스키마 엘리먼트 이름의 의미 집합을 추출하고 대응하는 엘리먼트 의미 집합과의 유사도를 측정함으로써 스키마 엘리먼트를 매칭하는 시스템을 제안한다. 본 시스템은 다중매칭된 복잡한 관계를 간단한 방법으로 단일매칭화함으로써 사용자가 직관적이고 용이하게 사용할 수 있다. 이를 통하여 데이터 통합, 변환, 분산 검색 등 정보의 상호운용이 필요한 다양한 분야에서 활용될 수 있을 것으로 기대한다.

The Design of Document Matching Method using Type Information (타입 정보를 이용한 문서 매칭 기법 설계)

  • 고승규;임순범;최윤철
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.11b
    • /
    • pp.535-538
    • /
    • 2002
  • XML 문서가 널리 사용됨에 따라 XML 문서 간의 통합이나 변환의 필요성이 증가하고 있다. 이러한 변환이나 통합을 위해서는 미디에이터나 웨어하우스와 같은 방법이 이용될 수 있다. 그런데 어떤 방법을 이용하더라도 질의어와 지역 DTD 간의 매칭이나 지역 DTD 간의 매칭은 필수적이다. 따라서 매칭은 변환이나 통합을 위한 기본적인 기술이라고 볼 수 있다. 이와 같은 매칭 관련 연구는 관계형 데이터베이스 분야에서 많이 진행되었으며, 근래에 SGML/XML 분야에서도 연구가 진행되고 있다. 이중 SGML/XML 문서와 관련된 매칭은 주로 엘리먼트 이름과 구조 정보만을 이용하고 있으며, 특히 구조 정보를 이용할 경우에 잘못된 매칭을 유발시킬 수 있다. 이는 구조 정보가 의미 정보를 적절히 표현하지 못하고 있기 때문이다. 따라서 본 논문에서는 XML문서에서 추출 가능한 타입패턴을 정의하고, 이를 이용한 매칭 기법을 제안한다. 이 기법은 구조 정보를 이용하는 기존의 매칭 기법보다 좀 더 명확하고, 정확한 매칭이 가능하다. 또한 이는 타입 정보를 사용할 수 없는 DTD 기반의 XML 문서에서의 매칭 정확도를 높여줄 수 있을 뿐만 아니라 타입에 기본적인 의미 정보도 반영되므로 의미 기반 웹에 사용될 수 있다.

  • PDF

Pattern-matching Pruning and Reusability Detection for Twig Query Processing on Streaming XML Data (스트리밍 XML 상에서 트윅 질의 처리를 위한 패턴 매칭 프루닝과 재사용성 감지 기법)

  • Park, Sang-Hyun;Ryu, Byung-Gul;Jung, Da-Oun;Lee, SangKeun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.1264-1267
    • /
    • 2011
  • 스트리밍 XML 데이터로부터 트윅 패턴 추출시 질의와 무관한 스트리밍 데이터를 프루닝함으로써 질의 처리 비용을 줄일 수 있어야 한다. 이때 작은 버퍼 사이즈를 유지하면서도 질의 매칭 과정을 최소화하는 것이 필요하다. 본 논문에서는 이를 위한 (1) 패턴 매칭 프루닝과 (2) 재사용성 감지 기법을 제안한다. 기존 기법과 비교하여 제안하는 기법은 스트리밍 데이터의 엘리먼트 이벤트, 버퍼상태 그리고 트윅 패턴을 고려하여 질의 매칭 과정을 최소화한다. 실험결과를 통해 제안기법이 기존 기법보다 우수한 성능을 나타냄을 보인다.

Automating XML documents Transformations based on Semantic and Encoded Structure Analysis (의미 분석과 부호화된 구조 분석을 이용한 XML 자동 변환)

  • Yang, Hong-Jun;Kawk, Dong-Guy;Moon, Hyun-Joo;Yoo, Chae-Woo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06b
    • /
    • pp.562-567
    • /
    • 2008
  • XML은 W3C 표준으로 채택된 이후로 많은 어플리케이션에서 데이터를 표현하는 방법으로 사용되고 있다. XML문서는 특정 어플리케이션에 종속적이기 때문에 XSLT를 이용하여 변환한 뒤 사용하게 된다. 그러나 변환에는 많은 노력, 시간과 비용이 소요되기 때문에 이를 자동으로 변환하는 시스템을 구축하는 것이 최선의 방법이다. 이를 위해서 XTGen이나 XSLT 스크립트 시스템이 기존에 제안되었지만 사용자가 엘리먼트간의 관계를 수동으로 처리하는 방식이거나 변환 문서간 단말 노드의 1:1 매칭이라는 제약과 대규모 변환에 어려움이 있다. 본 논문은 JAWS를 이용한 엘리먼트간의 의미 관계 분석과 DTD의 구조를 분석하여 XSLT를 생성함으로써 기존 시스템들의 단점을 보완하고 더 높은 정확성을 보장한다는 장점을 가지고 있다. 본 논문에서 제안하는 시스템은 XML 문서를 변환하기 위한 XSLT를 자동으로 생성하여 XML 문서를 변환하는 모든 과정을 자동화 함으로써 문서 변환에 따르는 비용의 절감할 수 있을 것으로 기대된다.

  • PDF

An Efficient Algorithm for Clustering XML Schemas (XML 스키마 클러스터링을 위한 효율적인 알고리즘)

  • Rhim Tae-Woo;Lee Kyong-Ho
    • Journal of Korea Multimedia Society
    • /
    • v.8 no.7
    • /
    • pp.857-868
    • /
    • 2005
  • Schema clustering is important as a prerequisite to the integration of XML schemas. This paper presents an efficient method for clustering XML schemas. The proposed method first computes similarities among schemas. The similarity is defined by the size of the common structure between two schemas under the assumption that the schemas with less cost to be integrated are more similar. Specifically, we extract one-to-one matchings between paths with the largest number of corresponding elements. Finally, a hierarchical clustering method is applied to the value of similarity. Experimental results with many XML schemas show that the method has peformed better compared with previous works, resulting in a Precision of $99\%$ and a rate of clustering of $93\%$ in average.

  • PDF

Hardware-Based High Performance XML Parsing Technique Using an FPGA (FPGA를 이용한 하드웨어 기반 고성능 XML 파싱 기법)

  • Lee, Kyu-hee;Seo, Byeong-seok
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.40 no.12
    • /
    • pp.2469-2475
    • /
    • 2015
  • A structured XML has been widely used to present services on various Web-services. The XML is also used for digital documents and digital signatures and for the representation of multimedia files in email systems. The XML document should be firstly parsed to access elements in the XML. The parsing is the most compute-instensive task in the use of XML documents. Most of the previous work has focused on hardware based XML parsers in order to improve parsing performance, while a little work has studied parsing techniques. We present the high performance parsing technique which can be used all of XML parsers and design hardware based XML parser using an FPGA. The proposed parsing technique uses element analyzers instead of the state machine and performs multibyte-based element matching. As a result, our parsing technique can reduce the number of clock cycles per byte(CPB) and does not need to require any preprocessing, such as loading XML data into memory. Compared to other parsers, our parser acheives 1.33~1.82 times improvement in the system performance. Therefore, the proposed parsing technique can process XML documents in real time and is suitable for applying to all of XML parsers.

Program Plagiarism Detection based on X-treeDiff+ (X-treeDiff+ 기반의 프로그램 복제 탐지)

  • Lee, Suk-Kyoon
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.47 no.4
    • /
    • pp.44-53
    • /
    • 2010
  • Program plagiarism is a significant factor to reduce the quality of education in computer programming. In this paper, we propose the technique of identifying similar or identical programs in order to prevent students from reckless copying their programming assignments. Existing approaches for identifying similar programs are mainly based on fingerprints or pattern matching for text documents. Different from those existing approaches, we propose an approach based on the program structur. Using paring progrmas, we first transform programs into XML documents by representing syntactic components in the programs with elements in XML document, then run X-tree Diff+, which is the change detection algorithm for XML documents, and produce an edit script as a change. The decision of similar or identical programs is made on the analysis of edit scripts in terms of program plagiarism. Analysis of edit scripts allows users to understand the process of conversion between two programs so that users can make qualitative judgement considering the characteristics of program assignment and the degree of plagiarism.