• Title/Summary/Keyword: 엘리먼트 매칭

검색결과 12건 처리시간 0.026초

엘리먼트 빈도수 정보를 이용한 XML 문서 매칭 (An XML Document Mathcing using Element Frequency Information)

  • 고승규;강명수;임순범;최윤철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.61-63
    • /
    • 2003
  • XML이 널리 사용됨에 따라 많은 정보가 XML 형태로 표현되고 있다. 또한 인터넷의 대중화로 다양한 정보를 통합하여 처리하거나 교환, 변환하는 경우가 빈번하게 발생한다. 따라서 XML로 표현된 정보도 교환되거나 통합되는 경우가 많이 발생하게 된다. 이와 같은 XML 문서 간의 통합이나 변환에서는 XML의 특징인 문서의 논리적인 구조가 적절하게 반영되어야 한다. 그리고 이를 위해서는 XML 문서의 기본적인 구성 요소인 엘리먼트 간의 매칭이 필수적이다. 기존의 XML 문서 매칭 기법에서는 엘리먼트 이름과 계층 정보 등 명시적으로 표현된 최소한의 정보만을 이용하여 매칭을 수행한다. 이러한 최소한의 제한된 정보를 최대로 이용하여 많은 매칭을 수행하기 위하여 기존의 방법에서는 동의어 사전이나 구조 정보를 과도하게 이용하는 경향이 많다. 따라서 많은 대응을 생성할 수 있지만 동시에 잘못된 대응의 수도 증가한다. 이에 본 논문에서는 명확한 대응을 생성 시키기 위하여 XML의 명시적인 정보 이외에 엘리먼트의 빈도수 정보로부터 엘리먼트 간의 연결성 정보를 정의하고, 이를 이용한 매칭 방법을 제안한다. 제안 방법은 엘리먼트 이름이나 계층 구조 등의 명시적인 정보뿐 아니라 엘리먼트의 연결성을 이용하기 때문에 매칭의 정확도가 향상될 수 있다. 최근에 발표되는 XML 기반의 표준들은 크기가 방대하고 점점 더 복잡해지고 있다. 이같은 환경에서는 잘못된 대응으로 인해 발생하는 비용이 무척 크다. 제안 기법은 매칭의 정확도가 높으므로 이러한 환경에서 좋은 성능을 발휘할 것으로 기대된다.

  • PDF

룰과 구조적 속성에 기반한 XML 엘리먼트 매칭 알고리즘 (XML Element Matching Algorithm based on Structural Properties and Rules)

  • 박형;정찬기
    • 정보화연구
    • /
    • 제10권1호
    • /
    • pp.71-77
    • /
    • 2013
  • XML 스키마 매칭은 두 스키마의 엘리먼트들 간의 의미적인 유사성을 찾는 작업이다. XML 스키마 매칭은 스키마 통합, 데이터 통합, 데이터 웨어하우징, 데이터 변환, P2P 데이터 관리, 시멘틱 웹 등과 같은 응용체계에서 중요한 역할을 한다. 본 논문은 룰과 구조적 속성에 기반한 XML 엘리먼트 매칭 알고리즘을 제안한다. 제안한 알고리즘에서는 먼저 XML 문서의 구조적 속성을 이용하여 엘리먼트들이 unique와 non-unique로 분류되며, 이후 룰에 따라 엘리먼트의 매칭여부를 결정한다. 제안 알고리즘의 효과성을 보이기 위해 인터넷에 공개된 XML 스키마를 이용하여 성능을 평가하였다. 또한 제안 알고리즘은 문서의 구조적 속성을 이용함으로써 사용자 주관성을 배제하고 객관성을 보장하며 특정 유형이 아닌 다양한 형태의 XML에 적용이 가능하다.

워드넷을 이용한 스키마 엘리먼트 매칭 시스템 (Schema Element Matching System using WordNet)

  • 이민호;이원구;최윤수;윤화묵;최동훈;조민희;정한민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.122-124
    • /
    • 2012
  • 정보의 상호운용성 확보를 위해서 여러 형태로 정의되어 있는 스키마들을 매칭하는 것은 반드시 필요한 작업이다. 워드넷은 영어의 의미 어휘목록으로 유의어 집단과 어휘 목록사이의 다양한 의미관계를 기록하여 자동화된 본문 분석과 인공지능 응용에 활용할 수 있다. 본 논문에서는 워드넷을 이용하여 스키마 엘리먼트 이름의 의미 집합을 추출하고 대응하는 엘리먼트 의미 집합과의 유사도를 측정함으로써 스키마 엘리먼트를 매칭하는 시스템을 제안한다. 본 시스템은 다중매칭된 복잡한 관계를 간단한 방법으로 단일매칭화함으로써 사용자가 직관적이고 용이하게 사용할 수 있다. 이를 통하여 데이터 통합, 변환, 분산 검색 등 정보의 상호운용이 필요한 다양한 분야에서 활용될 수 있을 것으로 기대한다.

타입 정보를 이용한 문서 매칭 기법 설계 (The Design of Document Matching Method using Type Information)

  • 고승규;임순범;최윤철
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 추계학술발표논문집
    • /
    • pp.535-538
    • /
    • 2002
  • XML 문서가 널리 사용됨에 따라 XML 문서 간의 통합이나 변환의 필요성이 증가하고 있다. 이러한 변환이나 통합을 위해서는 미디에이터나 웨어하우스와 같은 방법이 이용될 수 있다. 그런데 어떤 방법을 이용하더라도 질의어와 지역 DTD 간의 매칭이나 지역 DTD 간의 매칭은 필수적이다. 따라서 매칭은 변환이나 통합을 위한 기본적인 기술이라고 볼 수 있다. 이와 같은 매칭 관련 연구는 관계형 데이터베이스 분야에서 많이 진행되었으며, 근래에 SGML/XML 분야에서도 연구가 진행되고 있다. 이중 SGML/XML 문서와 관련된 매칭은 주로 엘리먼트 이름과 구조 정보만을 이용하고 있으며, 특히 구조 정보를 이용할 경우에 잘못된 매칭을 유발시킬 수 있다. 이는 구조 정보가 의미 정보를 적절히 표현하지 못하고 있기 때문이다. 따라서 본 논문에서는 XML문서에서 추출 가능한 타입패턴을 정의하고, 이를 이용한 매칭 기법을 제안한다. 이 기법은 구조 정보를 이용하는 기존의 매칭 기법보다 좀 더 명확하고, 정확한 매칭이 가능하다. 또한 이는 타입 정보를 사용할 수 없는 DTD 기반의 XML 문서에서의 매칭 정확도를 높여줄 수 있을 뿐만 아니라 타입에 기본적인 의미 정보도 반영되므로 의미 기반 웹에 사용될 수 있다.

  • PDF

스트리밍 XML 상에서 트윅 질의 처리를 위한 패턴 매칭 프루닝과 재사용성 감지 기법 (Pattern-matching Pruning and Reusability Detection for Twig Query Processing on Streaming XML Data)

  • 박상현;류병걸;정다운;이상근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.1264-1267
    • /
    • 2011
  • 스트리밍 XML 데이터로부터 트윅 패턴 추출시 질의와 무관한 스트리밍 데이터를 프루닝함으로써 질의 처리 비용을 줄일 수 있어야 한다. 이때 작은 버퍼 사이즈를 유지하면서도 질의 매칭 과정을 최소화하는 것이 필요하다. 본 논문에서는 이를 위한 (1) 패턴 매칭 프루닝과 (2) 재사용성 감지 기법을 제안한다. 기존 기법과 비교하여 제안하는 기법은 스트리밍 데이터의 엘리먼트 이벤트, 버퍼상태 그리고 트윅 패턴을 고려하여 질의 매칭 과정을 최소화한다. 실험결과를 통해 제안기법이 기존 기법보다 우수한 성능을 나타냄을 보인다.

의미 분석과 부호화된 구조 분석을 이용한 XML 자동 변환 (Automating XML documents Transformations based on Semantic and Encoded Structure Analysis)

  • 양홍준;곽동규;문현주;유재우
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (B)
    • /
    • pp.562-567
    • /
    • 2008
  • XML은 W3C 표준으로 채택된 이후로 많은 어플리케이션에서 데이터를 표현하는 방법으로 사용되고 있다. XML문서는 특정 어플리케이션에 종속적이기 때문에 XSLT를 이용하여 변환한 뒤 사용하게 된다. 그러나 변환에는 많은 노력, 시간과 비용이 소요되기 때문에 이를 자동으로 변환하는 시스템을 구축하는 것이 최선의 방법이다. 이를 위해서 XTGen이나 XSLT 스크립트 시스템이 기존에 제안되었지만 사용자가 엘리먼트간의 관계를 수동으로 처리하는 방식이거나 변환 문서간 단말 노드의 1:1 매칭이라는 제약과 대규모 변환에 어려움이 있다. 본 논문은 JAWS를 이용한 엘리먼트간의 의미 관계 분석과 DTD의 구조를 분석하여 XSLT를 생성함으로써 기존 시스템들의 단점을 보완하고 더 높은 정확성을 보장한다는 장점을 가지고 있다. 본 논문에서 제안하는 시스템은 XML 문서를 변환하기 위한 XSLT를 자동으로 생성하여 XML 문서를 변환하는 모든 과정을 자동화 함으로써 문서 변환에 따르는 비용의 절감할 수 있을 것으로 기대된다.

  • PDF

XML 스키마 클러스터링을 위한 효율적인 알고리즘 (An Efficient Algorithm for Clustering XML Schemas)

  • 임태우;이경호
    • 한국멀티미디어학회논문지
    • /
    • 제8권7호
    • /
    • pp.857-868
    • /
    • 2005
  • 스키마 클러스터링은 스키마의 통합을 위한 전처리 단계로서 중요하다. 본 논문에서는 XML 스키마를 클러스터링하기 위한 효율적인 방법을 제안한다. 제안된 방법은 먼저 스키마 사이의 유사도를 계산한다. 특히 두 스키마를 통합하는데 드는 비용이 적을수록 유사하다는 가정하에 스키마 사이의 유사도를 공통된 구조의 크기로 정의한다. 이를 위해서 경로 사이에 서로 대응하는 엘리먼트의 합이 최대가 되는 경로간의 일대일 매칭을 추출한다. 또한 계산된 유사도값에 기반하여 계층적 클러스터링 방법을 적용한다. 제안된 방법의 성능을 평가하기 위해서 다수의 XML 스키마를 대상으로 실험한 결과, $99\%$의 정확률과 $93\%$의 클러스터링률을 보여 기존의 알고리즘보다 우수하였다.

  • PDF

FPGA를 이용한 하드웨어 기반 고성능 XML 파싱 기법 (Hardware-Based High Performance XML Parsing Technique Using an FPGA)

  • 이규희;서병석
    • 한국통신학회논문지
    • /
    • 제40권12호
    • /
    • pp.2469-2475
    • /
    • 2015
  • 다양한 웹 서비스들은 서비스의 제공을 위해서 구조화된 표준문서인 XML(eXtensible Markup Language)을 널리 사용하고 있으며, 모바일 환경에서의 전자문서 및 전자서명 그리고 메일시스템에서도 XML이 사용되고 있다. XML을 사용하기 위해서는 문서의 파싱이 요구되며, 이는 XML 처리에서 가장 계산 집중적 작업이다. 따라서, XML 파싱 성능을 높이기 위해 하드웨어 기반의 파서들이 제안되어 성능 향상에 초점을 맞추고 있지만 실제 파싱 기법들에 대한 연구는 거의 이루어지지 않았다. 본 논문에서는 파서의 종류와 상관없이 사용될 수 있는 고성능 XML 파싱 기법을 제안하고 FPGA를 이용하여 파서를 설계하여 검증하였다. 제안된 파싱 기법은 상태머신 대신에 엘리먼트 분석기들을 사용하며 다중바이트 단위 엘리먼트 매칭을 수행한다. 제안된 파싱 기법은 CPB 항목에서 약 2~4배의 소비 클록을 감소시켰으며 파싱 이전에 전처리작업을 요구하지 않는다. 다른 파서들과 비교하여 제안된 파서는 약 1.33~1.82배 속도를 향상시켰다. 따라서, 제안된 파싱 기법은 실시간 XML 파싱이 가능하며 일반적인 XML 파서들에서도 적용할 수 있는 적합한 구조를 갖는다.

X-treeDiff+ 기반의 프로그램 복제 탐지 (Program Plagiarism Detection based on X-treeDiff+)

  • 이석균
    • 전자공학회논문지CI
    • /
    • 제47권4호
    • /
    • pp.44-53
    • /
    • 2010
  • 컴퓨터 프로그래밍 교육에서 프로그램 복제는 프로그래밍 학습 효율을 저해하는 심각한 요인이다. 본 논문에서는 학생들이 프로그래밍 과제의 무분별한 복제를 방지하기 위해 유사 또는 동일 프로그램을 탐지하는 기법을 제안한다. 지문법이나 스트링 매칭을 기반으로 하는 기존의 탐지 기법과는 달리, 우선 C 프로그램을 파싱하여 문법요소를 엘리먼트로 하는 XML 문서로 변화시킨 후 XML 문서의 변화탐지 알고리즘인 X-treeDiff+를 실행시켜 그 차이를 분석하는 방법을 취한다. 이때 대응의 정도를 나타내는 유사도와 두 문서의 차이로 제시되는 일련의 편집연산인 편집스크립트를 프로그램 복제의 관점에서 분석하여 복제 여부에 대한 판단을 하게 된다. 편집스크립트의 분석은 두 프로그램 간의 변환 과정을 유추할 수 있게 하여 기존 방법들과는 달리 사용자는 과제의 성격이나 복제의 정도를 고려한 정성적인 판단이 가능하다는 장점이 있다.