• 제목/요약/키워드: XML Matching

검색결과 67건 처리시간 0.027초

FPGA를 이용한 하드웨어 기반 고성능 XML 파싱 기법 (Hardware-Based High Performance XML Parsing Technique Using an FPGA)

  • 이규희;서병석
    • 한국통신학회논문지
    • /
    • 제40권12호
    • /
    • pp.2469-2475
    • /
    • 2015
  • 다양한 웹 서비스들은 서비스의 제공을 위해서 구조화된 표준문서인 XML(eXtensible Markup Language)을 널리 사용하고 있으며, 모바일 환경에서의 전자문서 및 전자서명 그리고 메일시스템에서도 XML이 사용되고 있다. XML을 사용하기 위해서는 문서의 파싱이 요구되며, 이는 XML 처리에서 가장 계산 집중적 작업이다. 따라서, XML 파싱 성능을 높이기 위해 하드웨어 기반의 파서들이 제안되어 성능 향상에 초점을 맞추고 있지만 실제 파싱 기법들에 대한 연구는 거의 이루어지지 않았다. 본 논문에서는 파서의 종류와 상관없이 사용될 수 있는 고성능 XML 파싱 기법을 제안하고 FPGA를 이용하여 파서를 설계하여 검증하였다. 제안된 파싱 기법은 상태머신 대신에 엘리먼트 분석기들을 사용하며 다중바이트 단위 엘리먼트 매칭을 수행한다. 제안된 파싱 기법은 CPB 항목에서 약 2~4배의 소비 클록을 감소시켰으며 파싱 이전에 전처리작업을 요구하지 않는다. 다른 파서들과 비교하여 제안된 파서는 약 1.33~1.82배 속도를 향상시켰다. 따라서, 제안된 파싱 기법은 실시간 XML 파싱이 가능하며 일반적인 XML 파서들에서도 적용할 수 있는 적합한 구조를 갖는다.

근사 패턴매칭을 이용한 대화형 도우미 에이전트의 개발 (Development of a Conversational Help Agent Using Approximate Pattern Matching)

  • 김수영;조성배
    • 인지과학
    • /
    • 제13권4호
    • /
    • pp.1-8
    • /
    • 2002
  • 인터넷의 성장에 따라 많은 웹사이트가 생기고, 더 많은 정보가 웹사이트에 등록되었다. 웹사이트에 등록되는 정보가 많을수록, 사용자가 원하는 정보를 얻기가 쉽지 않다. 따라서, 사용자가 원하는 정보를 쉽게 찾을 수 있도록, 웹사이트 내에 전문(full-text) 검색엔진을 도입하기도 한다. 본 논문에서는 사용자가 자연어를 이용한 대화를 통해 웹사이트 내의 정보를 습득할 수 있도록 하는 대화형 도우미 에이전트를 개발한다. 제안한 방법은 전통적인 자연어 처리 기법이 아닌 인공지능의 패턴매칭에 기반한다. 사용자가 문장을 입력하면, 한글 전처리과정을 통해 사용자의 문장을 분석하고, 이미 작성되어 있는 지식과의 매칭을 통해 사용자에게 알맞은 대답을 제시한다. 지식은 XML 형식으로 저장되며, 사용자가 입력한 문장과 아주 똑같지 않더라도, 어느 정도의 유사도를 가지고 대답을 이끌어낼 수 있다. 실험결과 동일한 의미를 가진 다양한 형태의 문장을 입력했을 경우에도 동일 패턴임을 인식하여, 사용자가 원하는 결과를 낼 수 있었다.

  • PDF

자동분류와 사용자업데이트를 이용한 스키마 매칭 (Automatic Scheme Matching using Classification and User update)

  • 이명주;신현두;박소라;황수찬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.102-104
    • /
    • 2011
  • 서로 다른 XML 스키마를 바탕으로 작성된 XML 문서간의 비교 및 검색을 위해서는 두 스키마 사이의 연관관계를 계산하는 스키마 매칭 과정이 필수적이다. 스키마 매칭방법으로는 구조적 연관성을 비교하는 방법, 의미적 연관성을 계산하는 방법, 타입의 연관성을 계산하는 방법이 존재한다. 또한, 자동분류기법을 사용하여 연관성을 계산하는 방법도 존재한다. 본 논문에서는 XML 문서의 비교을 위한 효율적인 스키마 매칭 방법을 제안한다. 제안된 방법은 두 단계로 구성된다. 먼저 자동분류기법을 사용하여 단말노드 사이의 매칭정도를 계산한다. 또한 의미적, 구조적, 타입의 연관성도 계산하여 최적의 매칭결과를 선택한다. 특히 의미적 연관성은 사용자 피드백에 의해 점증적으로 갱신되는 온톨로지에 기반한다.

엔지니어링 문서 스키마의 효율적 매칭을 위한 데이터마이닝 기법의 활용방안 (A data mining approach for efficient matching of engineering document schemata)

  • 박상일;안현정;김효진;이상호
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2010년도 정기 학술대회
    • /
    • pp.226-229
    • /
    • 2010
  • 본 연구에서는 데이터 저장의 질적 향상을 도모하는 XML 스키마 매칭의 효율적 활용방안을 제시하였다. 이를 위하여 매칭의 가중치의 변화에 따라 달라지는 정확도 데이터를 수집하고, 수집한 데이터를 활용하여 데이터 마이닝 기법 중 하나인 의사결정나무 모델을 수립하였다. 수립모델을 응용하여 구현한 가중치 자동선정 모듈은 설명변수인 교량의 형식, 문서가 포함하고 있는 요소의 수, 문서를 작성한 회사 등의 값에 따라 의사결정나무 모델의 목표변수인 정확도뿐만 아니라, 가장 높은 정확도를 보일 수 있는 가중치까지 간접적으로 제안가능하다. 본 연구로 구현한 모듈을 통해 제안된 XML 스키마 매칭 가중치를 활용하면 그렇지 않은 경우에 비하여 약 10% 정확도 상승효과가 있음을 알 수 있었다.

  • PDF

온톨로지-DTD 정합에 의한 질의확장 개선 알고리즘 (A Query Expanding Algorithm Improved by Ontology-DTD Matching)

  • 김명숙;공용해
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.657-660
    • /
    • 2004
  • 다양한 구조를 가지는 XML 문서에 대하여 온톨로지를 기반으로 확장한 질의를 인가하면 문서의 구조적 차이를 극복할 수 있으므로 검색의 효과를 높일 수 있다. 그러나 온톨로지만을 고려하여 확장되는 질의들은 대상 문서의 구조에 부적합할 수 있으므로 검색의 효율을 저하시키게 된다. 본 논문은 온톨로지와 대상 XML 문서의 구조인 DTD를 고려하여 온톨로지로부터 불필요한 개념과 속성을 제거하는 온톨로지-DTD 정합 알고리즘을 제안하였으며, 이렇게 정합된 온톨로지를 이용하면 대상 XML 문서에 적합하도록 질의들을 생성하므로 질의의 검색 적중률을 높일 수 있다.

  • PDF

스트리밍 XML 상에서 트윅 질의 처리를 위한 패턴 매칭 프루닝과 재사용성 감지 기법 (Pattern-matching Pruning and Reusability Detection for Twig Query Processing on Streaming XML Data)

  • 박상현;류병걸;정다운;이상근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.1264-1267
    • /
    • 2011
  • 스트리밍 XML 데이터로부터 트윅 패턴 추출시 질의와 무관한 스트리밍 데이터를 프루닝함으로써 질의 처리 비용을 줄일 수 있어야 한다. 이때 작은 버퍼 사이즈를 유지하면서도 질의 매칭 과정을 최소화하는 것이 필요하다. 본 논문에서는 이를 위한 (1) 패턴 매칭 프루닝과 (2) 재사용성 감지 기법을 제안한다. 기존 기법과 비교하여 제안하는 기법은 스트리밍 데이터의 엘리먼트 이벤트, 버퍼상태 그리고 트윅 패턴을 고려하여 질의 매칭 과정을 최소화한다. 실험결과를 통해 제안기법이 기존 기법보다 우수한 성능을 나타냄을 보인다.

PrimeFilter: 소수 인덱싱 기법에 기반한 효율적 XML 데이타 필터링 (PrimeFilter: An Efficient XML Data Filtering based on Prime Number Indexing)

  • 김재훈;김상욱;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권5호
    • /
    • pp.421-431
    • /
    • 2008
  • 최근 이질적인 시스템 사이에서의 정보교환의 표준으로 널리 사용되는 XML을 사용하는 Publish/Subscribe 시스템의 스트리밍 XML 데이타 필터링 기법이 활발히 연구되었다. 스트리밍 XML 데이타 필터링 기법은 사용자가 등록한 질의에 대해서 신속한 질의-데이타 매칭을 목적으로 하기 때문에 효율적인 질의 처리 메커니즘이 요구된다. 현재까지 대부분의 연구는 질의 경로 표현식의 부분적인 공유를 꾀하거나 프레디킷을 효율적으로 처리함으로써 질의 처리의 시간적, 공간적 효율을 목적으로 하였다. 하지만 만약 질의간의 포함 관계를 알 수 있다면 질의 처리시에 가장 하위의 질의가 매칭되면 그 질의를 포함하고 있는 상위의 질의들은 별도의 처리 과정 없이 매칭됨을 알 수 있게 된다. 이러한 질의 포함 관계를 이용한 질의 처리 방식은 XML 스트리밍 데이타를 처리하는 또 하나의 효율적 방식이 될 수 있다. 본 논문에서는 소수 인덱싱 기법과 목표 질의 노드 중심의 포함 관계 설정에 기반하여 효율적인 스트리밍 XML 데이타 필터링을 수행하는 새로운 방법을 소개한다. 그리고 몇 가지 실험을 통하여 기존 방법과의 비교 분석 및 효율성을 보인다. 비록 각각의 실험은 서로 다른 실험 요소에 대하여 수행되었지만, 모두 제안 방법이 기존의 방법보다 두 배 이상 더 나은 성능을 가짐을 보여 주었다.

XML문서에서 어노테이션의 위치재생성 기법 (Annotation Repositioning Methods in XML Documents)

  • 손원성;김재경;고명철;임순범;최윤철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권7호
    • /
    • pp.650-662
    • /
    • 2005
  • 어노테이션 시스템에서 원본문서가 갱신되었을 경우 어노테이션이 항상 적절한 위치를 유지하기 위해서는 로버스트(robust)한 위치재생성(repositioning) 기능이 필요하다. XML 문서환경에서 어노테이션에 대한 위치재생성을 위해서는 텍스트 정보뿐만 아니라 구조문서 특성을 포함할 수 있어야 한다. 이를 위하여 본 논문에서는 XML 기반의 원본문서 및 어노테이션 정보를 논리구조트리(logical structure tree)로 표현하고, 각 트리간의 대응관계를 분석하여 복수의 후보 앵커들을 생성한다 또한 복수의 후보 앵커들 중 최적의 후보 앵커를 선택하기 위하여 논리구조트리 앵커 노드의 문자열(textual data) 및 레이블 정보에 기반한 단계별 앵커링 기준을 제시한다. 그 결과 본 논문에서는 구조문서 환경에서 다양한 형태의 컨텍스트 갱신이 발생하였을 경우에도 로버스트한 위치재생성이 가능하다.

XML에서 브랜칭 노드를 이용한 효율적인 Twig Pattern 처리 (Efficient Processing of Twig Pattern Matching using Branching Node)

  • 류병걸;박상현;하종우;이상근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.767-768
    • /
    • 2009
  • 현재 웹상에서 데이터 표현을 위한 XML의 사용이 늘어나면서, XML 문서의 효율적인 질의 처리에 대한 관심이 증가하고 있다. 기존에 질의 처리 연구는 단일 경로에 대한 질의 처리가 연구되었고, 최근에는 두 개 이상의 경로를 가지는 Twig Pattern 질의 처리 연구가 이루어졌다. 따라서 본 논문에서는 기존에 제안된 기법들 보다 효율적으로 Twig Pattern 질의 처리를 할 수 있는 O-TJFast (Optimal TJFast) 기법을 제안한다. 또한, 본 논문에서는 XML 문서의 파싱(parsing)시 제공되는 정보를 가공하여 스트림과 포인터 구조를 얻어내어 기존에 제안된 기법들 보다 입출력 시간(I/O Time)과 처리 시간(Execution Time)을 효율적으로 감소시킬 수 있는 기법을 제안한다. 그리고 성능평가를 통해 제안한 기법이 처리시간에 많은 이득을 볼 수 있음을 보인다.

X-treeDiff+ 기반의 프로그램 복제 탐지 (Program Plagiarism Detection based on X-treeDiff+)

  • 이석균
    • 전자공학회논문지CI
    • /
    • 제47권4호
    • /
    • pp.44-53
    • /
    • 2010
  • 컴퓨터 프로그래밍 교육에서 프로그램 복제는 프로그래밍 학습 효율을 저해하는 심각한 요인이다. 본 논문에서는 학생들이 프로그래밍 과제의 무분별한 복제를 방지하기 위해 유사 또는 동일 프로그램을 탐지하는 기법을 제안한다. 지문법이나 스트링 매칭을 기반으로 하는 기존의 탐지 기법과는 달리, 우선 C 프로그램을 파싱하여 문법요소를 엘리먼트로 하는 XML 문서로 변화시킨 후 XML 문서의 변화탐지 알고리즘인 X-treeDiff+를 실행시켜 그 차이를 분석하는 방법을 취한다. 이때 대응의 정도를 나타내는 유사도와 두 문서의 차이로 제시되는 일련의 편집연산인 편집스크립트를 프로그램 복제의 관점에서 분석하여 복제 여부에 대한 판단을 하게 된다. 편집스크립트의 분석은 두 프로그램 간의 변환 과정을 유추할 수 있게 하여 기존 방법들과는 달리 사용자는 과제의 성격이나 복제의 정도를 고려한 정성적인 판단이 가능하다는 장점이 있다.