• 제목/요약/키워드: XML Indexing

검색결과 111건 처리시간 0.024초

KIMF를 이용한 XML 인덱싱 알고리즘 설계 및 구현 (Design and Implementation of XML-Based Indexing Algorithm Using KIMF)

  • 김광남;윤희병;김화수
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 춘계학술대회 학술발표 논문집 제14권 제1호
    • /
    • pp.13-16
    • /
    • 2004
  • XML은 사용자 정의 태그를 이용한 정보 제공의 장점으로 인하여 웹 뿐만 아니라 EDI, CALS, RDF, HDML, WML둥 많은 분야에서 사용하고 있다. 그러나 XML 문서는 다양한 사용자 정의를 포함하기 때문에 사용자 질의에 대하여 효율적으로 응답하기 위해서는 내용기반 질의로부터 구조, 내용과 구조가 포함된 질의까지 해결해 줄 수 있는 인덱싱 기법이 필요하다. 이를 해결하기 위해 DTD를 이용한 방법, K-ary 완전트리, 추상화기법, SCL 등이 제시되었으나 XML 노드의 거리관계를 이용한 방법은 제시되지 않았다. 본 논문에서는 국방대 인덱싱 모델 프레임워크인 KIMF를 이용하여 효율적으로 XML 문서를 인덱싱하고 설계 및 구현한다. 이를 위해서 KIMF 모듈에 대한 구성도를 제시하고, 깊이탐색과 최단거리, 깊이 차이를 이용하여 XML 문서를 인덱싱하는 알고리즘을 제안한다. 마지막으로 C#을 이용하여 제안한 알고리즘을 설계 및 구현하고, 이를 기반으로 한 내용검색, 구조검색 및 혼합(내용+구조) 검색 결과를 또한 제시한다.

  • PDF

효율적인 검색을 위한 Tree 형태의 XML 문서 구조 모델 (XML Structured Model of Tree-type for Efficient Retrieval)

  • 김영란
    • 한국컴퓨터정보학회논문지
    • /
    • 제9권4호
    • /
    • pp.27-32
    • /
    • 2004
  • XML 문서가 DTD를 포함하지 않거나 여러 곳에서 XML문서를 모았을 때, 그 구조는 비정규적일 수 있다. 비정규적인 구조를 가지는 문서들에 대해 정확한 구조적 질의를 작성하는 것은 어려운 일이다. 이 논문에서는 XML 문서의 효율적인 관리와 검색을 위한 XML 문서 모델과 구조적 검색 방법을 제안한다. 이를 위해 XML 문서의 구조 정보를 표현하기 위해 엘리먼트에 대한 정보를 갖는 고정된 크기의 LETID를 사용하고, 구조 정보 검색을 위한 부모 및 자식 엘리먼트 검색 알고리즘을 제시하였다. 제안된 방법을 이용하여 XML 문서의 구조 정보를 효율적으로 표현할 수 있을 뿐만 아니라. 간단한 연산으로 특정 엘리먼트에 직접적인 접근과 다양한 질의 처리가 가능하다. 또한, 특정 엘리먼트의 부모. 자식, 형제에 대한 다양한 구조 검색을 효율적으로 지원할 수 있는 효과가 기대된다.

  • PDF

XML 컴포넌트 명세서 기반의 컴포넌트 검색 기법 (A Search Method for Components Based-on XML Component Specification)

  • 박서영;신영길;우치수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권2호
    • /
    • pp.180-192
    • /
    • 2000
  • 최근 들어 컴포넌트는 소프트웨어 재사용의 핵심 기술로 인식되고 있다. 컴포넌트는 인터페이스 부분만을 이용하여 개발되는 소프트웨어에 바로 바인딩시켜 재사용될 수 있는 독립적인 바이너리 코드이다. 많은 컴포넌트 사용자들이 인터넷 상에서 적합한 컴포넌트를 검색하고 사용할 수 있도록, 컴포넌트 명세서는 웹 문서 형태를 사용하는 것이 바람직하다. 기존의 HTML 웹 문서 기반의 검색 엔진을 통하여 컴포넌트를 검색할 때 정확한 의미 검색이 불가능하다는 문제점이 있다. 본 논문에서는 정확한 의미 검색을 수행할 수 있도록 컴포넌트 명세서를 HTML 문서 대신 XML 문서로 사용할 것을 제안한다. 또한, XML 컴포넌트 명세서를 통하여 사용자가 원하는 컴포넌트를 정확하게 검색할 수 있는 XML 문맥 기반 검색(context-based search)을 제안한다. 문맥 기반 검색은 컴포넌트의 특성을 나타내는 문맥(context)과 컴포넌트 특성의 실제 값인 용어(term)를 사용하여 사용자가 원하는 컴포넌트의 특성을 정확하게 질의하고 검색할 수 있는 방법이다. 이 검색 방법은 용어-문맥-컴포넌트 명세서 순으로 된 역화일 인덱싱 (Inverted File Indexing) 방법을 사용한다. 이와 함께 사용자의 편의를 위하여, 기존의 소프트웨어 재사용 라이브러리에서 사용되던 검색 방법인 키워드 검색, 퍼싯 검색, 브라우징 검색 방법 등을 지원한다. 이들 다양한 검색 방법들은 인터페이스 레이어, 질의 확장 레이어, XML 검색 엔진 레이어 등 3-레이어 검색엔진 구조를 통한 효율적인 인덱스 스킴에 의해 지원된다. 본 논문에서는 컴포넌트 사용자들이 원하는 컴포넌트를 정확하게 검색할 수 있도록 하기 위하여 컴포넌트 명세서를 대한 XML DTD(Document Type Definition)를 정의하고, HTML 기반 검색 방법과 XML 기반 검색 방법에 대한 컴포넌트 검색 성능을 비교한다.

  • PDF

XML 기반 멀티 미디어 데이터의 효과적인 검색을 위한 색인 모델 (An Indexing Model for Effective Retrieval of Multimedia Data Based on XML)

  • 고은경;황부현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1895-1898
    • /
    • 2002
  • 웹 환경에서 처리하는 데이터의 종류가 텍스트에서 비디오, 오디오와 같은 멀티미디어 데이터까지 다양해지면서 데이터를 효율적으로 표현, 저장 및 검색하기 위한 다양한 방법이 연구되고 있다. 이 논문에서는 동영상 데이터의 구조적인 형태를 고려하여 XML 문서로 표현하고 XML 문서를 데이터베이스에 저장하기 위한 데이터베이스 스키마를 설계하였다. 그래서 XML 문서내의 각 노드에 엘리먼트의 고유성을 나타내기 위한 고유식별자와 부모노드와 자식노드들 간의 관계를 표현하여 주기 위한 엘리먼트 식별자와 ETID를 결합하여 멀티미디어 데이터에 대한 XML 문서의 부모와 자식의 관계를 표현하여 준다. 그리고 부모가 같은 형제간의 순서 정보와 형제들 간의 동일한 타입을 구별하고 정보를 표현하기 위한 관계 테이블을 설계하였다.

  • PDF

경로 구성 유사도를 이용한 비트맵 인덱싱 기반 XML 문서 인식 기법 (An Identifying Method of XML Document based on Bitmap Indexing using Path Construction Similarity)

  • 이재민;황병연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1515-1518
    • /
    • 2003
  • XML의 대표적인 특징은 기존의 다른 컨텐츠와는 달리 문서의 구조를 기술할 수 있다는 것이다. 구조적 정보는 활용 방법에 파라 XML문서의 다양한 처리에 있어 성능을 향상시키는 핵심적인 요소가 될 수 있다. 그러나 XML 태그의 자기 서술적인 특성에서 비롯되는 구조적 표현의 차이는 오히려 문서의 식별을 어렵게 하는 원인이 된다. 본 논문에서는 기존의 비트맵 인덱스(Bitmap Index)를 이용한 XML 문서 검색 시스템이 다양한 구조적 유사성을 판별할 수 없는 단점을 보완 가능하도록 경로 중심의 유사 문서 인식 기법을 제안한다. 이 기법은 '경로 구성 유사도'와 '유사 경로 테이블'을 통해 기존의 비트맵 인덱스가 갖는 유사 경로를 인식하지 못하는 단점을 해결하고 검색의 유연성을 부여함으로써 보다 양질의 검색 결과를 도출할 수 있다. 또 이것은 기존 시스템의 Bit-wise 연산에 완전히 이식됨으로써 비트맵 인덱스의 장점인 빠른 성능을 그대로 유지할 수 있게 된다.

  • PDF

접미어 트리 구조를 이용한 효율적인 XML 경로 인덱싱 (A Suffix Tree Approach for Efficient XML Path Indexing)

  • 이덕형;원정임;노관준;윤지희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.88-90
    • /
    • 2002
  • 최근 인터넷 상에서 XML 문서의 사용이 급속도로 보편화, 일반화됨 따라 정보 검색을 위한 다양한 XML 질의 언어가 제안되고 있다. XML 질의의 공통 특징으로서 ‘*’ 문자 등을 사용한 정규화 경로식(regular path expression)에 의한 손쉬운 구조정보 검색 기능을 들 수 있다. 본 논문에서는 접미어 트리(suffix tree)를 이용한 새로운 경로 인덱싱 기법을 제안한다. 제안하는 기법에서는 XML 문서상의 각 경로를 축약된 유일한 문자열로 인코딩하며, 인코딩 된 각 문자열의 모든 접미어 정보를 인덱스에 저장한다. 본 기법은 일반 정규화 경로식을 포함하는 구조질의를 매우 효율적으로 처리하며, 또한 경로 정보가 부정확하게 기술된 경우에도 관사 질의 처리를 효과적으로 처리할 수 있다.

  • PDF

비트맵 인덱싱 기반 유사한 XML 문서 검색 기법 (A Search Method of Similar XML Documents based on Bitmap Indexing)

  • 이재민;황병연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.15-18
    • /
    • 2004
  • XML 검색을 위한 기존의 비트맵 인덱싱은 XML을 문서, 경로, 단어로 구성된 3차원 비트맵 인덱스에 매핑하고 이를 이용해 정보를 추출함으로써 뛰어난 성능을 입증하였다. 그러나 이것은 유사 문서를 수집하고 검색하기 위해 경로 전체를 인덱스 구성의 단위로 사용함으로써 유사 경로를 인식하지 못하는 문제를 초래하였으며 유사 경로를 인식하지 못함으로 인해 유사 문서 검색의 치명적인 성능 저하가 발생하게 되었다. 이에 따라 본 논문에서는 기존의 XML 검색을 위한 비트맵 인덱싱이 유사 경로를 인식하지 못하는 문제점을 해결하기 위해 유사 경로 탐색을 위한 새로운 비트맵 인덱스를 설계하고 이를 통해 효과적으로 유사 문서를 검색할 수 있는 기법을 제안한다. 제안된 기법은 노드들을 단위로 하는 새로운 비트맵 인덱스를 구성하고 구성된 인덱스의 중심을 통해 유사 경로 탐색을 위한 클러스터들을 선별적으로 검색한다. 그리고 유사 경로 탐색을 통해 추출된 경로들을 유사 문서 검색에 활용함으로써 비트맵 인덱싱의 빠른 성능을 그대로 유지하면서 기존의 XML 검색을 위한 비트맵 인덱싱이 유사 경로를 인식하지 못함으로써 발생하는 유사 문서 탐색의 성능 저하를 효과적으로 해결한다.

  • PDF

XML 문서에서 상대경로를 포함한 질의 처리를 위한 색인 기법 (Indexing method to process XML query containing relative paths)

  • 정현숙;이민수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.113-116
    • /
    • 2004
  • 웹의 출현으로 XML 데이터에 대한 관심은 더욱 커지고 있다. XPath와 XQuery 같은 XML 질의 언어는 비정규적인 데이터를 탐색하기 위해 경로에 라벨을 붙여 사용한다. 이러한 XML 데이터에 대한 질의를 효율적으로 처리하기 위해서는 효율적인 색인 기법이 필요하다. 그 동안 제안되어 왔던 기존의 색인은 일반적으로 XML 데이터 안에 루트 원소로부터 모든 경로의 라벨을 기록한다. 그런 경로 색인들은 자손을 찾는 "//"와 같은 상대 경로를 포함한 질의 경우 지나친 탐색으로 질의 수행의 성능을 저하시키게 된다. 이를 극복하기 위해 효율적인 색인 기법을 제안하고자 한다.

  • PDF

무선 XML 스트림을 위한 색인 기법 (An Index Method for Wireless XML Streams)

  • 정연돈;이지연
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권4호
    • /
    • pp.416-428
    • /
    • 2005
  • 본 논문은 무선 정보 시스템 환경에서, 서버가 다수의 클라이언트들에게 무선 방송 기법을 통해 XML 데이타를 스트리밍 서비스할 때 필요한 색인 기법을 제안한다. 제안 하는 색인 방법은 XML 데이타의 스트리밍시 클라이언트들의 접근 시간 및 튜닝 시간을 효과적으로 제어하기 위하여, XML 데이터 및 색인 정보를 부분적으로 반복, 배치하여 스트림을 구성한다. 이를 위하여 트리형태로 표현되는 XML 데이타와 색인 정보를 2-레벨로 구분하여, 색인 및 데이타의 중복 배치 영역을 설정한다. 제안하는 색인 기법의 성능을 접근 시간 및 튜닝 시간 측면에서 분석하여, 분석의 결과로 최적의 레벨 깊이를 결정한다.

관계형 데이터베이스를 이용한 XPath Accelerator: 구현과 튜닝 (An XPath Accelerator on Relational Databases: An Implementation and Its Tuning)

  • 신진호;나갑주;이상원
    • 정보처리학회논문지D
    • /
    • 제12D권2호
    • /
    • pp.189-198
    • /
    • 2005
  • XML은 데이터 표현과 교환을 위한 표준으로 급격히 자리잡아가고 있으며, XML문서는 다양한 응용분야에 도입되고 있다. 1990년대 후반부터, XML 전용 DBMS(Database Management Systems)들이 개발되어왔고, 최근 들어서는 상용 관계형 DBMS 벤더들도 XML 기능을 자사 제품들(예들 들어 오라클, IBM DB2, 그리고 MS SQL Server)에서 지원하기 시작했다. 본 논문에서는 XML 저장과 인덱싱 기법의 하나인 XPath Accelerator을 특정 관계형 DBMS상에 구현하고 이를 최적으로 튜닝하는 방안을 설명한다. 본 논문의 기여사항은 1) XPath Accelerator의 자세한 구현 방안과 2) 상용 관계형 DBMS의 최신 질의 처리 기법들을 활용한 튜닝 방법이다.