• 제목/요약/키워드: Tree-structured documents

검색결과 21건 처리시간 0.837초

GDIT를 기반으로 한 구조적 문서의 효율적 검색과 갱신을 위한 인덱스 설계 (An Indexing Scheme for Efficient Retrieval and Update of Structured Documents Based on GDIT)

  • 김영자;배종민
    • 한국정보처리학회논문지
    • /
    • 제7권2호
    • /
    • pp.411-425
    • /
    • 2000
  • SGML이나 XML언어를 사용하여 작성된구조적 문서들에 대한 정보검색 시스템들은 문서의 부분검색을 지원한다. 문서의 구조에 바탕을 둔 질의를 효율적으로 처리하기 위해서는 색인에 관련된 메모리 오버헤드를 줄여야 하고, 질의에 대한 응답시간이 빨라야 하고, 문서 구조에 바탕를 둔 다양한 유형의 사용자 질의를 지원해야 하며, 문서 구조에 대한 변경이 발생했을 때 색인 구조에 대한 변경사항을 최소화하여야 한다. 본 논문에서는 전체문서인스턴스트리 구조를 제안하고, 이를 기반으로 텍스트 레벨 엘리먼트만을 색인하여, 색인과 검색의 효율성을 유지하면서 자료의 추가나 삭제등의 갱신이 발생할 때, 갱신의 파장을 최소화시킬 수 있는 색인구조와 질의처리 알고리즘을 제시하고 그 성능을 분석한다.

  • PDF

XML을 위한 효율적인 저장구조 및 인덱싱 기법설계 (Design of Efficient Storage Structure and Indexing Mechanism for XML Documents)

  • 신판섭
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권1호
    • /
    • pp.87-100
    • /
    • 2004
  • 최근에 인터넷의 급속한 발전과 더불어 대량의 정보를 효과적으로 표현 및 교환할 수 있는 새로운 데이터 표준으로 XML (extensible Markup Language)이 제안되었으며, XML 문서에 대한 저장과 인덱싱에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 실시간 XML 문서 처리에 효율적인 주기억장치 기반의 XML 전용 저장 시스템을 설계하고, 사용자 질의에 포함된 엘리먼트 타입 정보를 이용하여 XML 문서트리에 대한 순회를 최소화시킬 수 있는 구조적 검색 기법을 설계한다 또한, 엘리먼트의 삭제 및 삽입 등 동적인 변경에 빠르고 유연하게 대처할 수 있는 인덱스 구조와, 링크 정보를 가지고 있는 XML 문서의 질의 처리를 위해 XLink 표준을 준수하여 테이블 형식의 링크 정보 인덱스 구조를 설계한다.

  • PDF

XML문서에서 어노테이션의 위치재생성 기법 (Annotation Repositioning Methods in XML Documents)

  • 손원성;김재경;고명철;임순범;최윤철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권7호
    • /
    • pp.650-662
    • /
    • 2005
  • 어노테이션 시스템에서 원본문서가 갱신되었을 경우 어노테이션이 항상 적절한 위치를 유지하기 위해서는 로버스트(robust)한 위치재생성(repositioning) 기능이 필요하다. XML 문서환경에서 어노테이션에 대한 위치재생성을 위해서는 텍스트 정보뿐만 아니라 구조문서 특성을 포함할 수 있어야 한다. 이를 위하여 본 논문에서는 XML 기반의 원본문서 및 어노테이션 정보를 논리구조트리(logical structure tree)로 표현하고, 각 트리간의 대응관계를 분석하여 복수의 후보 앵커들을 생성한다 또한 복수의 후보 앵커들 중 최적의 후보 앵커를 선택하기 위하여 논리구조트리 앵커 노드의 문자열(textual data) 및 레이블 정보에 기반한 단계별 앵커링 기준을 제시한다. 그 결과 본 논문에서는 구조문서 환경에서 다양한 형태의 컨텍스트 갱신이 발생하였을 경우에도 로버스트한 위치재생성이 가능하다.

XML 문서의 공통 구조를 이용한 클러스터링 기법 (A Clustering Technique using Common Structures of XML Documents)

  • 황정희;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권6호
    • /
    • pp.650-661
    • /
    • 2005
  • 인터넷의 성장으로 인해 반구조적인 문서의 표준인 XML 문서의 사용이 증가하고 있고 이에 따라 XML 문서의 통합과 검색을 위한 연구가 많이 진행되고 있다. 효율적인 문서의 통합과 검색을 위한 기초 작업은 유사 구조의 XML 문서를 클러스터링 하는 것이다. 기존 연구의 XML 문서 클러스터링에서는 문서간의 구조적 유사도를 이용하여 클러스터를 생성한다. 그러나 이러한 방법은 문서간의 구조적 유사성외 정확한 측정 기준을 만들기 어렵고, 반복적인 유사도의 비교로 인해 처리 속도가 느리다는 단점이 있다. 이러한 문제점을 개선하기 위하여 이 논문에서는 많은 데이타에도 유연하게 적용할 수 있는 트랜잭션 데이타를 위한 클러스터링 알고리즘을 적용하는 새로운 클러스터링 방법을 제안한다. 이 논문에서 제안하는 클러스터링 방법은 하나의 DTD나 XML 스키마를 공유하는 문서 집합이 아닌 스키마가 없는 다양한 구조의 XML 문서들을 대상으로 공통 구조를 이용한다. 공통 구조를 이용하기 위하여 XML 문서의 트리 모델에서 구조를 분리하여 빈발 구조를 추출하고 이를 기반으로 클러스터링을 수행한다. 아울러, 기존 연구와의 비교 및 실험을 통해 제안 기법의 효율성을 보인다.

XML을 이용한 스크립트 언어 XTML 의 설계 및 응용 (Design and Application of XTML Script Language based on XML)

  • 정병희;박진우;이수연
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제5권6호
    • /
    • pp.816-833
    • /
    • 1999
  • 스타일 정보를 중심으로 하는 기존의 워드 프로세서의 출력 문서들을 차세대 인터넷 문서인 XML문서방식에 따라서 표기하고 또한 제목, 초록, 장 및 단락 등과 같은 논리적인 구조를 반영할 수 있도록 구조화함으로써 문서들의 상호교환뿐만 아니라 인터넷에서 유효하게 사용할 수가 있다. 본 논문에서는 스타일 또는 표현 속성 중심으로 하는 다양한 문서의 평면 구조를 XML의 계층적인 논리적인 구조로, 또한 다양한 DTD(Document Type Definition)환경하에서 변경시킬 수가 있는 변환 스크립트 언어를 표현할 수 있도록 하기 위하여 XTML(XML Transformation Markup Language)을 DTD형식으로 정의하고 이를 이용하여 변환 스크립트를 작성하였으며 자동태깅에 적용하여 보았다.XTML은 그 인스턴스에 해당하는 변환 알고리즘의 효과적인 수행을 위하여 즉 기존의 XML문서를 효과적으로 다루기 위하여 문서를 GROVE라는 트리 구조로 만들어 저장하고 또한 이를 조작할 수 있는 기능 및 다양한 명령어 인터페이스를 제공하였다. Abstract Output documents of existing word processors based on style informations or presentation attributes can be structured by converting them into XML(Extensible Markup Language) documents based on hierarchically logical structures such as title, abstract, chapter and so on. If so, it can be very useful to interchange and manipulate documents under Internet environment. The conversion need the complicate process calling auto-tagging by which elements of output documents can be inferred from style informations and sequences of text etc, and which is different from various kinds of simple conversion.In this paper, we defined XTML(XML Transformation Markup Language) of DTD(Document Type Definition) form and also defined the script language as instances of its DTD for the auto-tagging. XTML and its DTD are represented in XML syntax.Especially XTML includes various functions and commands to generate tree structure named as "GROVE" and also to process, store and manipulate the GROVE in order to process efficiently XML documents.documents.

Machine Learning Based Automatic Categorization Model for Text Lines in Invoice Documents

  • Shin, Hyun-Kyung
    • 한국멀티미디어학회논문지
    • /
    • 제13권12호
    • /
    • pp.1786-1797
    • /
    • 2010
  • Automatic understanding of contents in document image is a very hard problem due to involvement with mathematically challenging problems originated mainly from the over-determined system induced by document segmentation process. In both academic and industrial areas, there have been incessant and various efforts to improve core parts of content retrieval technologies by the means of separating out segmentation related issues using semi-structured document, e.g., invoice,. In this paper we proposed classification models for text lines on invoice document in which text lines were clustered into the five categories in accordance with their contents: purchase order header, invoice header, summary header, surcharge header, purchase items. Our investigation was concentrated on the performance of machine learning based models in aspect of linear-discriminant-analysis (LDA) and non-LDA (logic based). In the group of LDA, na$\"{\i}$ve baysian, k-nearest neighbor, and SVM were used, in the group of non LDA, decision tree, random forest, and boost were used. We described the details of feature vector construction and the selection processes of the model and the parameter including training and validation. We also presented the experimental results of comparison on training/classification error levels for the models employed.

XML 문서 처리에 관한 연구 (A Study on Processing XML Documents)

  • 김태권
    • 정보과학회 논문지
    • /
    • 제43권4호
    • /
    • pp.489-496
    • /
    • 2016
  • XML은 관계형 데이터는 물론 구조화 또는 반구조화된 데이터를 효과적으로 조직화하여 표현할 수가 있다. XQuery는 이러한 XML 데이터를 대상으로 필요한 정보를 편리하게 검색하는 질의어이다. 이 논문은 XQuery 작성기를 설계 및 구현하고, XQuery 처리기에 대한 인터페이스를 제공하여 적합한 프로세서를 등록할 수 있다. XQuery 작성기는 등록된 질의 처리기로 처리된 질의의 결과를 보여준다. 작성기는 파서를 내장하고 있기 때문에 파싱 트리의 영역 정보에 따라 영역 연산자를 사용함으로써 문맥에 따라 대응되는 다양한 대화상자에 의하여 대응하는 구문을 효과적으로 작성할 수 있다. 특히 작성기는 XML 문서의 DTD에 대응하는 엘리먼트의 트리를 그래픽으로 보여주기 때문에 경로식을 쉽게 작성할 수 있다. 엘리먼트의 계층구조에서 경로에 따라 노드를 체크함으로써 엘리먼트의 서술식을 포함하는 경로식을 자동적으로 작성한다.

역방향 레이블 경로를 이용한 XML 문서의 선형 경로 질의 처리 (Linear Path Query Processing using Backward Label Path on XML Documents)

  • 박충희;구흥서;이상준
    • 한국지능시스템학회논문지
    • /
    • 제17권6호
    • /
    • pp.766-772
    • /
    • 2007
  • XML의 광범위한 사용으로 XML 저장과 질의 처리에 관한 많은 연구가 이루어지고 있다. 하지만 기존의 경로 질의 처리에 대한 연구들은 한 개의 대규모 XML 문서나 동일한 구조를 가진 문서들에 대한 저장, 검색에 초점이 맞춰져 있어서 상이한 구조를 가진 대규모 문서들에 대해서 부분 매치 질의(partial match query)를 효과적으로 지원하지 못하는 단점이 있었다. 본 논문에서는 상이한 구조를 가지는 대규모 문서들에 대해서도 부분 매치 질의를 효과적으로 지원할 수 있는 관계형 테이블을 이용한 새로운 인덱스 구조를 제안하였다. 본 방법은 경로 정보를 저장할 때 기존의 연구에서 사용된 순방향 레이블 경로 대신 역방향 레이블 경로를 사용하여 $B^+$-트리 인덱스를 구축함으로써 부분 매치 질의 처리시 구축된 인덱스를 이용하여 질의에 해당되는 레이블 경로들을 효율적으로 찾을 수 있도록 하였다.

경로 매칭 알고리즘을 이용한 구조화된 문서의 변화 탐지 (Change Detection of Structured Documents using Path-Matching Algorithm)

  • 이경호;변창원;최윤철;고견
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.606-619
    • /
    • 2001
  • 본 논문에서는 SGML/XML 문서의 구 버전과 신 버전간의 타이를 계산할 수 있는 효율적인 알고리즘을 제안한다. 타이는 구 버전의 문서를 신 버전으로 변환하는데 소요되는 편집 스크립트로 간주할 수 있다. 제안된 알고리즘은 상향식과 하향식의 복합적인 접근 방식을 적용한다. 먼저 두 버전을 구성하는 노드간의 대응관계를 상향식으로 생성하며 하향시 너비 우선 탐색을 적용하여 편집 스크립트를 계산한다. 제안된 알고리즘은 모든 노드간의 대응 여부를 모두 조사할 필요가 없기 때문에 대응관계를 보다 빠르게 생성할 수 있다. 또한 삽입, 삭제, 그리고 갱신의 단순한 변화는 물론이고 부트리 이동과 복사의 구조적으로 보다 의미 있는 변화를 탐지할 수 있다.

  • PDF

XML 질의 처리를 위한 효율적인 시퀀스 매칭 기법 (An Efficient Sequence Matching Method for XML Query Processing)

  • 서동민;송석일;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권4호
    • /
    • pp.356-367
    • /
    • 2008
  • 인터넷 상에서 정보 표현 및 교환의 표준으로 XML이 대두되면서 데이타베이스 연구 분야에서는 XML 질의 처리에 대한 중요성이 커지고 있다. 그리고 과거 몇 년간 빠른 XML 질의 처리를 위해 XISS, XR-트리와 같은 구조적 XML 질의 처리 기법이 제안되었다. 하지만 구조적 XML 질의 처리는 가지 경로 질의 처리를 위해 많은 조인 비용이 요구되는 문제를 가지고 있다. 최근에는 구조적 XML 질의 처리 기법의 조인 문제를 해결하기 위해 ViST와 PRIX와 같은 시퀀스 매칭 기반의 XML 질의 처리 기법이 제안되었다. 시퀀스 매칭 기반의 XML 질의 처리 기법은 가지 경로 질의를 다수의 부질의로 분리하지 않고 질의 시퀀스가 문서 내에 포함되는지만 비교하기 때문에 조인 비용이 요구되지 않는 장점을 가지고 있다. 하지만 ViST는 최적화되지 못한 번호부여 기법을 사용함으로써 질의 처리 시 구조 관계를 정확하게 판단하지 못하고, PRIX는 질의와 문서의 NPS와 LPS를 비교하는데 많은 비용이 요구된다. 따라서 본 논문에서는 XML 질의 처리 성능 향상을 위해 상향식 질의 처리를 사용하는 효율적인 시퀀스 매칭 기법을 제안한다. 또한 본 논문의 성능 평가에서는 제안하는 기법을 ViST PRIX와 비교하여 제안하는 기법이 와일드-카드('*'와 '//')를 포함하는 선형 경로 질의뿐만 아니라 가지 경로 질의 처리에 대해 향상된 성능을 나타냄을 보인다.