A Study of Automatic Indexing Technique based on Logical Structure of SGML Hangul Document

SGML 한글문서의 논리적 구조에 근거한 색인기법에 관한 연구

  • Published : 1995.12.01

Abstract

Conventional indexing sytstems support only full-text indexing method for electronic documents and do not use logical structure of documents in retrieval. Most electronic documents are in different formats depending on various systems. Also, they only indicate physical style of the document without considering any logical structure. Thus, in the effort to standardize the exchange of documents. IS0 developed SGML(Stadard Generalized Markup Language) which contains information about logical structure of the documents. In this paper, to resolve the disadvantages of full-text indexing method and to use standard document format. indexing system for SGML document is designed and implemented. In this system, user can assign indexing domain on elements, thus the logical structure of document is reflected in retrieving information. Various retrieval methods can be implemented by using the structural information of the document. In addition, automatic indexing for SGML Hangul document is supported in this system

기존 색인 시스템은 전자문서에 대하여 전문색인 (full-text indexing) 방법만을 지원하며, 문서의 논리적 구조를 검색 방법으로 적절하게 활용하지 못하고 있다. 대부분의 전자문서는 특정 시스템에 의존적인 형식으로 되어 있으며, 문서의 물리적 형태만을 나타내고 논리적 구조에 대한 정보는 포함하고 있지 않다. 이에 반해 1986년에 ISO에서 문서교환에 대한 표준방식으로 제정한 SGML (Standard Generalized Markup Language)은 문서의 논리적 구조에 대한 정보를 포함하고 있다. 본 논문에서는 기존의 전문색인 시스템의 단점을 보완하고 표준문서형식을 사용하기 위해 SGML 문서에서의 색인 시스템을 설계 구현하고자 한다. 기존 색인 시스템에서는 문서 전체에 대하여 색인이 이루어지는데 비하여 본 시스템에서는 SGML 문서의 구성요소인 엘리먼트에 기반하여 색인 영역을 지정할 수 있게 하엿다. 따라서 문서의 논리적 구조를 반영한 다양한 검색기법에 응용될 수 있다. 또한 본 시스템에서는 SGML 한글문서에 대하여 자동색인이 가능하다.

Keywords

References

  1. ISO 8879 Information Processing SGML
  2. An Authors guide to the Standard Generalized Markup Language Martin Bryan
  3. 자연언어처리 김영택
  4. 정보검색론-검색판 정영미
  5. 연세대학교 석사논문 동적 시소러스의 구축에 관한 실험적 연구 이재윤
  6. 정보과학회지 v.13 no.1 하이퍼미디어와 정보검색 고연곤;이택경;박태진;최윤철
  7. 미이크로 소프트웨어 no.136 색인어 생성기를 이용한 본문 검색기의 구현 전상훈
  8. Information Retrieval(Data Structures & Algorithms) William B. Frakes;Ricardo Baeza-Yates
  9. Automatic Text Processing Gerard Salton
  10. Hypertext & Hypermedia Jakob Nielsen