• 제목/요약/키워드: HTML documents

검색결과 149건 처리시간 0.027초

HTML 태그페턴을 이용한 웹정보추출시스템 (Web Information Extraction using HTML Tag Pattern)

  • 박병권
    • 한국정보시스템학회:학술대회논문집
    • /
    • 한국정보시스템학회 2005년도 춘계학술대회 발표 논문집
    • /
    • pp.79-92
    • /
    • 2005
  • To query the vast amount of web pages which are available i]l the Internet, it is necessary to extract the encoded information in the web pages for converting it into structured data (e.g. relational data for SQL) or semistructured data (e.g. XML data for XQuery), In this paper, we propose a new web information extraction system, PIES, to convert web information into XML documents. PIES is based on a user-specified target schema and HTML tag pattern descriptions. The web information is extracted by the pattern descriptions and validated by the target schema. We designed a new language to describe extraction rules, and a new regular expression to describe HTML tag patterns. We implemented PIES and applied it to the US patent web site to evaluate its correctness. It successfully extracted more than thousands of US patent data and converted them into XML documents.

  • PDF

대응효율성을 통한 변화 탐지 알고리즘의 성능 개선 (Improving Performance of Change Detection Algorithms through the Efficiency of Matching)

  • 이석균;김동아
    • 정보처리학회논문지D
    • /
    • 제14D권2호
    • /
    • pp.145-156
    • /
    • 2007
  • 최근 웹 문서의 변조의 탐지, 버전 관리 등을 위한 XML/HTML 문서들에 대한 효과적인 실시간 변화탐지 알고리즘의 필요성이 증대하고 있다. 특히 대용량의 XML/HTML 문서들에 대한 실시간 변화탐지 응용들은 최소비용의 편집스크립트를 계산하는 알고리즘 보다는 실시간 처리가 가능한 빠른 휴리스틱 알고리즘들을 필요로 한다. 기존의 휴리스틱 알고리즘들은 실행속도는 빠르나 생성되는 편집스크립트의 질이 만족스럽지 못하다. 본 논문에서는 기존의 알고리즘 XyDiff와 X-tree Diff를 소개하고 이들 알고리즘들의 문제점들을 분석하고 문제점들을 개선한 알고리즘 X-tree Diff+를 제안한다. X-tree Diff+는 실행시간 측면에서 기존 알고리즘들과 유사하나 대응효율성에 기반한 대응과정의 개선을 통해 두 문서 간의 노트들의 대응률을 향상시킨 알고리즘이다.

디지털도서관 문서양식으로서의 XML과 HTML의 특성 및 검색 기능 비교 연구 (A Comparative Study of XML and HTML: Focusing on Their Characteristics and Retrieval Functions)

  • 김현희;장혜원
    • 정보관리학회지
    • /
    • 제16권2호
    • /
    • pp.105-134
    • /
    • 1999
  • 본 연구에서는 XML과 HTML의 이론적인 특성을 포괄적으로 비교하고 이러한 특성들이 실험 시스템에서 어떻게 적용되고 있는지를 검색기능, 검색 환경 및 이용자 만족도 측면에서 비교 분석하며, XML이 정보 검색에서 기존의 HTML 보다 더 유용한 것인지를 살펴보았다. 비교결과, XML은 복합 내용 및 구조검색이 가능한 점, 관련 자료들을 다중 링크를 사용해 접속할 수 있다는 점 그리고 데이터베이스로 구축할 경우 XML 문서는 태그를 이용해 자동적으로 변환할 수 있다는 등이 HTML 보다 더 우수한 것으로 나타났다. XML이 보다 활성화되기 위해서는 XML 문법을 완벽하게 지원하는 XML 관련 소프트웨어가 많이 개발되어져야 한다. 또한, XML이 주는 무제한적인 태그 작성의 자유가 자칫 동일한 문헌 형태를 너무 다양한 양식들로 표현하다 보면 혼란을 빚을 가능성도 매우 높아지고 있다. 따라서, 특정 문헌 형태에 대한 표준적인 DTD 설계가 절실히 요구되어진다.

  • PDF

전자문헌 개발도구에 관한 고찰 - SGML, HTML과 PDF를 중심으로 - (A Study on Tools to Develop Electronic Documents)

  • 김용;남궁황
    • 정보관리연구
    • /
    • 제29권1호
    • /
    • pp.1-19
    • /
    • 1998
  • 정보의 이용과 보존에 따른 시간적, 공간적 한계를 극복하기 위해서 컴퓨터와 네트워크 기술을 기반으로 하는 전자도서관에 대한 국가적인 관심과 지원이 더욱 증대되고 있다. 전자도서관의 궁극적 목적인 정보의 자유로운 유통과 관리를 위한 전자문헌형식과 이에 대한 표준화는 오늘날 중요한 논점으로서 부각되고 있다. 현재, 디지털 정보를 담을 수 있는 다양한 전자문헌개발을 위한 도구들이 있으며, 여러 분야에서 활용되고 있다. 그러나, 단지 특정한 전자문헌개발도구만이 전자도서관을 구축하기 위한 도구로서 기능적인 측면에서나 전자문헌의 제작에 있어서 절대적인 우위성을 갖고 있지는 못하다. 즉, 개개의 도구들은 전자문헌의 형식과 기능 및 정보량에 따른 검색의 효율성에 따라서 상대적인 장, 단점을 가지고 있다. 본 연구에서는 향후의 전자도서관에서 전자문헌이 갖추어야 할 기본조건들과 전자문헌의 개발을 위한 도구로서 사용되어질 대표적인 전자문헌개발도구인 SGML, HTML과 PDF에 의한 전자문헌의 제작 방법과 특징들을 살펴보고, 각각의 상대적인 장, 단점을 비교, 분석함으로써 미래의 전자도서관에서의 자료유형에 따라 적응될 수 있는 적절한 전자문헌개발도구를 제안하였다.

  • PDF

HTML 기반 지능형 도움말 시스템의 설계 및 구현 (The Design and Implementation of HTML-based Intelligent Help System)

  • 주예찬;권기항
    • 한국멀티미디어학회논문지
    • /
    • 제2권2호
    • /
    • pp.120-128
    • /
    • 1999
  • 본 논문은 도움말 제작자 및 사용자들이 쉽게 사용할 수 있는 HTML 기반의 지능형 도움말 시스템을 설계하고 구현한다. 기존의 도움말 시스템에서 도움말 제작자는 토픽(topic), 색인, 목차 문서를 작성하고, 프로젝트 파일에서 각각의 토픽들을 매핑 하는 복잡한 과정을 거쳐야 도움말을 완성할 수 있다, 그리고 도움말 사용자는 완성된 도움말 내용을 변경할 수 없다. 특히 RAD(Rapid Application Development) 환경에서는 새로운 프로그래밍 환경이나 패키지가 발표될 때마다 도움말이 재 작성될 필요가 있지만, 도움말 작성의 복잡함으로 인해 현실적으로 불가능하다. 구현된 도움말 저작 시스템은 최근 도움말올 제공 형태의 한 방법으로 일반화된 HTMUHypertext Markup Language) 문서를 분석하여 도움말 데이터를 추출하고 사용할 수 있도록 설계되었다. 이를 위해 사용자 관심도 에이전트를 활용한 분석 시스템을 설계하였고, 도움말 내용의 저작을 자유롭게 할 수 있게 하는 사용자 인터페이스를 제공하며, 기존의 문맥 감지 도움말 작성의 불편함을 없애기 위해 새로운 방법을 시도하였다. 본 논문에서 구현한 도움말 시스댐은 특히 블루엣 같은 자바 RAD 환경에서 유용하게 활용할 수 있다.

  • PDF

HTML 문서의 시각적 분석을 이용한 사용자 프로파일 생성 (User Profile Generation using Visual Differences of HTML Document)

  • 곽주현;이창훈
    • 한국정보처리학회논문지
    • /
    • 제7권6호
    • /
    • pp.1827-1833
    • /
    • 2000
  • In this study, I've suggested how to improve the function of web-agents to find out the web-document users prefer. Web-agents employ TFIDF, which considers all the worked used in a document as equal in improtance to find out users' preferences. Web-documents like HTML, however, make visual differences by using different sizes of letters and highlighting them based on importance of words. In this study, I've attempted to improve the functions of the web-agents by differentiating the weight of each worked in accordance with the visual importance of each paragraph. To enhance functions, I've suggested how to make a profile from each paragraph to be consolidated later. As to suggested algorithms, I've tested their effects by comparing the established TFIDF algorithm with the function which helps users find documents they prefer.

  • PDF

계층적 정보 구조의 Web 시스템 관리 기술 (A Management Method for hierarchical Information Structures on Web Systems)

  • 최용준;임경수;황도삼;김종근
    • 한국정보처리학회논문지
    • /
    • 제5권5호
    • /
    • pp.1300-1310
    • /
    • 1998
  • Web 정보 시스템은 많은 수의 정적 HTML 문서들과 동적 CGI 응용 프로그램들로 구성된다. 많은 수의 HTML 문서는 문서관리의 어려움이 있을 뿐 아니라 문서의 내부정보 및 문서간의 정보 일관성을 유지하기가 쉽지 않다. 본 논문에서는 계층적 형식문서 체계의 정보관리 시스템과 관리자 계층에 의한 효율적인 시스템 관리 기법을 제안한다. 구현의 예로서는 계층화된 관리자 기능을 제공하는 대규모 Web 정보 시스템을 구축한다. 이러한 Web 정보시스템 관리는 상시 발생하는 정보를 정보의 발생시점에서 각 관리자가 능동적으로 대처할 수 있을 뿐 아니라 정보의 구조 변경에도 융통성이 있는데, 이 방법은 대규모 Web 정보 시스템 구축과 관리에 효율적이다.

  • PDF

공인전자문서 소통을 위한 Document-HTML 문서 생성 기법의 설계 (Design of Document-HTML Generation Technique for Authorized Electronic Document Communication)

  • 황현천;김우제
    • 산업경영시스템학회지
    • /
    • 제44권1호
    • /
    • pp.51-59
    • /
    • 2021
  • Electronic document communication based on a digital channel is becoming increasingly important with the advent of the paperless age. The electronic document based on PDF format does not provide a powerful customer experience for a mobile device user despite replacing a paper document by providing the content integrity and the independence of various devices and software. On the other hand, the electronic document based on HTML5 format has weakness in the content integrity as there is no HTML5 specification for the content integrity despite its enhanced customer experience such as a responsive web technology for a mobile device user. In this paper, we design the Document-HTML, which provides the content integrity and the powerful customer experience by declaring the HTML5 constraint rules and the extended tags to contain the digital signature based on PKI. We analyze the existing electronic document that has been used in the major financial enterprise to develop a sample. We also verify the Document-HTML by experimenting with the sample of HTML electronic communication documents and analyze the PKI equation. The Document-HTML document can be used as an authorized electronic document communication and provide a powerful customer experience in the mobile environment between an enterprise and a user in the future.

XML을 이용한 요양기관 청구 전자문서거래(EDI) 시스템 (Electronic Data Interchange System for Hospital Demand Using XML)

  • 김진호;김경태
    • Journal of Information Technology Applications and Management
    • /
    • 제9권1호
    • /
    • pp.97-110
    • /
    • 2002
  • Many companies are using EDI (Electronic Data Interchange) for the electronic transmission of documents and information to and from other companies. The appearance of Internet can enhance existing EDI systems. Existing EDI systems have several problems such as poor system interoperability and high expense of VAN. This paper prognoses a new EDI system utilizing Internet to provide open communication environment by using XML (extensible Markup language) and this applies it to the EDI service for Hospital Demand. XML is a mark-up language extending HTML which is a standard language for the expression of WWW (World-Wide Web) pages. XML is more structural than HTML, thus it is more suitable for the repetitive tasks of EDI and for the maintenance of databases. XML can transmit EDI documents in the open communication environment of Internet and users can easily access the documents with web browsers. Therefore we can provide EDI services within more open environment and we can build an EDI system with lower expense.

  • PDF