• 제목/요약/키워드: HTML documents

검색결과 149건 처리시간 0.024초

미국 특허 서지정보 추출 방법에 대한 연구: HTML 파싱 기법의 활용을 중심으로 (An Extraction Method of Bibliographic Information from the US Patents: Using an HTML Parsing Technique)

  • 한유진;오승우
    • 정보관리학회지
    • /
    • 제27권2호
    • /
    • pp.7-20
    • /
    • 2010
  • 본 연구는 미국 특허 문서에서 가장 최신의 정보를 추출할 수 있는 방법을 제시하였다. 이를 위해 미국특허청 웹페이지에 직접 접속하여, HTML 문서를 파싱하는 방법을 제시하였다. 먼저 관심 있는 키워드로 검색을 한 후 50개로 이루어진 리스트가 출력되면, HTML 파싱 기법을 이용하여 여기서 직접 특허번호, 출원인, 미국 특허 클래스와 같은 주요 서지정보를 추출할 수 있는 알고리즘을 제안하였다. 또한 미국 특허문서에서 특수하게 제공되는 선.후행 특허간의 관계를 활용해 본 특허와 후행 특허의 미국 특허 클래스를 동시에 추출 할 수 있는 알고리즘도 보여주었다. 본 연구에서 제시한 방법은 몇 가지 한계를 가지지만, 적시성.포괄성 측면에서 이미 존재하는 데이터베이스를 보완할 수 있을 것이다.

능동문서에 대한 새로운 접근법과 그 응용 (A New Approach to Active Documents and its Application)

  • 남철기;배재학;장길상
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.347-357
    • /
    • 2003
  • 웹은 중요한 정보인천이며, 대부분의 웹 응용프로그램은 HTML 작성된 서식문서를 기반으로 한다. 이러한 HTML 기반의 서식문서는 사용자 인터페이스를 제공하는 역할을 할 뿐, 문서서식 설계자가 지향하는 업무처리 절차나 로직을 내포하지는 않는다 그러나 서식문서에는 그것에 대한 처리방법이 함축되어 있고. 이렇게 내재된 전차적 지신을 업무치리 과정의 자동화에 적극적으로 활용할 수 있다. 이에, 본 논문에서는 서신문서에 기반한 업무치리 전차를 자동화시키기 위해 인지과학적인 측면에서 문서의 능동성을 파악하였나. 이를 통해 능동문서(Active Documents)에 대한 새로운 개념과 그 적용 가능성을 제시하고자 한다. 이 능동문서는 문서에 함축되어 있는 업무규칙과 문서처리의 자동화를 지원하기 위한 선언적 지식을 문서 사제에 내포하고 있다. 또한, 본 논문에서는 제시된 능동문서를 처리하기 위한 프레임워크를 제안한다. 제안된 프레임워크는 크게 생성단계와 실행단계로 구성된다. 본 논문에서 제안한 프레임워크의 유용성을 보이기 위해, 인터넷 구매 시스템의 구매 요청서 처리에 능동문서를 적용한 ActiveForm이라는 원형시스템을 설계하고 구현하였다. 그 결과, 본 논문은 서식설계자의 지식이 Prolog로 명시적으로 표현되어 있는 능동문서를 추론엔진에서 처리함으로써 인터넷 응용프로그램의 지능화에 기여할 수 있음을 확인하였다.

XML을 이용한 관계DB의 웹출판에 관한 사례 (A Case Study on the Web Publishing of Relational DB Via XML)

  • 우원택
    • 한국정보시스템학회:학술대회논문집
    • /
    • 한국정보시스템학회 2001년도 추계학술대회 발표논문집:차세대 전상거래 시대의 비즈니스전략
    • /
    • pp.64-82
    • /
    • 2001
  • HTML revolutionized the way we specify the appearance of data on the Internet. Today, XML (the eXtensible Markup Language) is changing the way we specify the meaning of data. XML, lets document authors define their own markup tags and attribute names to assign meaning to the data elements in the document. Further, XML elements can be nested and include references to indicate data relationships, as Listing One. Unlike HTML, XML markup tags do not describe how to render the data. Rather, they provide descriptions of data, allowing software to understand the meaning of the data automatically For publishing, instead, XSL, the eXtensible Stylesheet Language as a separate language , is in charge of specifying the presentation of XML documents. The purpose of this study is to discover how to transform your organizations relational data into potential e-commerce, business-to-business, and web application with XML and XSL documents. For this purpose, the literature survey, first of all, was undertaken to understand the basic structures of XML documents. Second, one case implementation was performed to understand how to transform Access 2002 XML Files into HTML with XSLTand VB script. The results come out to be successful, more or less. But the limitations of it still exist. One immediate limitation is that XML documents are essentially tree structure, as dictated by the nesting of elements. However, relational database tables are two dimensional matrix structure. In addition, real-world data often is graph structured-a single data element may be referenced in multiple ways. However, this study is useful for understanding how to convert relational database into XML documents and to publish them using XSL or VB script.

  • PDF

이동통신환경에서 XHTML을 이용한 무선인터넷 문서변환기 분석 및 구현 (Analysis and Implementation of a Web Document Converter for Wireless Internet Use XHTML On Mobile Communication Environment)

  • 백진영;이종옥;조성언;조경룡
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2001년도 추계종합학술대회
    • /
    • pp.105-108
    • /
    • 2001
  • 본 논문은 사용자가 휴대용 단말기를 이용하여 기존의 웹에 접속시 웹서버내의 XHTML 문서를 WML 문서로 변환하는 도구의 설계·구현을 목적으로 한다. 사용자가 XHTML(또는 기존의 HTML문서)의 웹페이지에 접속해 정보를 요청하게 되면 본 문서 변환기는 XHTML 문서 구조를 인식하고, 기준이 되는 기준 텍스트 정보를 추출하여 이를