• 제목/요약/키워드: HTML documents

검색결과 149건 처리시간 0.02초

HTML 문서의 무결성 유지 시스템의 설계 및 구현 (The Design and Implementation of HTML Document Integrity Management System)

  • 조이기;이영운;황인문;양수영;김원중
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2002년도 춘계종합학술대회
    • /
    • pp.380-383
    • /
    • 2002
  • KLDP(리눅스 한글 문서 프로젝트, http://kldp.org)와 같이 많은 분량의 HTML 문서들로 이루어진 매뉴얼 사이트를 관리하는데 가장 어려운 점은 현수 참조(dangling reference), 오문 참조 (inaccurate content reference)와 같은 깨진 링크(broken link)를 관리하는 것이다. 본 논문에서는 웹사이트의 HTML 문서들 사이에 존재하는 관계성(Relationship)과 제약 조건(Constraints)을 정의하여, HTML 문서의 삽입, 삭제, 변경이 발생할 경우 사용자에게 통지하거나, 트리거를 수행하여 HTML 문서들의 무결성(Integrity)을 유지할 수 있도록 하는 HIMS(HTML Document Integrity Management System)시스템을 설계 및 구현하였다.

  • PDF

유사 패턴을 갖는 HTML 문서의 XML 자동 변환 (Automatically Converting HTML Documents with Similar Pattern into XML Documents)

  • 오금용;황인준
    • 정보처리학회논문지D
    • /
    • 제9D권3호
    • /
    • pp.355-364
    • /
    • 2002
  • 최근 들어, WWW(World Wide Web)의 급속한 보급으로 많은 양의 정보가 생성되고 있다. 이로 인하여 웹은 이제 정보 교환의 도구로서 뿐 아니라 정보의 저장소로 인식되게 되었다. 현재 웹상의 많은 문서들은 HTML(Hypertext Markup Language)을 사용하여 제작되었다. HTML은 간단하고 배우기가 쉬운 반면, 데이터에 대한 기술을 명확하게 하지 못하는 단점으로 인해 정보 검색에 있어서 효율성을 제공하지 못한다. 이를 보완하기 위한 방법 중에 하나가 구조적인 언어로 부상하고 있는 XML(eXtensible Markup Language) 문서로 변환하는 것이다. XML은 웹 상에서 데이터 교환을 위해 제안된 표준 메타 언어이다. 효과적인 데이터의 교환을 위해, XML은 DTD(Document Type Definition)를 통하여 문서의 구조를 기술할 수 있고 사용자가 원하는 대로 정의할 수 있다. 이러한 구조적 유동성은 웹에서 운용되는 모든 데이터를 통합, 저장, 처리할 수 있는 기반을 제공한다. 본 논문에서는 특히 유사한 패턴을 갖는 HTML 문서의 구조를 분석하고 그에 관련된 경로 정보를 인식하는 방식을 이용하여 XML 문서로의 변환을 자동적으로 수행할 수 있는 XML 변환기를 구현하였다.

스타일에 따른 웹 문서의 자동 분류 (Automatic Classification of Web documents According to their Styles)

  • 이공주;임철수;김재훈
    • 정보처리학회논문지B
    • /
    • 제11B권5호
    • /
    • pp.555-562
    • /
    • 2004
  • 스타일 또는 장르는 문서의 주제와는 다른 문서를 보는 또 하나의 관점이 될 수 있다. 그렇기 때문에 문서의 스타일은 문서 분류의 기준으로 사용될 수 있다. 문서의 스타일에 따른 자동 분류 시스템에 대한 여러 연구들이 수행되어 왔다. 그러나 이런 연구들의 대부분이 일반 문서를 대상으로 수행하였으며, 몇몇 일부의 연구만이 웹 문서를 대상으로 스타일 분류에 대한 연구를 수행하였다. 웹 문서는 일반 문서와는 달리 URL HTML을 갖고 있다. 본 연구에서는 이와 같은 URL과 HTML로부터 추출한 자질들을 웹 문서의 스타일 분류에 사용해 보고자 한다. 실험을 통해서 이와 같은 자질들이 웹 문서의 스타일 분류에 어떤 영향을 미치는지를 밝혀보고자 한다.

XML 기반의 대용량 유사 문서 편집기/변환기 구현 (Implementation of an XML-Based Editor/Transformer for Large Volume of Similar Documents)

  • 황인준
    • 한국전자거래학회지
    • /
    • 제9권1호
    • /
    • pp.21-38
    • /
    • 2004
  • 최근 웹이 보편화되면서 웹은 이제 거대한 정보의 보고로서 중요한 의미를 가지게 되었다. 현재 웹 상에 존재하는 많은 문서들은 HTML로 작성되어 있다. HTML은 간단하고 배우기가 쉬운 반면, 고정된 태그 등으로 정보 검색에 있어서 비효율적이다. 이러한 단점을 보완하기 위해 XML이 제안되어 현재 다양한 응용에 활용되고 있다. XML은 HTML에 비해 구조적이고 또한 정보의 의미를 적절하게 표현할 수 있어 정보 검색에 있어서 훨씬 효과적이다. 이러한 추세에 맞추어 본 논문에서는 XML 문서를 다양하고 효과적으로 생성하고 관리하는 XML 문서 관리기를 제안한다. 시스템의 특징으로는 첫째, 문서의 양식을 반영하는 폼을 제공하여 XML을 잘 모르는 일반 사용자도 쉽게 새로운 문서를 작성할 수 있게 하였으며 둘째, 이미 존재하는 비슷한 구조를 가지는 HTML문서에 대해서는 자동적인 XML문서로의 변환을 제공하여 기존의 HTML문서도 XML를 통해 관리와 검색을 가능하게 한다. 마지막으로 GUI상에서 문서의 DTD를 편집할 수 있게 하여 DTD 작성을 용이하게 하였다.

  • PDF

무선 인터넷 서비스를 위한 HTML Filter의 설계 및 개발 (A Design and Implementation of HTML Filter for Wireless Internet Service)

  • 정삼진
    • 한국산학기술학회논문지
    • /
    • 제9권6호
    • /
    • pp.1659-1665
    • /
    • 2008
  • 본 논문에서는 무선 인터넷 서비스를 보다 원활하게 제공하기 위해서 HTML Filter의 설계 및 개발을 제안한다. HTML Filter는 HTML로 작성된 웹 문서를 WAP 환경에 맞는 휴대용 무선 장비에 적합한 WML 문서로 자동으로 변환한다. HTML Filter는 HTML 프로그램을 토큰 단위로 구분하는 "HTML 어휘 분석기", 어휘 분석 단계에서 만들어진 토큰들을 받아 들여서 프로그램의 문법적 구조를 분석하는 "HTML 구문 분석기", HTML 프로그램의 의미를 보다 효율적으로 표현할 수 있는 중간언어인 "HTML 추상구문트리", 그리고 중간언어인 추상구문트리를 WML 프로그램으로 변환하는 "목적 코드 WML 생성기"로 구성되어 있다. 기존의 컴파일러 개발 기술을 이용하여 제안된 번역 방식은 기존의 방식보다 개발하기 쉽고 효율적이어서 다른 무선 언어 변환 방식에도 응용할 수 있을 것으로 본다.

사용자와의 상호작용을 통한 HTML문서의 XML 문서로의 변환 (Converting HTML Documents to XML Documents through Interactions with Users)

  • 김승원;민준기;정진완
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.103-105
    • /
    • 2002
  • 웹에 데이터를 나타내기 위해서 사용하는 HTML은 데이터를 표시(presentation)하기 위한 언어일 뿐 데이터의 의미를 나타내지는 못한다. 이러한 HTML의 단점을 극복하고 데이터의 표시(presentation)와 의미(semantic)를 나타낼 수 있도록 한 마크업 언어가 XML이다. HTML로 나타난 정보를 제대로 이용하기 위해서는 HTML 문서의 의미(semantic)정보를 알아내야만 한다. HTML 문서를 XML 문서로 변경할 수 있다면, 변경된 문서의 의미 정보를 이용할 수 있을 것이다. HTML 문서 포멧(format)을 XML 문서 포멧(format)으로 변경하기 위한 작업으로 [1]이 있다. [1]에서는 자동으로(automatic) 변환하는 방법을 사용했다. 이러한 방법은 프로그램이 HTML 문서의 의미를 파악하는데 한계가 있기 때문에 변환된 XML 문서에서 문서의 의미를 제대로 나타내기 어렵다는 단점을 안고 있다. 본 논문에서는 HTML 문서의 의미론 제대로 나타내는 XML 문서를 만들기 위해서 사용자가 어느 정도 개려하여 최종적인 XML 문서를 만드는 방법을 제안한다. 제안한 방법은 사용자의 약간의 개입으로 원래 HTML 문서의 의미를 보다 더 잘 나타내는 XML 문서를 만들어낸다.

  • PDF

지식분석도를 이용한 지식기반 웹 사이트 자동 생성 도구의 개발 (Development of an Automatic Generation and Management Tool for Web-based Inference Sites)

  • 송용욱;김우주;홍준석
    • Asia pacific journal of information systems
    • /
    • 제13권1호
    • /
    • pp.213-230
    • /
    • 2003
  • Most of existing expert systems developed for Web use CGI-based techniques and this frequently makes them suffer from the overburden of commercial Web servers, which deal with large-scale services. However, since HTML-based inference technique represents expert's knowledge by hyperlinks among HTML documents, the hypertext function of the Web can perform the inference efficiently in terms of time and space without the help of additional inference engines. In spite of such benefits, when the expert's knowledge is relatively large and/or complicated, the HTML-based inference technique has usually become to have a hard time of dealing with a lot of HTML documents because generation and management tasks of the numerous HTML documents would cause big trouble to the knowledge engineer. To resolve this problem, we developed an automatic generation and management tool for Web-based inference sites, called WeBIS. With this tool, a knowledge engineer can input and edit expert's knowledge using Expert's Diagram on the GUI(Graphical User Interface) environment and automatically generate hyper-linked HTML documents for Web-based inference from the Expert's Diagram.

DTD/SGML 문서 저작 도구의 설계 및 구현 (The Design and Implementation of an Editor Composing DTD and SGML Document)

  • 현득창;이수연
    • 한국정보처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.944-954
    • /
    • 1997
  • 본 연구는 인터엑티브한 방식을 사용하여 문서의 구조를 나타내는 문서 형 정의(DYD) 를 저작할 수 있고, 동시의 문서 형 정의에 기반한 범용적인 SGML 문서는 물론 HTML 문서를 편집할 수 있는 한글SGML 문서와 문서 형 정의 저작 도구로의 설계 및 구현에 관한 것이다. HTML의 문서 형 정의는 SGML의 구문에 따라 정의된 것으로 그에 따르는 HTML문서는 SGML의 한 응용이다. 그러므로 HTML의 어떤 버전의 문서도 그에 대응하는 문서 형 정의와 본 개발 저작 도구만 있으면 저작이 가능하다. 본 시스템은 그래픽 사용자 인터페이스로는 X윈도우 시스템이 Motif와 UIL을 사용하였고, 그밖에 기능 모듈은 C-언어를 이용하여 구현하였다.

  • PDF

무선 인터넷을 위한 HTML-WML 변환기 설계 및 구현 (Design and Implementation of the HTML-WML Converter)

  • 민영수;강형일;유재수
    • 인터넷정보학회논문지
    • /
    • 제2권2호
    • /
    • pp.37-50
    • /
    • 2001
  • 웹 상에 존재하는 HTML로 기술된 방패하고 다양한 정보를 휴대용 무선 장비를 통해 접근할 수 있도록 하려면 HTML로 기술된 문서와 동일한 별도의 WML문서를 작성해야한다. HTML로 구축된 정보의 양이 방대할 경우, 동일한 정보를 가지는 별도의 WML사이트를 구축하는 것은 시간적, 공간적으로 많은 비용이 든다. 본 논문에서는 기존의 HTML로 기술된 웹 문서를 휴대용 무선 장비를 이용하여 접근하려고 할 때, 휴대용 무선 장비에 적합한 WML 문서로 변환해주는 HTML-WML 변환기를 설계하고 구현하였다. 구현된 HTML-WML 변환기는 휴대용 무선 장비에 따라 동적으로 WML 문서를 재구성하고 GIF, JPG, BMP 등과 같은 다양한 이미지 형태를 처리할 수 있는 장점을 가졌으며 무선 인터넷 환경에서의 실시간 변환기뿐만 아니라 WML 에디터와 같은 응용에서도 사용이 가능하다.

  • PDF

HTML 문서의 테이블 식별을 위한 효율적인 알고리즘 (An Efficient Algorithm for Detecting Tables in HTML Documents)

  • 김연석;이경호
    • 한국멀티미디어학회논문지
    • /
    • 제7권10호
    • /
    • pp.1339-1353
    • /
    • 2004
  • HTML의 table 태그는 연관된 정보를 기술하기 위한 테이블은 물론이고 웹 문서의 레이아웃을 표현하기 위하여 사용된다. 본 논문에서 는 웹으로부터 유용한 정보를 추출하기 위한 목적의 일환으로 HTML 문서로부터 테이블을 식별하는 효율적인 방법을 제안한다. 제안된 방법은 전처리와 속성-값 연관관계 추출의 두 단계로 구성된다. 전처리 단계에서는 진짜 테이블 또는 레이아웃용으로 사용된 table 태그의 일반적인 특징을 반영한 규칙을 적용하여 진짜 또는 가짜로 명확히 식별이 가능한 table태그를 추출한다. 속성-값 연관관계 추출 단계에서는 테이블 영역을 속성 및 값 영역으로 구분한 후, 값 영역에 대하여 구문적 일관성 검사를 수행한다. 또한 값 영역의 크기가 작아서 구문적 일관성 검사를 수행할 수 없는 경우, 속성-값 영역의 의미적 일관성을 검사한다. 제안된 방법의 성능을 평가하기 위하여 1,393개의 HTML문서로부터 추출한 11,477개의 table 태그를 대상으로 실험한 결과, 평균적으로 97.54%의 정확률과 99.22%의 재현률을 보여 기존 연구보다 우수하였다.

  • PDF