• Title/Summary/Keyword: HTML documents

Search Result 150, Processing Time 0.031 seconds

Automatic Information Extraction for Structured Web Documents (구조화된 웹 문서에 대한 자동 정보추출)

  • Yun, Bo-Hyun
    • Journal of Internet Computing and Services
    • /
    • v.6 no.3
    • /
    • pp.129-145
    • /
    • 2005
  • This paper proposes the web information extraction system that extracts the pre-defined information automatically from web documents (i.e, HTML documents) and integrates the extracted information, The system recognizes entities without lables by the probabilistic based entity recognition method and extends the existing domain knowledge semiautomatically by using the extracted data, Moreover, the system extracts the sub-linked information linked to the basic page and integrates the similar results extracted from heterogeneous sources, The experimental result shows that the system extracts the sub-linked information and uses the probabilistic based entity recognition enhances the precision significantly against the system using only the domain knowledge, Moreover, the presented system can the more various information precisely due to applying the system with flexibleness according to domains, Because bath the semiautomatic domain knowledge expansion and the probabilistic based entity recognition improve the quality of the information, the system can increase the degree of user satisfaction at its maximum. Thus, this system can satisfy the intellectual curiosity of users from movie sites, performance sites, and dining room sites, We can construct various comparison shopping mall and contribute the revitalization of e-business.

  • PDF

A Study on the Development of EDI the based on Web (웹 기반 EDI 시스템 구현을 위한 연구)

  • 고규준;김정영;박정선
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.634-636
    • /
    • 2000
  • The importance of EDI has been so emphasized that we need exchange/maintain electronic documents effectively, and convert then to other formats. The traditional EDI, however, is facing on the limitation of growth because of it's high expense, and the closenees of sharing information. The EDls of next generation, like open EDI, object-oriented EDI, and Internet EDI, have appeared to solve these problems. Finally, XML/EDl, which is very effective to solve these kinds of problems, is now replacing the traditional EDI and the HTML in Internet and is influencing on e-Business. So, we are going to suggest a solution which uses XML/EDl as a substitute for the traditional one. First, we analyzed the problems of the traditional EDI system and organized the structure of XML/EDl system. Next, we have developed the prototype of Internet bookstore to show the effectiveness and strength of XML/EDl over the traditional EDI.

  • PDF

A Study on the Development of XML/EDI Tool Prototype (XML/EDI 도구 프로토타입 개발에 관한 연구)

  • 김동우;고규준;박정선
    • The Journal of Society for e-Business Studies
    • /
    • v.5 no.1
    • /
    • pp.39-54
    • /
    • 2000
  • The importance of EDI has been so emphasized that we need exchange/maintain electronic documents effectively, and convert them to other formats. The traditional EDI, however, is facing on the limitation of growth because of its high expense, and the closeness of information sharing. The EDIs of next generation, like open EDI, object-oriented EDI, and Internet EDI, have appeared to solve these problems. Finally, XML/EDI, which is very effective to solve these kinds of problems, is now replacing the traditional EDI and the HTML in Internet and, is influencing on e-Business. So, we are going to suggest a solution which uses XML/EDI as a substitute for the traditional one. First, we analyzed the problems of the traditional EDI system and organized the structure of XML/EDI system, Next, we developed the prototype of Internet bookstore to show the effectiveness and strength of XML/EDI over the traditional EDI.

  • PDF

An XML-Documents Exchanging Method Using A Metadata Registry (메타데이터 제지스트리를 이용한 XML-문서 교환 방법)

  • 홍종하;양유승;나홍석;백두권
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.94-96
    • /
    • 2001
  • 웹 기반의 분산 환경에서 데이터를 공유, 사용하려는 노력은 끊임 없이 계속되어 왔다. 기존의 HTML 문서를 이용할 경우에는 그 언어자체가 가지고 있는 한계성 때문에 효과적으로 문서를 공유하기가 어렵다. 이에 대한 대안으로 XML을 이용한 문서 교환 방법이 제시되고 있다. 하지만 서로 다른 DTD를 기반으로 작성된 XML문서를 교환할 경우에는 문제가 발생하게 된다. DTD가 서로 다른 사용자에 의해서 작성되었기 때문에 XML 문서 내의 태그 뿐만 아니라 문서가 가지고 있는 그 구조 또한 서로 상이하게 된다. 본 논문에서는 상이한 DTD를 기반으로 작성된 XML문서를 교환할 경우에 고려 해야 하는 XML 문서의 구조적 상이성의 예를 보여주고 이에 대한 해결 알고리즘을 제시한다. 문서 구조의 상이성은 적절한 매핑 테이블과 트리 구조를 이용한 태그 변환 방법을 이용하여 해결할 수 있다. 데이터 레지스트리와 본 논문에서 제안한 문서의 구조와 태그 변환 방법을 사용하면 XML 문서를 효과적으로 교환 할 수 있다.

  • PDF

Real-Time Update fur XML Documents using Change Messages (변경 메시지를 이용한 XML 문서의 실시간 갱신)

  • 임영환;류기열;위규범
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10c
    • /
    • pp.310-312
    • /
    • 2001
  • 인터넷상에서 문서를 배포하는 데는 기본적으로 HTML의 풀 방식을 사용하며, 간혹 푸시 기술을 이용만 시스템을 이용하기도 만다. 그러나. 이들은 각각 문서의 실시간 변경이라든가 대역폭과 부가 정보에 의한 서버측의 부담 등의 문제를 가지고 있기 때문에 우리는 부시와 풀 방식을 합쳐 부시에 의한 부담을 최소한으로 줄이고. 문서의 실시간 갱신도 가능하도록 변경 메시지를 이용하였다. 이 변경메시지는 실제 데이터가 아닌 데이터의 변경 정보를 가지고 서버와 연결된 모든 클라이언트에 전달되며 이후 클라이언트에서는 자신이 필요한 경우에만 서버에 데이터를 요청하게 된다. 이러한 구조는 데이터가 변경 되었다는 메시지가 실제 데이터보다 작고, 모든 클라이언트에 데이터를 보내기에 부담이 될 정도로 서버에 연결된 클라이언트가 많은 경우 이전의 다른 시스템들 보다 유용하다.

  • PDF

XML-based Intelligent Reformatter for Mobile Access Documents (XML 기반의 지능형 무선인터넷 문서 변환기)

  • Hong, Soon-Jae;Cho, Seong-Jin;Kim, Ho-Yun;Ham, Jun-Ho;Lee, Jae-Won
    • Annual Conference of KIPS
    • /
    • 2000.10b
    • /
    • pp.1227-1230
    • /
    • 2000
  • 본 연구는 서로 다른 형식(format)으로 작성된 무선인터넷 문서들간의 상호 변환(reformatting)을 다루고 있다. 무선인터넷에 접속하는 단말기는 보통 하나의 형식만을 지원하는데 비해서, 무선인터넷 문서를 작성하는데 필요한 마크업 언어(markup language)로는 WML, HDML, mHTML 등 다양한 형식들이 존재하고 있다. 이에 본 연구에서 지식 기반 시스템(knowledge based system)과 XML(extensible Markup Language)을 이용하는 문서 형식 변환 기술을 제공하여, 무선인터넷 컨텐츠 구축시 특정 형식에 구애받지 않도록 하였다.

  • PDF

Automatically Constructing English-Korean Parallel Corpus from Web Documents (웹 문서로부터 한영 병렬말뭉치의 자동 구축)

  • Seo, Hyung-Won;Kim, Hyung-Chul;Cho, Hee-Young;Kim, Jae-Hoon;Yang, Sung-Il
    • Annual Conference of KIPS
    • /
    • 2006.11a
    • /
    • pp.161-164
    • /
    • 2006
  • 인터넷이 발전하면서 웹에는 같은 내용을 다양한 언어로 표현한 문서들이 많이 존재한다. 이와 같은 웹 문서의 성질을 이용하여, 이 논문은 웹으로부터 수집된 병렬문서(parallel document)를 이용하여 한영 병렬말뭉치 구축 시스템을 설계하고 구현한다. 이 논문에서 구축과정을 요약하면 다음과 같다. 첫째, 웹 문서수집기를 이용해서 웹으로부터 한영 웹문서(html 문서)를 각각 수집한다. 둘째, 수집된 각 언어의 웹 문서에서 불필요한 내용(태그와 광고 문구 등)을 제거하여 문장을 추출하고, 추출된 문장을 단락단위로 정렬한다. 셋째, 단락단위로 정렬된 문서를 문장정렬(sentence alignment) 방법을 이용해서 문장을 정렬한다. 끝으로 정렬된 병렬문장을 단어 단위로 분리하여 병렬말뭉치를 구축한다. 이와 같은 방법으로 이 논문에서는 약 42만 5천 문장의 한영 병렬말뭉치를 구축하였다.

  • PDF

Total Solution System for Applications using DPMS (DPMS 통합 원서 지원 시스템 개발)

  • Park, Chang-Ho;Hwang, Hu-Mor
    • Proceedings of the KIEE Conference
    • /
    • 2001.07d
    • /
    • pp.2678-2680
    • /
    • 2001
  • We develop a total solution system for applications, which is called a data processing module system(DPMS), based on ASP, PDF, JAVA, and MSSQL. The DPMS system provides a realtime telematic guidance in the fields of application, recruiting, and management. The user documents the PDF file on the Web browser and store the file in DB for correction. The DPMS discovered the difficulties in data input due to 2 byte problem of Korean language. This result leads to the usage of Korean language as well as others. Test results through free-charge access confirm that the DPMS outperforms the conventional systems based on ASP with HTML in view of simplicity and confidentiality.

  • PDF

Detecting Changes in Structured Documents using Message Digest (메시지 다이제스트를 이용한 구조화된 문서의 변화 탐지)

  • 김동아;이석균
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.151-153
    • /
    • 2002
  • XML/HTML 문서와 같이 트리 구조로 표현되는 데이터의 변화 탐지는 NP-hard의 문제로 이에 대한 효율적인 구현은 매우 중요하다. 본 논문에서는 효율적인 변화 탐지를 위해 트리 구조의 데이터를 X-tree로 표현하고 이에 기초한 휴리스틱 알고리즘을 제안한다. X-tree에서는 모든 서브트리의 루트 노드에 서브트리의 구조와 소속 노드들의 데이터들을 128비트의 해시값으로 표현하여 저장함으로 신ㆍ구 버전의 X-tree들에 속한 서브트리들의 비교가 매우 효율적이다. 제시한 변화 탐지 알고리즘에서는 구 버전의 X-tree의 모든 서브트리들에 대해 신 버전의 X-tree에서 동등한 서브트리들을 찾고, 이들에 기초하여 이동 연산이 발생한 서브트리들과 갱신 연산이 발생한 서브트리들을 순차적으로 찾는다. 이때 이동 연산과 갱신 연산으로 대응되는 서브트리는 동등 서브트리로부터 루트 노드로 대응 관계를 확장하는 가운데 발견된다. 이후 깊이 우선으로 검색하면서 나머지 노드들을 대응시킨다. X-tree의 구조적 특징에 기인하여 노드들 간의 비교를 통해 대응 여부를 검사하는 대부분의 기존 연구와는 달리 서브트리의 비교를 통해 대부분의 대응 관계를 결정하므로 효율적인 변화 탐지가 가능하다. 본 알고리즘은 최악의 경우에서도 N을 신ㆍ구 버전 문서의 전체 노드 수라 할 때 O(N)의 시간 복잡도를 갖는다.

  • PDF

Logical Structure Analysis of Topic-specific Web Documents (특정 주제 웹문서의 논리적 구조 분석)

  • 이민형;이경호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.157-159
    • /
    • 2004
  • 본 논문에서는 웹 문서를 XML 문서로 변환하기 위한 논리적 구조분석 방법을 제안한다. 제안된 방법은 비주얼 그룹화, 요소 식별, 그리고 논리적 그룹화의 세 단계로 구성된다. 특히 정교한 수준의 논리적 구조분석을 지원하기 위하여 특정 주제에 속하는 문서 유형의 논리적 계층 구조를 효과적으로 기술할 수 있는 문서 모델을 정의한다. 제안된 방법은 비주얼 그룹화를 통해서 추출된 시각적 계층구조와 문서 유형에 대한 논리적 구조 정보를 기술한 문서 모델에 기반하기 때문에 보다 정교한 수준의 구조 분석을 지원한다. 제안된 방법의 성능을 평가하기 위하여 웹으로부터 추출한 다수의 HTML 문서를 대상으로 실험한 결과, 기존 연구라 비교하여 논리적 구조분석을 성공적으로 수행하였다. 제안된 방법은 논리적 구조분석의 최종 결과로서 XML 문서를 생성하기 때문에 문서의 재 사용성을 높인다.

  • PDF