• Title/Summary/Keyword: HTML/XML parsing

Search Result 7, Processing Time 0.022 seconds

Design and Implemetation of EasyWeb that searching and sharing to Informations (정보 검색 및 공유가 가능한 EasyWeb 설계 및 구현)

  • Gang, Sang-Eun;Kim, Taek-Hwan;Kang, Min-Young;Joo, Ok-Chan;Kim, Jin-Mook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.1411-1413
    • /
    • 2011
  • 기존의 인터넷 검색 편리성을 제공하는 브라우저들은 사용자의 요구에 따라 수동적으로 움직이게 된다. 또한 RSS 와 같은 고급 검색 요구 조건을 만족시키고자 하는 노력에 비하여 사용자의 요구에 따라 능동적으로 움직이기에는 어려움이 존재한다. 이에 본 연구에서는 RSS와 같은 능동적인 정보 검색 및 제공이 가능하고, 표준 HTML2.0을 따르는 효과적인 웹 브라우저인 EasyWeb을 설계 및 구현하고자 한다. 본 논문에서 제안한 EasyWeb 브라우저는 기존의 브라우저들과 달리 표준 규격에 따라 구성하도록 HTML과 XML parsing이 가능하다. 또한 사용자의 요구에 능동적으로 정보를 수집하여 제공할 수 있다. 본 논문에서 제안한 EasyWeb의 구현 결과를 살펴보면 향후 웹 브라우저의 나아갈 방향을 모색할 수 있을 것으로 생각된다.

Algorithm Embodiment for XQuery2SQL Converter (XQuery2SQL 변환기 위한 알고리즘 구현)

  • 서현호;김영국;김덕만
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2004.05a
    • /
    • pp.335-341
    • /
    • 2004
  • HTML that is language that web technology is center expression these day that use of internet and quantity of information by fast development increase rapidly brought limit to use information of web and XML that express meaning or corelation of data itself in W3C by standard for free document transmission and exchange in World Wide Web by the alternative as long as is deviation appeared. There is many efforts to use storing this XML document in RDBMS but to relation style DB because XML document is tree structure structurally data SQL and perfect disaster caused by things that is language to ask a question accomplish. In this paper XML document XML informations that is stored to RDBMS via Parsing and DOM tree process SQL quality through converter called XQuery2SQL of by change and embody XQuery2SQL conversion algorithm that draw information in RDBMS.

  • PDF

A Study of Main Contents Extraction from Web News Pages based on XPath Analysis

  • Sun, Bok-Keun
    • Journal of the Korea Society of Computer and Information
    • /
    • v.20 no.7
    • /
    • pp.1-7
    • /
    • 2015
  • Although data on the internet can be used in various fields such as source of data of IR(Information Retrieval), Data mining and knowledge information servece, and contains a lot of unnecessary information. The removal of the unnecessary data is a problem to be solved prior to the study of the knowledge-based information service that is based on the data of the web page, in this paper, we solve the problem through the implementation of XTractor(XPath Extractor). Since XPath is used to navigate the attribute data and the data elements in the XML document, the XPath analysis to be carried out through the XTractor. XTractor Extracts main text by html parsing, XPath grouping and detecting the XPath contains the main data. The result, the recognition and precision rate are showed in 97.9%, 93.9%, except for a few cases in a large amount of experimental data and it was confirmed that it is possible to properly extract the main text of the news.

Development and Implementation of the XML Parser for integrated XML Webservice (XML웹서비스를 위한 XML Parser개발 및 구현)

  • Kwon, Doo-Wy;Do, Kyeong-Hoon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2009.05a
    • /
    • pp.72-75
    • /
    • 2009
  • XML과 웹서비스의 등장으로 전자문서 관리의 중요성이 대두되었고, 효율적인 관리를 위해 많은 기업들이 기술 개발을 해오고 있다. 그러나 웹언어나 프로토콜에 대한 공개 표준이 제정 되지 않아 기업들은 개별적으로 웹서비스를 구축하고 이는 인터넷 시장과 웹의 분열을 가져왔다. 이에 W3C에서는 웹 상호운용성을 목표로 XML표준안을 공표했다. MusicXML, MathML, CML(Chemistry Markup Language), WML(Wireless Markup Language)등은 모두 특정한 용도를 가지는 XML기반의 마크업 언어들이다. XML은 단지 웹 환경만을 위한 표준이 아니라 인터넷 전반에서 데이터를 생성, 저장, 변환하기 위한 보편적인 표준으로 자리 잡고 있다. 본 논문에서는 모바일환경과 웹 환경에서 동시 서비스가 가능한 XML 웹서비스를 구현하였다. XML 웹서비스는 인터넷 표준기술인 XML과 HTTP를 사용하는데, XML기반의 SOAP메시지를 파싱하기 위하여 WIPI와 HTML기반으로 설계, 개발하였다. 제안하는 XML Parser는 PULL모델을 변형한 이벤트 방식이다. 제안한 Parser는 모바일기기와 웹 환경에서 동시 사용가능한 인터넷 서점에 적용하였고, 제안하는 XML Parser와 기존의 Parser들과의 벤치마킹을 통해 속도비교를 함으로써 Parsing속도의 향상을 나타내었다.

  • PDF

Design and implementation of web-robot using XML (XML을 이용한 웹 문서 수집기 설계 및 구현)

  • Lee, Sae-Byuk;Lim, Heui-Seok
    • Proceedings of the KAIS Fall Conference
    • /
    • 2008.11a
    • /
    • pp.49-52
    • /
    • 2008
  • 웹2.0, RIA(Rich Internet Application)의 발전으로 웹 기반 서비스가 다양해지고 기존의 응용프로그램 역시 웹 기반 인터페이스로 제공되면서 사용자 또한 단순 사용자가 아닌 서비스를 제공하는 컨슈머(Consumer)의 형태가 되었다. 따라서 웹 문서는 더욱 방대해 지고 검색, 분류, 색인 등을 위해서 웹문서의 수집이 새로운 형태로 필요하게 되었다. 그러나 기존의 데이터베이스 사용 방법이나, 문서의 전문을 파일형식으로 저장하는 방법은 웹문서를 이용하여 다양한 컨텐츠를 제공하기에 적합하지 않다. 그러므로 본 연구는 웹 문서를 파싱(Parsing)하여 필요한 부분을 XML파일 형태로 저장하여, 재사용성을 높이는데 초점을 맞추어 HTML을 파싱하고 자동으로 임의의 파일을 수집하는 문서수집기를 구현하게 되었다.

  • PDF

A Structured Markup Language for the Object-Oriented Representation and Management of Decision Models on the Web (웹상에서의 의사결정모형의 객체지향적 표현과 관리를 위한 구조적 마크업 언어)

  • Kim, Hyoung-Do
    • Asia pacific journal of information systems
    • /
    • v.8 no.2
    • /
    • pp.53-67
    • /
    • 1998
  • The explosive growth of the Web is providing end-users access to ever-increasing volumes of information. The resources of legacy systems and relational databases have also been made available to the Web browser, which has become an essential business tool. Recently, model management on the Internet/Web is also proposed with its conceptual design or prototypical system like DecisionNet and DSS Web. However, they are also suffering from the same symptoms as the Web, Although we can identify the elements of a page with HTML tags and (declare) the relationships among the various document elements, they are semantically opaque to computer systems and have no domain-specific meaning. However, HTML is not extensible, so developers are forced to invent convoluted, non-standard solutions for embedding and parsing data. Extensible Markup Language (XML) is a simplified subset of SGML that has many benefits for folks who want to improve structure, maintainability, searchability, presentation, and other aspects of their document management. This paper proposes a structured markup language for model representation and management on the Web as an XML application. The language is based on a conceptual modeling framework, Object-Oriented Structured Modeling (OOSM), which is an extension of the structured modeling.

  • PDF

Web Data Collection and Utilization using Content Syndication (콘텐츠 신디케이션을 이용한 웹 데이터 수집 및 활용)

  • Hwang, Sanghyun;Kim, Heewan
    • Journal of Service Research and Studies
    • /
    • v.5 no.2
    • /
    • pp.83-92
    • /
    • 2015
  • Many data on the web are present, put out by processing in the content in order to provide services by collecting the necessary data is not easy. One of the reasons is because there is no way to provide a standardized data. Therefore, it can be seen as a part or all of the contents of the site, the content distribution to be available for other services is very important. A syndication format that allows you to use a representative of some or all of the site's content for other services such as RSS and there are Atom, OPML-based XML. Throughout the links provided in this syndication format is called feed address. With a feed address to collect data faster than the conventional HTML parsing and data provider is the advantage of being able to easily provide the data to the outside. In this study, we feed the data obtained by collecting by implementing the web address based on the data acquisition system to propose a method for processing and utilizing the data as a background.