• 제목/요약/키워드: HTML documents

검색결과 149건 처리시간 0.025초

유지보수에 특화된 웹 문서 작성기의 설계 및 구현 (Design and Implementation of a WebEditor Specialized for Web-Site Maintenance)

  • 조영석;권용호;도재수
    • 융합보안논문지
    • /
    • 제7권4호
    • /
    • pp.73-81
    • /
    • 2007
  • 웹 사이트들은 정보의 양이 방대해지고 웹 문서들의 잦은 생성, 삭제와 수정이 반복되면서 더욱 복잡한 구조의 양상을 띠게 되었으며 사용자가 원하는 최적의 정보에 접근하는 방법 또한 예측하기 힘든 구조를 가지게 되었다. 또한 웹 사이트를 처음 만드는데 들이는 노력에 비해 유지 보수에는 요구되는 비용 때문에 적은 노력을 들이고 있다. 이런 환경에서 웹 문서간의 관계와 그 관계들의 유효성을 분석하여 그 정보가 제공된다면 개발자 뿐 아니라 관리자들도 효과적이고 효율적인 서비스를 제공할 수 있다. 웹 사이트 전체의 구조를 쉽게 파악할 수 있고 하이퍼링크의 유효성을 확인하기 위해 웹 문서의 분석을 통해 하이퍼링크의 구조를 추출하고 체계적인 방법으로 웹 사이트를 관리 하는데 필요한 여러 가지 정보를 제공하여야 한다. 본 논문에서는 HTML 태그를 분석하여 하이퍼링크 정보를 추출, 문서간의 관계를 체계적으로 구조화 하고 관계를 이루는 하이퍼링크가 유효한지 여부를 판단하여 알려주는 두 가지 방법을 사용하여 웹 사이트의 유지 보수를 지원함과 동시에 새로운 문서를 생성 편집할 수 있는 웹 문서 작성 방안을 제안한다.

  • PDF

STW를 이용한 웹 문서 장르 분류에 관한 연구 (A Research for Web Documents Genre Classification using STW)

  • 고병규;오군석;김판구
    • 정보화연구
    • /
    • 제9권4호
    • /
    • pp.413-422
    • /
    • 2012
  • 웹 문서의 지속적인 증가로 인해 텍스트 기반, Page Rank 등의 방법으로 한 연구들이 증가하고 있다. 특히 웹 문서 내 URL 정보, HTML Tag 정보 등을 활용하는 연구들이 다시 주목을 받고 있다. 따라서 웹 문서 장르 분류를 위해 앞서 언급한 웹 문서 내 특징 요소들을 바탕으로 본 논문에서는 STW(Semantic Term Weight)를 적용하여 웹 문서 장르 분류하는 연구를 기술한다. 웹 문서 장르 분류에 사용되는 데이터 셋은 학습 문서와 테스트 문서로 구성되고, SVM 알고리즘을 사용하여 웹 문서 분류 실험을 수행한다. 학습 과정을 위해 20-Genre-collection corpus 내 1,000여개의 문서를 선정하여 SVM 알고리즘을 통해 학습하였고, 테스트 과정에서 사용된 데이터 셋은 KI-04 corpus를 사용하였다. 테스트 과정 후 STW를 사용한 실험과 STW를 사용하지 않은 실험으로 분류하여 정확도를 측정하였다. 또한 이를 바탕으로 1,212개의 테스트 문서를 분류하였다. 그 결과 STW를 사용한 실험 이 그렇지 않은 실험 보다 약 10.2% 높은 정확도를 보였다.

온라인 대화 행위에서 XML 기반 메시지를 이용한 미디어 지원 (Supporting Media using XML-based Messages on Online Conversational Activity)

  • 김경덕
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.91-98
    • /
    • 2004
  • 본 논문에서는 온라인 대화 행위에서 다양한 미디어를 지원하기 위하여 XML(eXtensible Markup Language)을 이용하는 방법을 제안한다. 제안한 방법은 온라인 대화 행위에서 미디어 정보를 XML 기반 메시지로 변환하여 기존 텍스트 기반 메시지와 유사하게 처리한다. 이때 XML 기반 메시지와 미디어는 서버에 저장되며, XML 기반 메시지는 하나의 XML 문서로 통합된 후 XSLT 문서를 적용하여 HTML 문서를 생성한다. 각 클라이언트의 대화자는 HTML 문서의 하이퍼링크를 이용하여 미디어를 재생 및 프레젠테이션 한다. 제안한 방법은 온라인 대화 행위에서 텍스트, 이미지, 오디오, 비디오 등의 다양한 미디어의 사용을 효율적으로 지원하고, 또한 XML 태그의 확장 및 변경에 따라 텍스트 기반 메시지의 글자 크기, 색깔, 스타일 등의 유지보수에 효율적이다. 적용 예로서, 온라인 대화 행위에서 미디어를 지원하기 위하여 클라이언트-서버구조를 가지는 시스템을 구현하였으며, 각 대화자는 웹 브라우저에서 JAVA 애플릿과 서블릿을 사용하여 텍스트 및 미디어 기반 메시지를 입력하며, 대화자가 메시지를 입력할 때마다 대화 메시지가 자동으로 갱신되도록 하였다. 대화자는 사용자 인터페이스상의 대화 메시지에서 하이퍼링크의 클릭으로 미디어를 재생 및 프레젠테이션 한다. 제안한 방법의 응용 분야로는 원격 교육, 게임, 협업 등이다.

XML 문서를 위한 역할 기반 접근 제어 (Role-based Access Control for XML Documents)

  • 신휴근;이원석;김동규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.323-325
    • /
    • 2003
  • 인터넷이 대중화 되면서 HTML 기반의 웹 어플리케이션을 통한 정보 공유가 활발해지고 있다. 그러나 HTML이 가지는 한계로 인해 HTML만을 이용하여 정보 보호 서비스를 제공하는 것은 불가능하다. 이를 해결하기 위해 SGML의 복잡한 특성을 단순화하여 만든 " 언어를 위한 언어" XML (extensible Markup Language) 을 이용할 수 있다. 본 논문에서는 계층적 특성을 가지는 XML을 이용하여 다양한 정보 보호 서비스 중에서 접근제어 서비스를 제공하려 한다. 기존의 임의적 접근제어 모델(MAC)과 강제적 접근제어 모델 (DAC)이 가지는 단점을 보완하면서 사용자와 객체간의 관계를 유연하게 설정할 수 있는 역할 기반 접근제어(RBAC) 모델을 적용하는 “XML문서를 위한 접근제어 모델” 을 제안하려고 한다. 제안하려고 한다.

  • PDF

XML 문서 검색 시스템 설계 (Design of an XML Documents search system)

  • 정지문;이문목;최성
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2000년도 추계학술대회
    • /
    • pp.134-139
    • /
    • 2000
  • 컴퓨터의 보급 확대, 초고속 통신망 구축 그리고 사용하기 쉬운 브라우저의 개발에 힘입은 웹의 급속한 발전에 의해 인터넷 이용자들이 기하급수적으로 증가하게 되었다. 이러한 웹의 발전에 무엇보다도 크게 영향을 끼친 것 중의 하나가 바로 HTML(Hyper-Text Markup Language)일 것이다. HTML은 SGML(Standard Generalized Markup Language)을 기반으로 한 DTD(Document Type Definition)에 의해 정의되어 있는 한정된 태그(Tag)만을 사용하도록 되어 있어 단순한 홈페이지 작업을 하기에는 매우 용이하나 대용량의 복잡하고 다양한 작업을 하기는 쉽지 않았다. HTML의 단점을 극복하기 위해 개발된 XML은 문서에 대한 의미 공유와 서로 다른 애플리케이션 및 호환이 되지 않는 데이터베이스간의 정보 전달 기능들을 효율적으로 수행할 수 있다. 하지만, 현재 대부분의 XML문서 검색 엔진들은 문서의 구조 정보에 기반한 검색에 중점을 둔 반면, 태그의 의미를 이용한 검색은 지원하지 못한다. 본 논문에서는 XML문서의 보다 효율적인 검색을 지원하기 위해 데이터 레지스트리를 이용하여 태그의 의미를 명시하고 이에 기반한 XML문서 검색 시스템을 연구하였다.

An Improved Approach to Ranking Web Documents

  • Gupta, Pooja;Singh, Sandeep K.;Yadav, Divakar;Sharma, A.K.
    • Journal of Information Processing Systems
    • /
    • 제9권2호
    • /
    • pp.217-236
    • /
    • 2013
  • Ranking thousands of web documents so that they are matched in response to a user query is really a challenging task. For this purpose, search engines use different ranking mechanisms on apparently related resultant web documents to decide the order in which documents should be displayed. Existing ranking mechanisms decide on the order of a web page based on the amount and popularity of the links pointed to and emerging from it. Sometime search engines result in placing less relevant documents in the top positions in response to a user query. There is a strong need to improve the ranking strategy. In this paper, a novel ranking mechanism is being proposed to rank the web documents that consider both the HTML structure of a page and the contextual senses of keywords that are present within it and its back-links. The approach has been tested on data sets of URLs and on their back-links in relation to different topics. The experimental result shows that the overall search results, in response to user queries, are improved. The ordering of the links that have been obtained is compared with the ordering that has been done by using the page rank score. The results obtained thereafter shows that the proposed mechanism contextually puts more related web pages in the top order, as compared to the page rank score.

웹 뉴스의 기사 추출과 요약 (Text Extraction and Summarization from Web News)

  • 한광록;선복근;유형선
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권5호
    • /
    • pp.1-10
    • /
    • 2007
  • 뉴스 콘텐츠 등 웹을 통해 제공되는 많은 정보들은 불필요한 클러터를 많이 포함하고 있다. 이러한 클러터들은 문서의 요약, 추출, 검색과 같은 자동화된 정보처리 시스템의 구축을 어렵게 한다. 본 논문에서는 웹 뉴스 콘텐츠를 추출하고 이를 요약하는 시스템을 구축하고자 한다. 추출 시스템은 HTML로 된 뉴스 콘텐츠를 입력받아 DOM 트리와 유사한 요소 트리를 구축하며, 이 요소 트리에서 HTML 태그의 하이퍼링크 속성을 갖는 클러터를 제외하면서 본문을 추출한다. 추출 시스템을 통해 추출된 본문은 요약시스템으로 전달되어 핵심 문장이 추출된다. 요약 시스템은 공기관계 그래프를 이용하여 구성한다. 본 논문에서 구현한 시스템을 통해 추출된 요약 문장은 SMS와 같은 메시지 서비스를 통하여 PDA이나 모바일 폰 등에 전송될 수 있을 것으로 기대된다.

  • PDF

고혈압관리를 위한 웹 기반의 지능정보시스템: 하이퍼링크를 이용한 추론방식으로 (Web-enabled Healthcare System for Hypertension: Hyperlink-based Inference Approach)

  • Song, Yong-Uk;Ho, Seung-Hee;Chae, Young-Moon;Cho, Kyoung-Won
    • 지능정보연구
    • /
    • 제9권1호
    • /
    • pp.91-107
    • /
    • 2003
  • 하이퍼링크 기반 추론은 웹의 하이퍼텍스트 기능을 이용함으로써 접근성, 멀티미디어 기능,빠른 응답 시간, 서버의 안정성, 사용 및 업그레이드의 용이성, 플랫폼 독립성 등을 갖는 의료 전문가시스템을 구현할 수 있도록 해 준다. 전문가의 규칙에 따라 서로 하이퍼링크된 HTML문서들은 웹 서버에 적재된 후 추론 기능을 제공하게 되는데, 이러한 HTML문서들은 자체 개발한 WeBIS (Web-based Inference System)라는 GUI 기반 의사결정 그래프 편집 도구에 의해 자동으로 관리된다. 그럼에도 불구하고, 의료분야 전문가시스템이 다루는 규칙베이스의 크기가 큰 경우에 지식공학자가 이들 규칙들을 수작업으로 입력, 관리하는 것이 매우 어렵게 된다. 따라서, 본 연구에서는 고혈압 관리를 위 한 의사결정 그래프 자동 생성 시스템을 개발하였다. 이러한 일련의 과정을 통하여 본 연구에서는 하이퍼링크 기반 추론 기법을 이용하여 웹 기반 의료 전문가 시스템을 개발하는 방법론을 제시하였고, 그 응용으로써 빠른 응답속도와 안정성을 보이는 웹기반 고혈압 관리 시스템을 구현하였다.

  • PDF

디지털 서명을 위한 XML 구조 설계 (A Design of XML Structure for Digital Signature)

  • 표성배
    • 한국컴퓨터정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.66-74
    • /
    • 2002
  • 웹 기반 하에서의 문서유통의 경우 문제가 되는 것은 작성된 문서가 표준화되어 있지 못하다는 것이고, 또 다른 한가지는 기밀 자료의 유출이며 의도적이고 악의적으로 유통되는 문서를 변조하려는 공격에 대한 대처가 미흡하다는 것이다. 최근에는 마그업 언어인 SGML로부터 HTML을 만들어내고 이를 웹개발에 이용하였으나 많은 사용자들이 웹에서 사용하는 문서나 메시지나 데이터의 정의를 위한 방법들을 표준하기 미흡하였다. 그러나 XML이 등장하면서 이러한 문제를 해결하고 있으나 문서 유통의 안전을 보장하기 어려웠다. 본 연구는 웹환경 하에서 업무처리에 필수적인 문서유통에서 전자서명을 이용한 정보보호를 위하여 XML을 기반으로 하여 전자서명의 절차를 규정하고 컴포넌트들을 설계하려 한다.

  • PDF

WebDBs: 사용자 중심의 웹 검색 엔진 (WebDBs : A User oriented Web Search Engine)

  • 김홍일;임해철
    • 한국통신학회논문지
    • /
    • 제24권7B호
    • /
    • pp.1331-1341
    • /
    • 1999
  • 본 연구에서는 SQL과 유사한 질의어를 사용하여 웹에 등록된 정보를 검색하는 시스템인 WebDBs(Web DataBase system)를 제안한다. 제안된 시스템에서는 웹에 산재되어 있는 HTML 문서로부터 검색에 필요한 정보들을 자동으로 추출한다. 추출된 자료에 대하여 SQL 기반의 질의 처리가 가능하도록 하였다. 웹 데이터베이스 시스템에서는 대부분의 질의 수행 시간이 통신 회선을 통한 문서 획득에 소요된다. 따라서, 웹 검색의 경우 웹 지역성에 많이 의존한다는 점에 착안하여, 사용자 검색 결과를 캐쉬에 저장하고 유사한 응용에서 이를 재사용 하고자 한다. 이때 캐쉬에 저장된 정보들을 검색된 질의와 연관하여 저장함으로써 좀더 사용자 응용을 고려한 캐쉬 관리기법을 제안하였다. 또한 위와 같은 개념에 입각한 웹 검색엔진을 구하였다.

  • PDF