• 제목/요약/키워드: Web text

검색결과 819건 처리시간 0.025초

웹 컨텐츠의 분류를 위한 텍스트마이닝과 데이터마이닝의 통합 방법 연구 (Interplay of Text Mining and Data Mining for Classifying Web Contents)

  • 최윤정;박승수
    • 인지과학
    • /
    • 제13권3호
    • /
    • pp.33-46
    • /
    • 2002
  • 최근 인터넷에는 기존의 데이터베이스 형태가 아닌 일정한 구조를 가지지 않았지만 상당한 잠재적 가치를 지니고 있는 텍스트 데이터들이 많이 생성되고 있다. 고객창구로서 활용되는 게시판이나 이메일, 검색엔진이 초기 수집한 데이터 둥은 이러한 비구조적 데이터의 좋은 예이다. 이러한 텍스트 문서의 분류를 위하여 각종 텍스트마이닝 도구가 개발되고 있으나, 이들은 대개 단순한 통계적 방법에 기반하고 있기 때문에 정확성이 떨어지고 좀 더 다양한 데이터마이닝 기법을 활용할 수 있는 방법이 요구되고 있다. 그러나, 정형화된 입력 데이터를 요구하는 데이터마이닝 기법을 텍스트에 직접 적용하기에는 많은 어려움이 있다. 본 연구에서는 이러한 문제를 해결하기 위하여 전처리 과정에서 텍스트마이닝을 수행하고 정제된 중간결과를 데이터마이닝으로 처리하여 텍스트마이닝에 피드백 시켜 정확성을 높이는 방법을 제안하고 구현하여 보았다. 그리고, 그 타당성을 검증하기 위하여 유해사이트의 웹 컨텐츠를 분류해내는 작업에 적용하여 보고 그 결과를 분석하여 보았다. 분석 결과, 제안방법은 기존의 텍스트마이닝만을 적용할 때에 비하여 오류율을 현저하게 줄일 수 있었다.

  • PDF

웹 기반에서의 실시간 원격교육을 위한 멀티미디어 플렛폼 설계 및 구현 (Design and Implementation of a Multimedia Platform for a Realtime Distant Education on the Web)

  • 손형도;김윤홍;강승찬;박병수;김일태
    • 한국멀티미디어학회논문지
    • /
    • 제2권4호
    • /
    • pp.419-429
    • /
    • 1999
  • 본 논문에서는 멀티미디어 원격 CAI(Computer Assistant Instruction) 기술과 자바(Java) 기술을 이용하여 웹을 기반으로 하는 실시간 원격교육 시스템을 설계하고 구현하였다. 본 시스템은 웹 기반의 코스웨어(Courseware) 및 텍스트 기반의 문자강의 그리고 원격OHP를 실시간으로 제공한다. 코스웨어는 컴퓨터 기초교육을 제공하며 , 오소웨어 (Authorware)를 이용하여 구축하였다 실시간 원격교육을 위한 문자강의 및 원격 OHP의 클라이언트/서버 프로그램은 자바 애플릿(Applet)과 자바 애플리케이션(Application)으로 개발되었고, 자바 서블릿(Servlet)을 이용하여 본 시스템의 CGI프로그램을 작성하였다.

  • PDF

A Study of Main Contents Extraction from Web News Pages based on XPath Analysis

  • Sun, Bok-Keun
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권7호
    • /
    • pp.1-7
    • /
    • 2015
  • Although data on the internet can be used in various fields such as source of data of IR(Information Retrieval), Data mining and knowledge information servece, and contains a lot of unnecessary information. The removal of the unnecessary data is a problem to be solved prior to the study of the knowledge-based information service that is based on the data of the web page, in this paper, we solve the problem through the implementation of XTractor(XPath Extractor). Since XPath is used to navigate the attribute data and the data elements in the XML document, the XPath analysis to be carried out through the XTractor. XTractor Extracts main text by html parsing, XPath grouping and detecting the XPath contains the main data. The result, the recognition and precision rate are showed in 97.9%, 93.9%, except for a few cases in a large amount of experimental data and it was confirmed that it is possible to properly extract the main text of the news.

웹 프로그래밍 학습을 위한 자기주도적 코스웨어의 설계 및 구현 (Design and Implementation of Self-Directed Courseware to Study Web Programming)

  • 정유진;박은희
    • 한국콘텐츠학회논문지
    • /
    • 제9권2호
    • /
    • pp.453-461
    • /
    • 2009
  • 본 논문에서는 Html, CSS, JavaScript, Dhtml 등의 웹 언어를 자기주도적으로 학습할 수 있는 웹-기반 코스웨어를 설계하고 구현하였다. 각 단원별로 이론 학습 및 동영상 학습, 실습, 형성평가, 과제실과 자유 게시판으로 이루어져 있으며, 교수자가 그러한 학습내용을 토대로 평가가 가능하도록 하여 웹상에서 교육, 평가, 성적을 처리할 수 있도록 구현하였다. 특히, 한 화면에서 동영상을 보면서 화면의 이동 없이 따라하며 실습하고 결과보기를 할 수 있어, 웹 언어 학습 내용을 학습자 스스로 충분히 숙지하고 실습할 수 있는 웹-기반 학습 환경을 제공한다. 이를 통하여 학습자는 텍스트로 즉각적으로 이해하기 어려운 웹 언어를 효율적으로 실습해 볼 수 있어 학습 이해도를 높일 수 있고 학습자가 주도적으로 학습에 참여하여 흥미를 높일 수 있게 하였다.

쿠키를 이용한 웹 보안시스템 설계 및 구현 (The design and Implementation of Web Security System using the Cookies)

  • 송기평;박기식;한승희;조인준
    • 정보보호학회논문지
    • /
    • 제11권4호
    • /
    • pp.3-14
    • /
    • 2001
  • 웹 서버는 HTTP(Hyper Text Transfer Protocol) 통신프로토콜을 사용한다. HTTP 프로토콜은 서버가 다음 통신절차에서 필요한 클라이언트의 상태정보를 유지하지 않는 특성을 지니고 있다. 따라서, 웹 서버는 클라이언트의 요구에 대응한 응답메시지 전송과 동시에 클라이언트에 관련된 모든 정보를 제거한다. 이러한 HTTP 프로토콜의 특성은 클라이언트 사용자에게 반복된 정보입력 부담을 요구케 한다. 이러한 불편 해결책으로 쿠키(Cookie)기술이 구현되어 활용되고 있다. 하지만, 쿠키는 평문형태로 전송되고 저장되기 때문에 정보가 쉽게 노출될 수 있다. 따라서, 쿠키정보가 유출, 복사, 수정이 가능하여 안전하지 않다. 본 논문에서는 이러한 웹 환경에서의 쿠키 특성에 착안하여 안전한 쿠키를 제시하고, 이를 이용하여 웹 보안시스템을 설계 및 구현하였다. 구현된 시스템은 어떤 웹 환경에서나 활용이 가능하고, 사용자 기밀정보의 기밀성 보장과 더불어 인증, 무결성 등의 보안서비스를 제공한다.

Main Content Extraction from Web Pages Based on Node Characteristics

  • Liu, Qingtang;Shao, Mingbo;Wu, Linjing;Zhao, Gang;Fan, Guilin;Li, Jun
    • Journal of Computing Science and Engineering
    • /
    • 제11권2호
    • /
    • pp.39-48
    • /
    • 2017
  • Main content extraction of web pages is widely used in search engines, web content aggregation and mobile Internet browsing. However, a mass of irrelevant information such as advertisement, irrelevant navigation and trash information is included in web pages. Such irrelevant information reduces the efficiency of web content processing in content-based applications. The purpose of this paper is to propose an automatic main content extraction method of web pages. In this method, we use two indicators to describe characteristics of web pages: text density and hyperlink density. According to continuous distribution of similar content on a page, we use an estimation algorithm to judge if a node is a content node or a noisy node based on characteristics of the node and neighboring nodes. This algorithm enables us to filter advertisement nodes and irrelevant navigation. Experimental results on 10 news websites revealed that our algorithm could achieve a 96.34% average acceptable rate.

이미지 손실없는 확대/축소가 가능한 아바타 생성 시스템 (The Avata Construction System for Image Lossless Scaling)

  • 김원중;장미화
    • 한국정보통신학회논문지
    • /
    • 제6권2호
    • /
    • pp.181-189
    • /
    • 2002
  • 본 논문에서는 차세대 마크업 언어로 각광받고 있는 XML(extensible Markup Language)의 그래픽 표준인 SVG(Scalable Vector Graphic)를 이용하여 어떤 단말기에서도 같은 형식으로 디스플레이 되고, 사용자가 원하는 형태로 이미지의 손상없이 수정이 가능하여 각 부분 요소의 재사용성을 크게 높인 아바타(웹 캐릭터) 생성 시스템을 설계 및 구현하였다. SVG는 텍스트로 기술되기 때문에 그래픽에 대한 검색이 편리하고, 어플리케이션들이 SVG문서를 쉽게 사용할 수 있으며, 선, 폴리곤, 텍스트, 이미지 등의 모든 그래픽 요소에 쉽게 접근할 수 있으므로 데이터베이스와 연동하여 웹 그래픽 문서를 동적으로 생성할 수 있다. 또한 연구 결과를 이용하여 웹 상에서 발생할 수 있는 어떠한 컨텐츠에도 사용할 수 있는 기술을 구현할 수 있을 것이다.

A Big Data Study on Viewers' Response and Success Factors in the D2C Era Focused on tvN's Web-real Variety 'SinSeoYuGi' and Naver TV Cast Programming

  • Oh, Sejong;Ahn, Sunghun;Byun, Jungmin
    • International Journal of Advanced Culture Technology
    • /
    • 제4권2호
    • /
    • pp.7-18
    • /
    • 2016
  • The first D2C-era web-real variety show in Korea was broadcast via tvN of CJ E&M. The web-real variety program 'SinSeoYuGi' accumulated 54 million views, along with 50 million views at the Chinese portal site QQ. This study carries out an analysis using text mining that extracts portal site blogs, twitter page views and associative terms. In addition, this study derives viewers' response by extracting key words with opinion mining techniques that divide positive words, neutral words and negative words through customer sentiment analysis. It is found that the success factors of the web-real variety were reduced in appearance fees and production cost, harmony between actual cast members and scenario characters, mobile TV programing, and pre-roll advertising. It is expected that web-real variety broadcasting will increase in value as web contents in the future, and be established as a new genre with the job of 'technical marketer' growing as well.

웹문서 내의 극좌표계 텍스트 배치를 위한 CSS3 확장사양 설계 (Design of CSS3 Extensions for Polar-Coordinate Text Layout in Web Documents)

  • 심승민;임순범
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권10호
    • /
    • pp.537-545
    • /
    • 2016
  • 최근 스마트워치 등 원형 기기들이 출시되고, 빅데이터 시대로 데이터 시각화 분야가 주목을 받으면서 글자의 원형 배치에 대한 요구가 증가하고 있다. 하지만 현재 웹문서에서 글자를 원형이나 부채꼴로 배치하는 방법을 따로 지원하지 않는다. 이에 따라 본 연구는 웹브라우저 환경에서 CSS 스타일시트와 HTML로 표현되어 있는 웹문서 내의 글자를 원이나 부채꼴의 중심을 기준으로 하는 극좌표계로 배치할 수 있도록 CSS3 사양을 확장하였다. CSS3 사양 확장에 앞서 사례조사를 통하여 극좌표계 표현에 대한 요구사항을 분석하였으며 기존의 사각형이 아닌 부채꼴 서식모델을 제안하고 이에 맞추어 세부적인 텍스트 배치 사양을 정의하였다. 또한, 확장된 CSS3 사양으로 작성한 콘텐츠를 기존 브라우저에서 확인할 수 있도록 전처리기를 구현하고 샘플 콘텐츠를 작성하여 제안한 확장사양의 적합성을 검증하였다.

A Technical Approach for Suggesting Research Directions in Telecommunications Policy

  • Oh, Junseok;Lee, Bong Gyou
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권12호
    • /
    • pp.4467-4488
    • /
    • 2014
  • The bibliometric analysis is widely used for understanding research domains, trends, and knowledge structures in a particular field. The analysis has majorly been used in the field of information science, and it is currently applied to other academic fields. This paper describes the analysis of academic literatures for classifying research domains and for suggesting empty research areas in the telecommunications policy. The application software is developed for retrieving Thomson Reuters' Web of Knowledge (WoK) data via web services. It also used for conducting text mining analysis from contents and citations of publications. We used three text mining techniques: the Keyword Extraction Algorithm (KEA) analysis, the co-occurrence analysis, and the citation analysis. Also, R software is used for visualizing the term frequencies and the co-occurrence network among publications. We found that policies related to social communication services, the distribution of telecommunications infrastructures, and more practical and data-driven analysis researches are conducted in a recent decade. The citation analysis results presented that the publications are generally received citations, but most of them did not receive high citations in the telecommunications policy. However, although recent publications did not receive high citations, the productivity of papers in terms of citations was increased in recent ten years compared to the researches before 2004. Also, the distribution methods of infrastructures, and the inequity and gap appeared as topics in important references. We proposed the necessity of new research domains since the analysis results implies that the decrease of political approaches for technical problems is an issue in past researches. Also, insufficient researches on policies for new technologies exist in the field of telecommunications. This research is significant in regard to the first bibliometric analysis with abstracts and citation data in telecommunications as well as the development of software which has functions of web services and text mining techniques. Further research will be conducted with Big Data techniques and more text mining techniques.