• 제목/요약/키워드: web page classification

검색결과 22건 처리시간 0.023초

메타 태그를 이용한 자동 웹페이지 분류 시스템 (An Automatic Web Page Classification System Using Meta-Tag)

  • 김상일;김화성
    • 한국통신학회논문지
    • /
    • 제38B권4호
    • /
    • pp.291-297
    • /
    • 2013
  • 최근 월드 와이드 웹(World Wide Web)의 사용이 폭발적으로 증가함에 따라 다양한 정보를 포함하고 있는 웹 페이지들의 양도 엄청나게 증가 하였다. 따라서 웹상에 존재 하고 있는 웹페이지들에 대한 접근을 용이하게 하고, 그룹화를 통한 검색을 가능하게 하기 위해 웹 페이지 분류의 필요성이 대두 되고 있다. 웹 페이지 분류는 기존의 웹 상에 산재 되어 있는 웹페이지들을 비슷한 문서 유형 또는 같은 키워드를 사용하는 문서들의 묶음으로 구분하는 작업을 의미하며, 웹 페이지 분류 기술은 웹페이지 검색, 그룹 검색, 메일 필터링 등의 분야에 응용될 수 있는 기술이다. 하지만 웹상에 존재하는 웹페이지들을 사람이 수동적으로 분류하는 방법으로는 현재 월드 와이드 웹에 존재하는 엄청난 양의 웹페이지들을 처리할 수 없으며, 자동적인 분류 방법 역시 서로 다른 형태로 작성된 웹페이지들을 정확하게 분류할 수 없다는 문제로 인해 한계를 보이고 있다. 본 논문에서는 서로 다른 형태로 작성된 웹 문서들에 대한 부정확한 분류 문제를 해결하기위해 웹페이지에 존재하는 메타 정보를 획득하여 자동적으로 분류하는 메타 태그기반의 자동화된 웹페이지 분류 시스템을 제안하였다.

온톨로지 기반의 웹 페이지 분류 시스템 (Web Page Classification System based upon Ontology)

  • 최재혁;서혜성;노상욱;최경희;정기현
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.723-734
    • /
    • 2004
  • 본 논문은 온톨로지(ontology)에 기반 한 자동화된 웹 페이지 분류 시스템을 제안한다. 웹 페이지의 분류를 위하여 첫 번째 단계에서는 각 웹 페이지가 속한 범주(category)를 대표할 수 있는 단어를 선정하며, 이를 위하여 단어빈도와 문서빈도를 곱한 값을 계산한다. 두 번째 단계에서는 첫 번째 단계에 의해 선택된 단어의 정보이득(information gain)을 계산해 분류 확률이 높은 단어를 우선적으로 선정한다. 두 단계를 통하여 선정된 단어들과 웹 페이지의 분류 정보를 가지고, 기계학습에 의하여 컴파일 된 규칙(compiled rules)을 생성한다. 생성된 규칙은 임의의 웹 페이지들을 도메인 온톨로지에 의해 정의된 범주 별로 분류할 수 있도록 한다. 본 논문의 실험에서는 주어진 웹 페이지 집합에서 각 범주 별로 평균 240개의 단어로부터 78개의 단어를 결과적으로 선정하였으며, 이를 바탕으로 웹 페이지 분류 규칙을 생성하였다. 실험 결과에서 제안한 시스템의 평균 분류 정확도는 약 83.52%로 측정되었다.

웹페이지 분석을 위한 딥러닝 모델 학습과 구현에 관한 연구 (Research on Training and Implementation of Deep Learning Models for Web Page Analysis)

  • 김정환;조재원;김진산;이한진
    • 문화기술의 융합
    • /
    • 제10권2호
    • /
    • pp.517-524
    • /
    • 2024
  • 본 연구는 ChatGPT 서비스의 개시 이후 인공지능 혁명이라 일컬어지는 시대적 배경 속에서, 웹사이트의 제작과 인공지능의 융합을 위해 딥러닝 모델을 학습 및 구현하고자 한다. 딥러닝 모델은 수집한 3,000개의 웹페이지 이미지를 구성요소와 레이아웃 분류체계 기반의 데이터 가공을 통해 학습하였으며, 다음과 같은 세 가지 단계로 구분하여 진행하였다. 첫째, 인공지능 모델에 관한 선행연구를 조사하여 구현하고자 하는 모델에 가장 적합한 알고리즘을 선택하였다. 둘째, 적합한 웹페이지 및 단락 이미지를 수집하고 분류 및 가공하였다. 셋째, 딥러닝 모델을 학습시키고 서빙 인터페이스를 연동해 모델의 실제 결과를 확인하였다. 이렇게 구현된 모델은 실제 웹페이지를 구성하는 복수의 단락을 탐지하고, 단락별 규모, 요소, 특징을 분석하여 분류체계를 기반으로 의미 있는 데이터를 도출할 것이다. 이 과정은 점차 발전하여 웹페이지를 보다 정밀하게 분석할 수 있게 될 것이다. 그리고 정밀 분석기법을 역으로 설계하여, 인공지능이 완벽한 웹페이지를 자동으로 생성할 수 있는 연구의 초석이 될 것으로 기대한다.

Optimal dwelling time prediction for package tour using K-nearest neighbor classification algorithm

  • Aria Bisma Wahyutama;Mintae Hwang
    • ETRI Journal
    • /
    • 제46권3호
    • /
    • pp.473-484
    • /
    • 2024
  • We introduce a machine learning-based web application to help travel agents plan a package tour schedule. K-nearest neighbor (KNN) classification predicts the optimal tourists' dwelling time based on a variety of information to automatically generate a convenient tour schedule. A database collected in collaboration with an established travel agency is fed into the KNN algorithm implemented in the Python language, and the predicted dwelling times are sent to the web application via a RESTful application programming interface provided by the Flask framework. The web application displays a page in which the agents can configure the initial data and predict the optimal dwelling time and automatically update the tour schedule. After conducting a performance evaluation by simulating a scenario on a computer running the Windows operating system, the average response time was 1.762 s, and the prediction consistency was 100% over 100 iterations.

Research on the Design of a Deep Learning-Based Automatic Web Page Generation System

  • Jung-Hwan Kim;Young-beom Ko;Jihoon Choi;Hanjin Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권2호
    • /
    • pp.21-30
    • /
    • 2024
  • 본 연구는 폭증하는 디지털 비즈니스의 수요 증가를 감당하기 위하여 AI를 활용한 새로운 제작 방법을 모색하는데 목적이 있다. 이에 딥러닝과 빅데이터를 기반으로 실제 웹페이지 생성 가능 시스템을 구축하고자 하였다. 첫째, 이커머스 웹사이트 기능을 바탕으로 분류체계를 수립하였다. 둘째, 웹페이지 구성요소의 유형을 체계적으로 분류하였다. 셋째, 딥러닝이 적용가능한 웹페이지 자동생성시스템 전체를 설계하였다. 실제 데이터를 학습하여 구현된 딥러닝 모델이 기존 웹사이트를 분석하고 자동생성되도록 재설계 함으로써, 산업에서 바로 사용가능한 방안을 제안했다. 나아가 체계가 부족했던 웹사이트 레이아웃 및 특징에 대한 분류체계를 수립했다는 측면에서 의의가 있다. 이는 향후 생성형 AI 기반의 웹사이트 연구 및 산업 분야에 크게 기여할 수 있을 것이다.

정보통신 예비창업자를 위한 Web 기반 우위기술 도출 시스템 구축에 관한 연구 (The Research of Web Based superior Technology Classification system for Information and Communications venture entrepreneur.)

  • 정민하;최문기
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 춘계정기학술대회 e-Business를 위한 지능형 정보기술 / 한국지능정보시스템학회
    • /
    • pp.175-184
    • /
    • 2000
  • Recently Venture business in the area of information and communication industry is booming. Though Technology classification chart helps the potential entrepreneur through Survey paper and Internet Web Page, its service does not meet the customer demand. Hence Technology Classification system, which is proposed in this paper, will solve this problem by using virtual network among venture, technology experts and potential entrepreneurs. This system supports potential entrepreneurs' decision making for choice of venture business items by using dual client technology, and provides better services than existing systems by linking expert client and customer client, .

  • PDF

컨텍스트 기반의 웹 애플리케이션 설계 방법론 (Context-based Web Application Design)

  • 박진수
    • 한국전자거래학회지
    • /
    • 제12권2호
    • /
    • pp.111-132
    • /
    • 2007
  • 웹 기능의 향상과 웹 관련 기술의 발전, 레거시 시스템과의 통합 필요성 증대, 자주 변하는 웹 콘텐츠와 구조 등으로 인하여 웹 애플리케이션을 개발하고 관리하는 일이 과거보다 훨씬 더 복잡하게 되었다. 그러나 이러한 다양한 요인들을 고려하는 포괄적인 웹 애플리케이션 설계 방법론은 아직 존재하지 않고 있다. 따라서 본 연구에서는 이러한 요인들을 고려한 컨텍스트 기반의 웹 애플리케이션 설계 방법론을 제시하고자 한다. 본 연구에서 제시하는 방법론에서는 웹 정보를 전달하는 메커니즘에 따라 구분되는 9 종류의 웹 페이지 형태와 웹 페이지 간의 다양한 의미 관계를 정의하는 7 종류의 링크 형태 및 설계 과정 중에 사용되는 여러 종류의 컴포넌트 역할을 구별하는 소프트웨어 컴포넌트 형태 등 다양한 종류의 모델링 기법들을 소개하고 있다. 뿐만 아니라 이 방법론은 '콤펜디엄(compendium)' 이라 불리는 일단의 관련된 정보 클러스터들로 이루어진 독창적인 웹 애플리케이션 모델을 사용하고 있다. 하나의 콤펜디엄은 주제(theme), 컨텍스트 페이지, 링크 및 컴포넌트로 구성된다. 이러한 접근 방법은 모듈 방식의 설계에 유용할 뿐만 아니라 항상 변하는 웹 애플리케이션의 콘텐츠와 구조를 관리하는데도 도움이 된다. 본 연구에서 제시한 방법론은 의미적으로 응집력이 있고 구문적으로 느슨히 결합된 유연한 웹 디자인 산출물을 생성하는데 도움이 될 것이다.

  • PDF

Classifying Malicious Web Pages by Using an Adaptive Support Vector Machine

  • Hwang, Young Sup;Kwon, Jin Baek;Moon, Jae Chan;Cho, Seong Je
    • Journal of Information Processing Systems
    • /
    • 제9권3호
    • /
    • pp.395-404
    • /
    • 2013
  • In order to classify a web page as being benign or malicious, we designed 14 basic and 16 extended features. The basic features that we implemented were selected to represent the essential characteristics of a web page. The system heuristically combines two basic features into one extended feature in order to effectively distinguish benign and malicious pages. The support vector machine can be trained to successfully classify pages by using these features. Because more and more malicious web pages are appearing, and they change so rapidly, classifiers that are trained by old data may misclassify some new pages. To overcome this problem, we selected an adaptive support vector machine (aSVM) as a classifier. The aSVM can learn training data and can quickly learn additional training data based on the support vectors it obtained during its previous learning session. Experimental results verified that the aSVM can classify malicious web pages adaptively.

STW를 이용한 웹 문서 장르 분류에 관한 연구 (A Research for Web Documents Genre Classification using STW)

  • 고병규;오군석;김판구
    • 정보화연구
    • /
    • 제9권4호
    • /
    • pp.413-422
    • /
    • 2012
  • 웹 문서의 지속적인 증가로 인해 텍스트 기반, Page Rank 등의 방법으로 한 연구들이 증가하고 있다. 특히 웹 문서 내 URL 정보, HTML Tag 정보 등을 활용하는 연구들이 다시 주목을 받고 있다. 따라서 웹 문서 장르 분류를 위해 앞서 언급한 웹 문서 내 특징 요소들을 바탕으로 본 논문에서는 STW(Semantic Term Weight)를 적용하여 웹 문서 장르 분류하는 연구를 기술한다. 웹 문서 장르 분류에 사용되는 데이터 셋은 학습 문서와 테스트 문서로 구성되고, SVM 알고리즘을 사용하여 웹 문서 분류 실험을 수행한다. 학습 과정을 위해 20-Genre-collection corpus 내 1,000여개의 문서를 선정하여 SVM 알고리즘을 통해 학습하였고, 테스트 과정에서 사용된 데이터 셋은 KI-04 corpus를 사용하였다. 테스트 과정 후 STW를 사용한 실험과 STW를 사용하지 않은 실험으로 분류하여 정확도를 측정하였다. 또한 이를 바탕으로 1,212개의 테스트 문서를 분류하였다. 그 결과 STW를 사용한 실험 이 그렇지 않은 실험 보다 약 10.2% 높은 정확도를 보였다.

연관도를 계산하는 자동화된 주제 기반 웹 수집기 (An Automated Topic Specific Web Crawler Calculating Degree of Relevance)

  • 서혜성;최영수;최경희;정기현;노상욱
    • 인터넷정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.155-167
    • /
    • 2006
  • 인터넷을 사용하는 사람들에게 그들의 관심사와 부합하는 웹 페이지를 제공하는 것은 매우 중요하다. 이러한 관점에서 본 논문은 각 웹 페이지의 주제와 연관된 정도를 계산하여 웹 페이지 군(cluster)을 형성하며, 단어빈도/문서빈도 엔트로피(entropy) 및 컴파일된 규칙을 이용하여 수집된 웹 페이지를 정제하는 주제 기반 웹 수집기를 제안한다. 실험을 통하여 주제 기반 웹 수집기에 대한 분류의 정확성, 수집의 효율성 및 수집의 일관성을 평가하였다. 첫째, C4.5, 역전패(back propagation) 및 CN2 기계학습 알고리즘으로 컴파일한 규칙을 이용하여 실험한 웹 수집기의 분류 성능은 CN2를 사용한 분류 성능이 가장 우수 하였으며, 둘째, 수집의 효율성을 측정하여 각 범주별로 최적의 주제 연관 정도에 대한 임계값을 도출할 수 있었다. 마지막으로, 제안한 수집기의 수집정도에 대한 일관성을 평가하기 위하여 서로 다른 시작 URL을 사용하여 수집된 웹 페이지들의 중첩정도를 측정하였다. 실험 결과에서 제안한 주제 기반 웹 수집기가 시작 URL에 큰 영향을 받지 않고 상당히 일관적인 수집을 수행함을 알 수 있었다.

  • PDF