• 제목/요약/키워드: 웹분류

검색결과 894건 처리시간 0.032초

인트라넷 기반의 최적의 웹문서 자동 분류기법 선정 (The selection of Best suited Automatic Web Document Classification Based on Intranet)

  • 김국희;윤희병
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 추계학술대회 학술발표 논문집 제14권 제2호
    • /
    • pp.423-426
    • /
    • 2004
  • 인트라넷에서는 증가하는 웹문서의 검색을 목적으로 웹 검색엔진의 도입이 활발히 진행 중이며 대부분 찾아야할 키워드를 알고 접근하는 검색엔진 형태이다. 그러나 사용자가 무엇을 찾아야 하는지 모르는 경우 웹문서 분류체계는 효율적인 방법을 제시할 수 있다. 일부 구축되어 있는 분류체계는 수작업에 의한 분류로 인해 증가하는 웹문서의 양에 효율적으로 대처하기 곤란하므로 자동분류기법을 활용한 분류가 더 효율적일 것이다. 본 논문에서는 국방인트라넷의 수작업으로 구축된 분류체계를 대상으로 용어 가중치를 계산하는 방법을 달리하여 다양한 분류기법을 적용하여 성능을 비교평가하고 웹문서 자동분류시스템에 적용하여 분류성능의 향상을 도모하고자 한다.

  • PDF

메타 태그를 이용한 자동 웹페이지 분류 시스템 (An Automatic Web Page Classification System Using Meta-Tag)

  • 김상일;김화성
    • 한국통신학회논문지
    • /
    • 제38B권4호
    • /
    • pp.291-297
    • /
    • 2013
  • 최근 월드 와이드 웹(World Wide Web)의 사용이 폭발적으로 증가함에 따라 다양한 정보를 포함하고 있는 웹 페이지들의 양도 엄청나게 증가 하였다. 따라서 웹상에 존재 하고 있는 웹페이지들에 대한 접근을 용이하게 하고, 그룹화를 통한 검색을 가능하게 하기 위해 웹 페이지 분류의 필요성이 대두 되고 있다. 웹 페이지 분류는 기존의 웹 상에 산재 되어 있는 웹페이지들을 비슷한 문서 유형 또는 같은 키워드를 사용하는 문서들의 묶음으로 구분하는 작업을 의미하며, 웹 페이지 분류 기술은 웹페이지 검색, 그룹 검색, 메일 필터링 등의 분야에 응용될 수 있는 기술이다. 하지만 웹상에 존재하는 웹페이지들을 사람이 수동적으로 분류하는 방법으로는 현재 월드 와이드 웹에 존재하는 엄청난 양의 웹페이지들을 처리할 수 없으며, 자동적인 분류 방법 역시 서로 다른 형태로 작성된 웹페이지들을 정확하게 분류할 수 없다는 문제로 인해 한계를 보이고 있다. 본 논문에서는 서로 다른 형태로 작성된 웹 문서들에 대한 부정확한 분류 문제를 해결하기위해 웹페이지에 존재하는 메타 정보를 획득하여 자동적으로 분류하는 메타 태그기반의 자동화된 웹페이지 분류 시스템을 제안하였다.

웹 문서 수집을 위한 효율적인 문서 분류 (Efficient Document Classification for Web Document Collection)

  • 이정훈;전서현;김선희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.397-401
    • /
    • 2006
  • 최근 다양한 형식의 웹 문서에서 사용자가 원하는 정보만을 검색 하기위해 웹 문서를 주제별로 분류하여 수집하고, 관리하는 것은 필수적인 요소이다. 즉, 정확하고 빠른 정보 검색을 위한 웹 문서 수집은 문서 형식에 따라 분류되어 수집 되어야 한다. 따라서 웹 환경에서 문서를 구성하는 형식을 텍스트나 이미지 데이터로 구분하고 그 형식에 맞는 분류기법을 사용한다면 정확한 정보 검색이 이루어 질수 있다. 본 논문에서는 텍스트와 URL을 이용한 주제 중심의 하이브리드 웹 문서 분류 방법을 제안한다. 텍스트와 URL을 이용한 분류 방법은 텍스트 형식은 주제 중심의 문서 분류방식을 사용하며, 텍스트 정보의 효용성이 낮은 경우 URL의 주제 분포도를 이용하여 분류하며 수집한다. 이를 통해 여러 가지 형식의 웹 문서가 분류 가능하며, 주제에 따른 문서 분류의 정확도가 높아진다.

  • PDF

웹문서분류체계의 설계 (Design for the System of Web Document Classification)

  • 남영준
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1998년도 제5회 학술대회 논문집
    • /
    • pp.183-188
    • /
    • 1998
  • 인터넷에 존재하는 웹 문서와 사이트들은 충분히 학술적 가치를 갖고 있기 때문에 중요한 정보원으로 간주된다. 도서관은 이 새로운 정보원을 대상으로 도서관 이용자를 위한 새로운 검색기법과 관리기법을 개발할 필요가 증대되었다. 왜냐하면 현재 웹 검색 엔진에서 제공하는 분류체계는 도서관학적 관점에서 개발되지도 않았으며 또한 웹 검색엔진간 분류체계의 설계원칙도 없기 때문이다. 본 논문에서는 이점에 착안하여 웹문서를 효율적으로 검색할 수 있는 실험적인 새로운 웹 문서분류체계를 설계하였다. 설계는 해당 분류항목과 연관된 웹 문서의 수와 접속비율에 근거하였으며, 설계의 수준은 1차적으로 류·강 항목까지 제한하였다.

  • PDF

지능적 웹 이미지 검색 엔진의 설계 (Design of Intelligeng Web Image Search Engine)

  • 박명선;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.51-53
    • /
    • 1999
  • 기존의 웹 이미지 검색 엔진은 웹 이미지를 검색할 때 웹 이미지의 특징과, 웹 이미지를 포함한 HTML 문서의 텍스트를 이용한다. 그러나, 텍스트는 문맥에 따라 의미가 달라질 수 있으므로, 검색 대상을 미리 분류하면 검색 효율을 높일 수 있다. 본 논문은 웹 문서의 텍스트에서 이미지와 관련이 있는 이미지 설명 텍스트를 자동으로 추출하고, 검색 효율을 높이기 위하여 웹 이미지를 자동으로 분류하는 지능적 웹 이미지 검색 엔진을 제안한다. 지능적 웹 이미지 검색 엔진은 분류와 용어, 용어와 용어 사이의 연관도를 이용하여 분류의 정확도를 높인다.

  • PDF

웹 페이지에서의 자질 선택과 분류 (Feature Selection and Classification of Web Pages)

  • 송무희;임수연;박성배;강동진;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.796-798
    • /
    • 2004
  • 본 논문에서는 웹 문서의 분류 성능을 향상시키기 위해 웹 페이지에서의 자질선택과 그에 따른 웹 문서 분류 방법을 제안한다. 문서 분류에는 문서에 포함된 단어를 분류 자질로 사용하게 되며 이때 한 문서의 모든 단어를 분류 자질로 이용한다고 좋은 성능을 보인다고 보장할 수는 없다. 그러므로 문서에 필요한 단어만을 자동으로 추출하여 문서데이터의 자질을 축소하는 작업이 필요하다. 따라서 본 논문에서는 모집군 내의 자질벡터의 범위가 큰 것을 적은 수의 주요성분으로 감소시키기 위해 통계적 분석 기법중의 하나인 주성분분석 방법을 이용하여 자질감소와 그에 따른 문서분류의 성능 향상을 실험을 통하여 보인다. 야후 스포츠 뉴스 웹 페이지가 분류를 위해 사용되었으며, 분류기로는 Naive Bayesian 분류 방법을 사용하였다. 실험 결과를 통해 본 논문에서 제안한 뉴스 웹페이지 분류 방법이 스포츠 뉴스 데이터 군에서 만족할 만한 분류 정확도를 제공한다는 것을 알 수 있다.

  • PDF

한국십진분류법 웹 버전 개발을 위한 기능요건 연구 (A Study on Function Requirements for the Development of a Web Version of Korean Decimal Classification)

  • 양정윤
    • 정보관리학회지
    • /
    • 제40권4호
    • /
    • pp.147-165
    • /
    • 2023
  • 4차 산업혁명을 대표하는 신기술들이 이미 도서관 서비스에 구현이 되고 있다. 그러나 전통적인 사서 업무이자 향후 지속해야 하는 '분류' 업무에 새로운 기술을 도입하여 업무 효율을 증대하고자 하는 방안 연구는 활발하지 않다. 해외 웹 버전 분류법인 WebDewey, Classification Web, UDC Online은 2000년대 초반에 개발되어 현재는 인쇄본보다 웹 버전이 더 활발히 사용되고 있고, 2018년 이후 듀이십진 분류법(DDC)은 더 이상 인쇄본을 발간하지 않고 있다. 본 연구는 WebDewey, Classification Web, UDC Online 사례를 분석하고, 한국십진분류법(KDC) 웹 버전 개발을 위해 필요한 기능을 도출하여, AHP 분석을 통해 KDC 웹 버전 개발에 타당한 최종적인 기능을 제안했다.

웹 에이전트를 위한 문서 자동 분류 (Document Autoclustering for Web Agent)

  • 양찬범;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.54-56
    • /
    • 1999
  • 웹 에이전트는 사용자가 웹을 브라우징하는 행위를 모니터하여 사용자의 관심정보를 학습하고 사용자가 필요로 한느 웹 상의 정보를 제공하는 시스템이다. 웹 에이전트는 사용자의 관심정보를 추출하기 위해서 귀납적 기계학습을 수행한다. 이때, 학습의 효율을 높이기 위해서는 관련이 있는 문서들을 그룹화하여 학습 시스템에 제공하여야 한다. 본 논문에서는 비감독 개념 학습 알고리즘인 COBWEB을 이용하여 사용자가 관심을 표시한 문서들의 분류트리를 생성한다. 분류트리는 귀납적 기계학습 시스템의 입력으로 사용될 수 있는 형태가 아니므로 분류 트리의 분석과 문서 분류 후처리 작업을 통해서 문서 집합을 생성해야 한다. 이를 위해서는 분류트리를 분석하여 초기 클러스터를 생성하고, 유사한 클러스터들의 병합을 수행한다. 본 논문에서 제안하는 문서 자동 분류 방식은 비감독 개념 학습 알고리즘이 생성한 문서 분류 트리의 분석을 통해서 충분한 유사도와 적절한 수의 문서를 포함하는 초기 클러스터를 생성할 수 있다. 그러므로 문서 분류의 후처리 작업인 클러스터의 병합 작업에서 불필요한 작업을 제거함으로서 보다 효과적이고 합리적인 문서 분류 작업을 수행한다.

  • PDF

웹 사용 마이닝을 위한 SASOM+DT를 이용한 웹 데이터의 분류 (Classification of Web Data Using SASOM+DT for Web Usage Mining)

  • 유시호;김경중;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.346-348
    • /
    • 2002
  • 웹 마이닝은 크게 구조 마이닝, 컨텐츠 마이닝, 사용 마이닝으로 분류될 수 있다. 이 중에서도 사용 마이닝은 사용자의 로그 데이터를 바탕으로 사용자가 탐색한 웹 페이지의 순서를 추출하거나 연관관계를 분석하는 작업이다. 특히 웹에 기반을 둔 애플리케이션의 요구를 충족시키기 위해서 사용 마이닝은 웹 마이닝에 있어서 중요한 부분으로 부각되고 있다. 본 논문에서는 사용자들의 웹 페이지의 방문 패턴을 분석하여, 미래행동을 예측하는 것을 문제로 삼고, 사용자들의 이용패턴을 SASOM(Strtcture-Adaptive SOM)분류기들의 DT(Decision Tree)앙상블을 이용하여 분류하는 방법을 제안해보았다. MS웹 데이터를 가지고 SASOM 분류기의 집합을 DT를 이용하여 결합한 결과, 분류기 하나만 사용한 경우 보다 더 좋은 결과를 얻어, 3.5% 이하의 낮은 오류율을 보였다.

  • PDF

문서분류 기법을 이용한 웹 문서 분류의 실험적 비교 (Empirical Analysis & Comparisons of Web Document Classification Methods)

  • 이상순;최정민;장근;이병수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.154-156
    • /
    • 2002
  • 인터넷의 발전으로 우리는 많은 정보와 지식을 인터넷에서 제공받을 수 있으며 HTML, 뉴스그룹 문서, 전자메일 등의 웹 문서로 존재한다. 이러한 웹 문서들은 여러가지 목적으로 분류해야 할 필요가 있으며 이를 적용한 시스템으로는 Personal WebWatcher, InfoFinder, Webby, NewT 등이 있다. 웹 문서 분류 시스템에서는 문서분류 기법을 사용하여 웹 문서의 소속 클래스를 결정하는데 문서분류를 위한 기법 중 대표적인 알고리즘으로 나이브 베이지안(Naive Baysian), k-NN(k-Nearest Neighbor), TFIDF(Term Frequency Inverse Document Frequency)방법을 이용한다. 본 논문에서는 웹 문서를 대상으로 이러한 문서분류 알고리즘 각각의 성능을 비교 및 평가하고자 한다.

  • PDF