• 제목/요약/키워드: 웹분류

검색결과 894건 처리시간 0.031초

협력적 필터링을 위해 연관 단어 빈도를 이용한 웹 문서 분류 (Classification of Web Documents Using Associative Word Frequency for Collaborative Filtering)

  • 하원식;정경용;정헌만;류중경;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.160-162
    • /
    • 2004
  • 기존의 웹 문서 분류 시스템서는 많은 시간과 노력을 요구하며, 연관 단어가 아닌 단일 단어만으로 웹 문서들을 분류하여 단어의 중의성을 반영하지 못해 많은 오분류가 있었다. 이러한 문제점을 해결하기 위해 본 논문에서는 협력적 필터링을 위한 연관 단어 빈도를 사용한 웹 문서 분류 방법을 제안한다. 제안된 방법에서는 웹 문서 내에서 단어들을 추출하고 빈도 가중치를 계산한다. 추출된 단어를 Apriori 알고리즘에 의해 연관 규칙을 생성하고 신뢰도에 단어 빈도 가중치를 반영한다. 수정된 신뢰도를 ARHP 알고리즘에 적용하여 연관 단어들 사이의 유사정도를 계산하고 유사 클래스를 구성한다 생성된 유사 클래스들을 기반으로 웹 문서를 $\alpha$-cut을 이용하여 분류한다 성능평가를 위해 기존의 문서 분류 방법들과 비교 평가를 하였다.

  • PDF

온톨로지의 개념구조에 의한 웹페이지의 의미적 분류 (Semantic Classification of Web Pages using Ontology Concept Structure)

  • 송무희;임수연;박승배;강동진;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.487-489
    • /
    • 2005
  • 본 논문에서는 온톨로지의 개념구조를 이용한 웹페이지의 의미적 분류방법을 제안한다. 웹 문서들이 가지는 용어 정보들과 어휘들 간의 개념 구조를 파악하여 온톨로지를 확장시키면서 이를 문서분류에 적용하여 의미적 분류가 이루어지게 한다. 문서 분류는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고 이러한 자질들을 통해 미리 정의된 2개 이상의 카테고리에 문서의 내용을 파악하여 가장 관련이 있는 카테고리로 할당하는 것이다. 본 논문에서는 웹 문서에서 추출한 용어 정보들의 유사도와 온톨로지 카테고리의 유사도를 계산하여 웹 문서를 분류하여 문서 분류를 위한 실험데이터나 학습과정 없이 바로 실시간으로 문서분류가 이루어지며, 결과적으로 온톨로지와 문서들이 가지는 고유한 의미와 관계의 식별을 통하여 보다 더 정확하게 문서분류를 가능하게 해준다.

  • PDF

장르기반 분류와 주제기반 분류를 이용한 웹 로봇의 설계 및 구현 (A Design and Implementation of Web Robot by Using Genre-based Categorization and Subject-based Categorization)

  • 이용배
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.499-506
    • /
    • 2005
  • 특수 전문화된 정보를 자동으로 수집하기 위해서는 인터넷 상을 순회하면서 대규모 자료를 모아오는 현재의 웹 로봇의 기능만으로는 그 역할을 수행하기에 부족함이 있다 따라서 본 논문에서는 현재의 웹 로봇의 기능과 활용도를 분석하여 보고 전문정보를 수집하는데 있어서 한계점을 알아보았다 또한 특수화된 분야의 전문정보를 수집하기 위하여 웹 로봇인 갖추어야 할 기능들을 도출해 내고 이를 설계한 내용을 기술하였다. 웹 로봇에 접목된 주요기능은 문서를 유형기반으로 분류할 수 있는 장르기반 분류와 주제기반으로 분류하는 내용기반 분류이다. 특히 장르기반 분류는 웹 로봇이 목적 문서를 효과적으로 수집할 수 있도록 하는 주요 기능으로 작용하였다.

단백질 구조 분류의 통합 검색을 위한 웹 정보시스템 (A Web-Based Information System for the Integrated Search for Protein Structure Classifications)

  • 신원준;황의윤;김진홍;안건태;이명준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.274-276
    • /
    • 2004
  • 단백질은 대부분 공간상의 특징을 고려할 때 유사한 부분을 기준으로 분류되는 경우가 많다 단백질 구조 분류 데이터베이스는 단백질이 가지는 다양한 구조 정보를 바탕으로 단백질 구조 분류 정보를 제공하고 있다. 대표적인 단백질 구조 분류 데이터베이스에는 CATH와 SCOP 데이터베이스가 있다. 이들 데이터베이스는 서로 다른 구조 분류 기준으로 단백질 구조를 분류하고 있으며, 단백질 구조 분류 정보를 검색하는 웹 서비스를 개별적으로 제공하고 있다. 따라서 여러 종류의 단백질 구조 분류 정보를 하나의 웹 사이트에서 검색할 수 있으면 유용할 것이다. 본 논문에서는 CATH와 SCOP에서 정의한 단백질 구조 분류 정보의 통합적인 검색 기능 일 통계 정보를 체계적으로 제공하는 웹 정보시스템에 관하여 기술한다. 제안된 시스템은 CATH와 SCOP에서 제공하는 각각의 데이터를 가공하여 효과적인 구조 분류 검색을 지원하는 구조화된 데이터베이스를 구축하였다. 개발된 시스템은 PDB 식별자, CAT터 식별자. 그리고 SCOP 식별자 또는 단백질 분류 이름으로 한번의 검색으로 두 데이터베이스에서 제공하는 계층적 구조 분류 정보를 제공한다. 또한, 단백질 구조에 대한 유용한 통계 정보를 제공한다.

  • PDF

다중 구조적응 자기구성지도의 퍼지결합을 이용한 웹 문서 분류 (Web Documents Classification with Fuzzy Integration of Multiple Structure-Adaptive Self-Organizing Maps)

  • 김경중;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.371-373
    • /
    • 2003
  • 웹 문서를 분류하는 목적은 특정 주제별로 중요한 문서들을 구분하려는 것과 사용자의 선호도를 바탕으로 개인화를 하려는 것으로 나누어 볼 수 있다. 특히, 웹의 효율적인 탐색을 위해 사용자가 관심 있어 할 웹 문서를 분류하는 것은 중요하다 일반적으로 하나의 웹 문서는 특징 추출방법에 의해 문서 벡터로 표시되며 사용자의 선호여부나 주제번호를 클래스로 삼는다. 사용자가 선호도를 표시한 웹 문서를 사용하여 새로운 웹 문서의 선호 여부를 예측하기 위해 자기 구성지도(SOM)를 사용하면, 시각적으로 구조를 보여주어 데이터 사이의 관계를 효과적으로 이해할 수 있다. 그러나 SOM은 노드의 개수와 구조를 자동적으로 결정하지 못하는 단점이 있기 때문에, SOM의 장점을 활용하면서 자동적으로 구조를 결정하기 위해 구조적응 자기구성지도(SASOM)를 이용한다. 보다 나은 성능과 다양한 해석을 위해, 여러 개의 SASOM을 서로 다른 특징추출 방법을 이용하여 학습시킨 후 사용자가 주관적으로 분류기의 중요도를 결정할 수 있는 퍼지적분을 사용하여 결합하였다. UCI Syskill & Webert 데이터에 대한 실험결과 기존의 DT, MLP, naive Bayes 분류기 보다 향상된 성능을 보였다.

  • PDF

인공신경망 기반 웹서비스 분류체계 생성 프레임워크의 실증적 평가 (Facilitating Web Service Taxonomy Generation : An Artificial Neural Network based Framework, A Prototype Systems, and Evaluation)

  • 황유섭
    • 지능정보연구
    • /
    • 제16권2호
    • /
    • pp.33-54
    • /
    • 2010
  • 월드와이드웹(WWW)은 유용한 정보를 포함하는 자료들의 집합에서 유용한 작업을 수행할 수 있는 서비스들의 집합으로 변화하고 있다. 새롭게 등장하고 있는 웹서비스 기술은 향후 웹의 기술적 변화를 추구하며 최근의 웹의 변화에 중요한 역할을 수행할 것으로 기대된다. 웹서비스는 어플리케이션 간의 통신을 위한 호환성 표준을 제시하며 기업 내/외를 아우를 수 있는 어플리케이션 상호작용 및 통합을 촉진한다. 웹서비스를 서비스 중심 컴퓨팅환경으로서 운용하기 위해서는 웹서비스 저장소가 완성도 높게 조직화되어 있어야 할 뿐 아니라, 사용자들의 필요에 맞는 웹서비스 컴포넌트를 찾을 수 있는 효율적인 도구들을 제공하여야 한다. 서비스 중심 컴퓨팅을 위한 웹서비스의 중요성이 증대됨에 따라 웹서비스의 분류체계를 효율적으로 제공할수 있는 기법의 수요 또한 증대된다. 다수의 웹서비스 저장소들은 웹서비스 분류체계를 제안하여 왔지만, 대부분의 분류체계는 활용하기에는 제대로 발달하지 못하였거나 관리하기에 너무 어려운 단점을 갖고 있다. 이 논문에서는 인공신경망 기반 군집화 기법과 XML 기반의 웹서비스 기술표준인 WSDL의 의미적가치를 활용하여 웹서비스 분류체계 생성 프레임워크를 제안한다. 이 논문에서 인공신경망을 활용하여 제안하는 웹서비스 분류체계 생성 프레임워크를 프로토타입 시스템로 개발하였으며, 실제 운용되고 있는 웹서비스 저장소로부터 획득한 실제 웹서비스들을 사용하여 제안하는 웹서비스 분류체계 생성 프레임워크를 실증적으로 평가하였다. 또한 제안하는 방식의 효용성을 보여주는 실험결과를 보고한다.

온톨로지 기반의 웹 페이지 분류 시스템 (Web Page Classification System based upon Ontology)

  • 최재혁;서혜성;노상욱;최경희;정기현
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.723-734
    • /
    • 2004
  • 본 논문은 온톨로지(ontology)에 기반 한 자동화된 웹 페이지 분류 시스템을 제안한다. 웹 페이지의 분류를 위하여 첫 번째 단계에서는 각 웹 페이지가 속한 범주(category)를 대표할 수 있는 단어를 선정하며, 이를 위하여 단어빈도와 문서빈도를 곱한 값을 계산한다. 두 번째 단계에서는 첫 번째 단계에 의해 선택된 단어의 정보이득(information gain)을 계산해 분류 확률이 높은 단어를 우선적으로 선정한다. 두 단계를 통하여 선정된 단어들과 웹 페이지의 분류 정보를 가지고, 기계학습에 의하여 컴파일 된 규칙(compiled rules)을 생성한다. 생성된 규칙은 임의의 웹 페이지들을 도메인 온톨로지에 의해 정의된 범주 별로 분류할 수 있도록 한다. 본 논문의 실험에서는 주어진 웹 페이지 집합에서 각 범주 별로 평균 240개의 단어로부터 78개의 단어를 결과적으로 선정하였으며, 이를 바탕으로 웹 페이지 분류 규칙을 생성하였다. 실험 결과에서 제안한 시스템의 평균 분류 정확도는 약 83.52%로 측정되었다.

STW를 이용한 웹 문서 장르 분류에 관한 연구 (A Research for Web Documents Genre Classification using STW)

  • 고병규;오군석;김판구
    • 정보화연구
    • /
    • 제9권4호
    • /
    • pp.413-422
    • /
    • 2012
  • 웹 문서의 지속적인 증가로 인해 텍스트 기반, Page Rank 등의 방법으로 한 연구들이 증가하고 있다. 특히 웹 문서 내 URL 정보, HTML Tag 정보 등을 활용하는 연구들이 다시 주목을 받고 있다. 따라서 웹 문서 장르 분류를 위해 앞서 언급한 웹 문서 내 특징 요소들을 바탕으로 본 논문에서는 STW(Semantic Term Weight)를 적용하여 웹 문서 장르 분류하는 연구를 기술한다. 웹 문서 장르 분류에 사용되는 데이터 셋은 학습 문서와 테스트 문서로 구성되고, SVM 알고리즘을 사용하여 웹 문서 분류 실험을 수행한다. 학습 과정을 위해 20-Genre-collection corpus 내 1,000여개의 문서를 선정하여 SVM 알고리즘을 통해 학습하였고, 테스트 과정에서 사용된 데이터 셋은 KI-04 corpus를 사용하였다. 테스트 과정 후 STW를 사용한 실험과 STW를 사용하지 않은 실험으로 분류하여 정확도를 측정하였다. 또한 이를 바탕으로 1,212개의 테스트 문서를 분류하였다. 그 결과 STW를 사용한 실험 이 그렇지 않은 실험 보다 약 10.2% 높은 정확도를 보였다.

웹 응용 모델링의 요소 분류와 그에 따른 제약조건 기반 모델링 (Classification of Web Application Model ing Elements and Constraints Based Web Application Modeling)

  • 박영주;이기열;이병정;김희천;우치수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.358-360
    • /
    • 2004
  • 웹 어플리케이션은 생명 주기가 짧고, 마르고 정확한 개발이 요구되므로 모델링 단계에서의 요소 분류 및 요소간의 제약조건을 정의할 필요가 있다. 이에 본 연구에서는 각 프레임과 페이지를 그 성격에 따라 집합 프레임과 구조 프레임, 내용 페이지와 구조 정보 페이지로 분류, 이를 바탕으로 요소간의 관계를 정의하였다. 웹 응용 모델링의 요소 분류를 통해 그에 따른 제약 조건을 서술할 수 있는데, 이를 통해 사소한 예측할 수 있는 오류를 피할 수 있고, 웹 응용의 기본적인 테스트 케이스로도 사용할 수 있다.

  • PDF

개념 기반 키워드 정보를 이용한 웹 문서의 자동 분류 (Automatic Classification of Web Documents Using Concept-Based Keyword Information)

  • 박사준;김기태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.151-153
    • /
    • 2003
  • 본 연구에서는 웹 문서를 분류하기 위해서 분류하고자 하는 영역(category)에 대한 개념 지식을 이용한다. 먼저, 영역별 개념 지식을 기구축된 웹 문서의 집합으로부터 제목과 하이퍼링크에 기반한 앵커 텍스트를 이용하여 개념을 보유한 키워드를 추출한다. 추출된 키워드를 형태소 분석을 통해 색인어로 추출한다. 추출된 색인어에 대해 TFIDF를 확장한 영역 적용 색인 가중치 TFIDFc를 적용하여 영역별 개념 기반 색인어와 색인를 구축한다. 색인은 TFIDF를 영역별로 확장하여 구축한다. 구축된 영역별 개념 기반 색인을 이용하여 새로운 웹 문서에 대해서 어떤 영역에 해당하는 가를 결정하는 자동 분류 알고리즘을 수행한다. 자동 분류 알고리즘에 의해 수행된 문서는 영역별로 정리되며, 또한, 분류된 웹 문서의 색인어는 새로운 개념 기반 키워드로 추출되어 개념 기반 영역 지식을 구축한다.

  • PDF