다중 구조적응 자기구성지도의 퍼지결합을 이용한 웹 문서 분류

Web Documents Classification with Fuzzy Integration of Multiple Structure-Adaptive Self-Organizing Maps

  • 김경중 (연세대학교 컴퓨터과학과) ;
  • 조성배 (연세대학교 컴퓨터과학과)
  • 발행 : 2003.04.01

초록

웹 문서를 분류하는 목적은 특정 주제별로 중요한 문서들을 구분하려는 것과 사용자의 선호도를 바탕으로 개인화를 하려는 것으로 나누어 볼 수 있다. 특히, 웹의 효율적인 탐색을 위해 사용자가 관심 있어 할 웹 문서를 분류하는 것은 중요하다 일반적으로 하나의 웹 문서는 특징 추출방법에 의해 문서 벡터로 표시되며 사용자의 선호여부나 주제번호를 클래스로 삼는다. 사용자가 선호도를 표시한 웹 문서를 사용하여 새로운 웹 문서의 선호 여부를 예측하기 위해 자기 구성지도(SOM)를 사용하면, 시각적으로 구조를 보여주어 데이터 사이의 관계를 효과적으로 이해할 수 있다. 그러나 SOM은 노드의 개수와 구조를 자동적으로 결정하지 못하는 단점이 있기 때문에, SOM의 장점을 활용하면서 자동적으로 구조를 결정하기 위해 구조적응 자기구성지도(SASOM)를 이용한다. 보다 나은 성능과 다양한 해석을 위해, 여러 개의 SASOM을 서로 다른 특징추출 방법을 이용하여 학습시킨 후 사용자가 주관적으로 분류기의 중요도를 결정할 수 있는 퍼지적분을 사용하여 결합하였다. UCI Syskill & Webert 데이터에 대한 실험결과 기존의 DT, MLP, naive Bayes 분류기 보다 향상된 성능을 보였다.

키워드