동적인 문서 여과에서 나이브 베이즈 분류기와 코사인 유사 계수의 성능 비교

Comparative Between Naive Bayes Classifier and Cosine Similarity Coefficient in Dynamic Document Filtering

  • 손기준 (경북대학교 컴퓨터공학과) ;
  • 임수연 (경북대학교 컴퓨터공학과) ;
  • 박성배 (경북대학교 컴퓨터공학과) ;
  • 이상조 (경북대학교 컴퓨터공학과)
  • Son Ki-Jun (Dept. of Computer Engineering, Kyungpook National University) ;
  • Lim Soo-Yeoun (Dept. of Computer Engineering, Kyungpook National University) ;
  • Park Seong-Bae (Dept. of Computer Engineering, Kyungpook National University) ;
  • Lee Sang-Jo (Dept. of Computer Engineering, Kyungpook National University)
  • 발행 : 2006.06.01

초록

온라인 정보가 증가함에 따라 많은 양의 정보 중에서 사용자가 원하는 정보를 정확하고 신속하게 찾아 주는 문서 여과의 중요성 또한 증가하고 있는 추세이다. 본 논문은 문서 여과 문제를 이진 문서 분류 문제로 보고, 나이브 베이즈 분류기를 동적인 문서 여과 목적으로 사용하였다. 이때 사용자가 자신의 관심 분야에 해당하는 주제를 제대로 여과 받기 위해서 학습 대상으로 삼아야 할 학습문서의 범위와 관련성 있는 문서를 제대로 여과 받기 위해서 체크해야 하는 관련성 표기 비율에 따른 분류기의 성능에 대하여 실험을 하였다. 코사인 유사계수를 이용한 여과 방법과의 성능도 비교 실험하였다. 실험 결과 나이브 베이즈 이진 분류기는 문서집합의 크기가 일정한 정도일 때 관련성 있는 문서가 모두 표기되지 않더라도 여과에는 큰 영향을 미치지 않음을 볼 수 있었다.

키워드