Text Filtering using Iterative Boosting Algorithms

반복적 부스팅 학습을 이용한 문서 여과

  • Published : 2002.04.01

Abstract

Text filtering is a task of deciding whether a document has relevance to a specified topic. As Internet and Web becomes wide-spread and the number of documents delivered by e-mail explosively grows the importance of text filtering increases as well. The aim of this paper is to improve the accuracy of text filtering systems by using machine learning techniques. We apply AdaBoost algorithms to the filtering task. An AdaBoost algorithm generates and combines a series of simple hypotheses. Each of the hypotheses decides the relevance of a document to a topic on the basis of whether or not the document includes a certain word. We begin with an existing AdaBoost algorithm which uses weak hypotheses with their output of 1 or -1. Then we extend the algorithm to use weak hypotheses with real-valued outputs which was proposed recently to improve error reduction rates and final filtering performance. Next, we attempt to achieve further improvement in the AdaBoost's performance by first setting weights randomly according to the continuous Poisson distribution, executing AdaBoost, repeating these steps several times, and then combining all the hypotheses learned. This has the effect of mitigating the ovefitting problem which may occur when learning from a small number of data. Experiments have been performed on the real document collections used in TREC-8, a well-established text retrieval contest. This dataset includes Financial Times articles from 1992 to 1994. The experimental results show that AdaBoost with real-valued hypotheses outperforms AdaBoost with binary-valued hypotheses, and that AdaBoost iterated with random weights further improves filtering accuracy. Comparison results of all the participants of the TREC-8 filtering task are also provided.

문서 여과 문제 (text filtering)는 어떤 문서가 특정한 주제에 속하는지의 여부를 판별하는 문제이다. 인터넷과 웹이 널리 퍼지고 이메일로 전송되는 문서의 양이 폭발적으로 증가함에 따라 문서 여과의 중요성도 따라서 증가하고 있는 추세이다. 이 논문에서는 새로운 학습 방법인 에이다부스트 학습 방법을 문서 여과 문제에 적용하여 기존의 방법들보다 우수한 분류 결과를 나타내는 문서 여과 시스템을 생성하고자 한다. 에이다 부스트는 간단한 가설의 집합을 생성하고 묶는 기법인데, 이 때 각각의 가설들은 문서가 특정 단어를 포함하고 있는지 검사하여 이에 따라 문서의 적합성을 판별한다. 먼저 최종 여과 시스템을 구성하는 각 가설의 출력이 1 또는 -1이 되는 이진 가설을 사용하는 기존의 에이다부스트 알고리즘에서 출발하여 좀 더 최근에 제안된 확신 정도 (실수값)를 출력하는 가설을 이용하는 에이다부스트 알고리즘을 적용함으로써 오류 감소 속도와 최종 오류율을 개선하고자 하였다. 또 각 데이타에 대한 초기 가중치를 연속 포아송 분포에 따라 임의로 부여하여 여러 번의 부스팅을 수행한 후 그 결과를 결합하는 방법을 사용함으로써 적은 학습 데이타로 인해 발생하는 과도학습의 문제를 완화하고자 하였다. 실험 데이터로는 TREC-8 필터링 트랙 데이타셋을 사용하였다. 이 데이타셋은 1992년도부터 1994년도 사이의 파이낸셜 타임스 기사로 이루어져 있다. 실험 결과, 실수값을 출력하는 가설을 사용했을 때 이진값을 갖는 가설을 사용했을 때 보다 좋은 결과를 보였고 임의 가중치를 사용하여 여러번 부스팅을 하는 방법이 더욱 향상된 성능을 나타내었다. 다른 TREC 참가자들과의 비교결과도 제시한다.

Keywords

References

  1. D. Hull, 'The TREC-7 filtering track: Description and analysis,' Proceedings of the 7th Text Retrieval Conference (TREC-7), pp. 33-56, 1998
  2. E. Bauer and R. Kohavi, 'An empirical comparison of voting classification algorithms:bagging, boosting, and variants,' Machine Learning, Vol. 36, No. 1, pp. 105-139, 1999 https://doi.org/10.1023/A:1007515423169
  3. L. Breiman, 'Bagging predictors,' Machine Learning, Vol. 24, No. 2, pp. 123-140, 1996 https://doi.org/10.1023/A:1018054314350
  4. L. Breiman, 'Bias, variance and arcing classifiers,' Technical Report 460, Berkeley, CA: University of California: Department of statistics, 1996
  5. Y. Freund, R. E. Schapire, 'Experiments with a new boosting algorithm,' Proceedings of the Thirteenth International Conference on Machine Learning, pp. 148-156, 1996
  6. S. Haykin, Neural Network, Prentice-Hall, 1999
  7. G. Salton, M. J. McGill, 'Introduction to modern information retrieval,' McGraw-Hill, 1983
  8. R. E. Schapire, Y. Freund, P. Bartlett, W. S. Lee, 'Boosting the margin:A new explanation for the effectiveness of voting methods,' The Annals of Statistics, Vol. 26, No. 5, pp.1651-1686, 1998 https://doi.org/10.1214/aos/1024691352
  9. R. E. Schapire, Y. Singer, and A. Singhal, 'Boosting and Rocchio applied to text filtering,' Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Query and Profile Modification, pp. 215-223, 1998
  10. R. E. Schapire, Y. Singer, 'Improved boosting algorithms using confidence-rated Predictions,' Machine Learning, Vol. 37, No. 3, pp. 297-336, 1999 https://doi.org/10.1023/A:1007614523901
  11. R. E. Schapire, 'The stength of weak learnability,' Machine Learning, Vol. 5, No. 2, pp. 197-227, 1990 https://doi.org/10.1007/BF00116037
  12. G. I. Webb, 'MultiBoosting: A technique for combining Boosting and Wagging,' Machine Learning, to appear, 2000 https://doi.org/10.1023/A:1007659514849