퍼지추론 기반 대표 키워드 추출방법의 성능 평가

Performance Evaluation of the Extractiojn Method of Representative Keywords by Fuzzy Inference

  • 노순억 (금오공과대학교 컴퓨터공학부) ;
  • 김병만 (금오공과대학교 컴퓨터공학부) ;
  • 오상엽 (금오공과대학교 컴퓨터공학부) ;
  • 이현아 (금오공과대학교 컴퓨터공학부)
  • 발행 : 2005.03.01

초록

본 논문은 퍼지 추론을 이용하여 소수문서로부터 대표 용어들을 추출하고 가중치를 부여하는 기존 방법의 유용성을 평가하고자 GIS (Generalized Instance Set) 알고리즘에 이를 적용시켜 그 성능을 평가하여 보았다. GIS 는 학습 문서 집합에 대한 일반화 (generalization) 과정을 통해 문서 그룹들을 형성하고 이 그룹의 대표 문서 (generalized instance)를 생성한 후 k- 알고리즘을 적용하는 방법이다. 본 논문에서는 바로 이 일반화 과정의 한 방법으로 퍼지 추론을 이용한 방법을 사용하였다. 상대적 성능 평가를 위하여 이 일반화(generalization) 과정에 Rocchio와 Widrow-Hoff 방법도 적용시켜 문서 분류 성능을 비교하였다. 실험 결과, 긍정적 문서만을 고려할 경우는 좋은 성능을 보이지만 부정적 문서를 같이 고려할 경우는 성능이 상대적으로 좋지 않음을 확인 할 수 있었다.

In our previous works, we suggested a method that extracts representative keywords from a few positive documents and assigns weights to them. To show the usefulness of the method, in this paper, we evaluate the performance of a famous classification algorithm called GIS(Generalized Instance Set) when it is combined with our method. In GIS algorithm, generalized instances are built from learning documents by a generalization function and then the K-NN algorithm is applied to them. Here, our method is used as a generalization function. For comparative works, Rocchio and Widrow-Hoff algorithms are also used as a generalization function. Experimental results show that our method is better than the others for the case that only positive documents are considered, but not when negative documents are considered together.

키워드