A Spam Filtering Method using Frequency Distribution of Special Letter and Frequency Ratio of Keyword

특수 문자 및 단어 빈도 비율을 이용한 스팸 필터링 방법

  • Lee, Seong-Jin (Dept. of Computing, Graduate School, Soongsil University) ;
  • Baik, Jong-Bum (Dept. of Computing, Graduate School, Soongsil University) ;
  • Han, Chung-Seok (Dept. of Computing, Graduate School, Soongsil University) ;
  • Lee, Soo-Won (Dept. of Computing, Graduate School, Soongsil University)
  • 이성진 (숭실대학교 컴퓨터학과 대학원) ;
  • 백종법 (숭실대학교 컴퓨터학과 대학원) ;
  • 한정석 (숭실대학교 컴퓨터학과 대학원) ;
  • 이수원 (숭실대학교 컴퓨터학부)
  • Published : 2011.06.29

Abstract

인터넷 환경에서 무차별적으로 유통되는 스팸 문서로 인한 사회적 문제가 커져 가고 있는 가운데 스팸문서를 차단하기 위한 활발한 연구들이 이루어지고 있다. 이 가운데 대표적인 연구는 자질어를 이용한 기계학습 기반의 스팸 차단 기술이다. 그러나 이 방법은 미리 선택된 자질어로만 구성된 분류 모델을 사용하기 때문에 Term Spamming(단어 조작에 의한 스팸 차단 행위)에 취약하며, 스팸 차단의 성능과 학습 소요 시간이 선택된 자질어의 품질과 수에 민감하게 영향을 받는다는 문제점이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 스팸 문서에서 등장하는 특수 문자의 빈도와 반복되는 단어의 특징을 이용한 스팸 탐지 방법을 제안한다. 제안 방법은 각 문서에서 등장하는 특수 문자의 비율과 최다 출현 단어의 반복 패턴을 정의하고 기계학습 알고리즘을 적용하여 스팸 분류 모델을 생성한다. 제안 방법의 성능 평가를 위해 E-mail 데이터와 블로그의 Post 데이터를 사용하여 자질어 기반의 스팸 차단 방법과 비교 실험을 진행하였다. 실험 결과 본 논문에서 제안하는 방법이 분류 정확도와 학습 소요 시간에 있어 우수한 성능을 보이는 것을 확인하였다.

Keywords

Acknowledgement

Supported by : 한국연구재단