휴대폰 SMS를 위한 SVM 기반의 스팸 필터링 시스템

A SVM-based Spam Filtering System for Short Message Service (SMS)

  • 조인휘 (한양대학교 컴퓨터공학부 이동네트워크 연구실) ;
  • 심혜택 (한양대학교 컴퓨터공학부 이동네트워크 연구실)
  • 발행 : 2009.09.30

초록

휴대 전화는 이제 우리의 일상생활에서 없어서는 안 될 중요한 가전 기기로 자리 잡았다. 이러는 와중에 휴대폰에서 사용하는 문자 메시지 사용량 역시 꾸준하게 증가하여 현재는 음성 통화 이용량의 1.5배에서 2배에 이르고 있다. 문자 메시지의 사용량이 증가함에 따라 스팸 문자 메시지도 따라서 증가하였는데 기존의 모바일 기기에서의 스팸 필터링 방식은 단순 문자열 비교나 특정 번호 차단과 같은 아주 기초적인 수준으로 스팸 메시지를 필터링하고 있는 실정이다. 본 논문에서는 SVM(Support Vector Machine)과 시소러스(thesaurus) 사전을 이용하여 좀 더 강력하고 적응적인 스팸 필터링 시스템을 제안하였다. 제안한 시스템은 샘플 문자 메시지로부터 전처리 기를 이용하여 문자 메시지 속에 담겨 있는 단어를 추출 한 후, 추출된 단어를 시소러스 사전을 이용하여 해당 의미가 가지는 대표 단어로 변경하였다. 변경된 단어들에서 카이 제곱 통계량을 계산하여 그 값이 높은 단어들을 특징 단어로 선정하였고 선정된 특징 단어들을 가지고 SVM 분류기로 학습을 진행하였다. 그 후 학습된 분류기를 이용하여 테스트 문자 메시지의 스팸 여부를 분류하였으며 평균 92%의 인식률을 보였다. 제안된 시스템은 PC에서 구현되어 있으며 실험을 통하여 그 성능을 확인하였다.

Mobile phones became important household appliance that cannot be without in our daily lives. And the short messaging service (SMS) in these mobile phones is 1.5 to 2 times more than the voice service. However, the spam filtering functions installed in mobile phones take a method to receive specific number patterns or words and recognize spam messages when those numbers or words are present. However, this method cannot properly filters various types of spam messages currently dispatched. This paper proposes a more powerful and more adaptive spam filtering system using SVM and thesaurus. The system went through a process of isolating words from sample data through pro-processing device and integrating meanings of isolated words using a thesaurus. Then it generated characteristics of integrated words through the chi-square statistics and studied the characteristics. The proposed system is realized in a Window environment and the performance is confirmed through experiments.

키워드

참고문헌

  1. 임혜영, 'SVM 분류기를 이용한 문서 범주화 연구', 연세대학교 문헌정보학과 석사학위 논문, 2000
  2. 박진우, 고영중, 서정연, '문서 요약 기법을 이용한 자동 문서 범주화', 제 13회 한글 및 한국어정보처리 학술대회, 138-145, 2001
  3. C. Cortes and V. Vapnik, 'Support vector network' Machine Learning, vol. 20, pp.273-297, 1995 https://doi.org/10.1007/BF00994018
  4. N. Cristianini, J. S. Talor, An Introduction to Support Vector Machines and Other Kernelbased Learning Methords, Cambridge University Press 2000
  5. Berges, C. J. ' tutorial on Support Vector Machine for pattern recognition', Data Mining and Knowledge Discovery 2, pp121-167 1998 https://doi.org/10.1023/A:1009715923555
  6. 김태희, '스팸 메일 필터링 시스템에서 어휘 정보와 시소러스의 영향 분석', 대구대학교 컴퓨터 공학과 박사 학위 논문 2005
  7. 한국어 형태소 분석기 http://nlp.kookmin.ac.kr/HAM/kor/index.html
  8. Yihui Xie'An Introduction to Support Vector Machine and Implementation in R'. May 8, 2007