Comparing Korean Spam Document Classification Using Document Classification Algorithms

Song, Chull-Hwan;Yoo, Seong-Joon;

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

2006.10c
/
Pages.222-225
/
2006
/
1598-5164(pISSN)

Korean Institute of Information Scientists and Engineers (한국정보과학회)

Comparing Korean Spam Document Classification Using Document Classification Algorithms

문서 분류 알고리즘을 이용한 한국어 스팸 문서 분류 성능 비교

Song, Chull-Hwan (School of Computer Engineering, Sejong University) ;
Yoo, Seong-Joon (School of Computer Engineering, Sejong University)

송철환 (세종대학교 컴퓨터 소프트웨어 공학과) ;
유성준 (세종대학교 컴퓨터 소프트웨어 공학과)

Published : 2006.10.20

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

한국은 다른 나라에 비해 많은 인터넷 사용자를 가지고 있다. 이에 비례해서 한국의 인터넷 유저들은 Spam Mail에 대해 많은 불편함을 호소하고 있다. 이러한 문제를 해결하기 위해 본 논문은 다양한 Feature Weighting, Feature Selection 그리고 문서 분류 알고리즘들을 이용한 한국어 스팸 문서 Filtering연구에 대해 기술한다. 그리고 한국어 문서(Spam/Non-Spam 문서)로부터 영사를 추출하고 이를 각 분류 알고리즘의 Input Feature로써 이용한다. 그리고 우리는 Feature weighting 에 대해 기존의 전통적인 방법이 아니라 각 Feature에 대해 Variance 값을 구하고 Global Feature를 선택하기 위해 Max Value Selection 방법에 적용 후에 전통적인 Feature Selection 방법인 MI, IG, CHI 들을 적용하여 Feature들을 추출한다. 이렇게 추출된 Feature들을 Naive Bayes, Support Vector Machine과 같은 분류 알고리즘에 적용한다. Vector Space Model의 경우에는 전통적인 방법 그대로 사용한다. 그 결과 우리는 Support Vector Machine Classifier, TF-IDF Variance Weighting(Combined Max Value Selection), CHI Feature Selection 방법을 사용할 경우 Recall(99.4%), Precision(97.4%), F-Measure(98.39%)의 성능을 보였다.

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

Comparing Korean Spam Document Classification Using Document Classification Algorithms

문서 분류 알고리즘을 이용한 한국어 스팸 문서 분류 성능 비교

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)