Classification of e-mail Using Dynamic Category Hierarchy and Automatic category generation

자동 카테고리 생성과 동적 분류 체계를 사용한 이메일 분류

  • Ahn Chan Min (School of Computer Information Science and Engineering, In-Ha University) ;
  • Park Sang Ho (School of Computer Information Science and Engineering, In-Ha University) ;
  • Lee Ju-Hong (School of Computer Information Science and Engineering, In-Ha University) ;
  • Choi Bum-Ghi (Quark Co., Ltd.) ;
  • Park Sun (School of Computer Information Science and Engineering, In-Ha University)
  • 안찬민 (인하대학교 컴퓨터공학과) ;
  • 박상호 (인하대학교 컴퓨터공학과) ;
  • 이주홍 (인하대학교 컴퓨터공학과) ;
  • 최범기 (쿼크(주)) ;
  • 박선 (인하대학교 컴퓨터공학과)
  • Published : 2004.11.01

Abstract

Since the amount of E-mail messages has increased , we need a new technique for efficient e-mail classification. E-mail classifications are grouped into two classes: binary classification, multi-classification. The current binary classification methods are mostly spm mail classification methods which are based on rule driven, bayesian, SVM, etc. The current multi- classification methods are based on clustering which groups e-mails by similarity. In this paper, we propose a novel method for e-mail classification. It combines the automatic category generation method based on the vector model and the dynamic category hierarchy construction method. This method can multi-classify e-mail automatically and manage a large amount of e-mail efficiently. In addition, this method increases the search accuracy by dynamic reclassification of e-mails.

이메일 사용이 보편화됨에 따라 점차 수신되는 메일의 량이 증가하고 있다. 이러한 메일 량의 증가는 사용자로 하여금 이메일을 좀더 효율적으로 분류할 수 있는 방법을 필요하게 한다. 그러나 현재의 이메일 분류는 규칙기반, 베이시안, SVM등을 이용하여 스팸메일을 필터링 하는 이원분류가 주로 연구되고 있다. 이외에도 다원분류에 대한 연구로는 클러스터링을 이용한 방법이 있으나, 이는 단순히 유사도에 의해 메일을 그룹화 하는 수준이다. 본 논문에서는 벡터모델의 유사도를 기반으로 한 자동 카테고리 생성 방법과 동적분류체계 방법을 결합하여 새로운 이메일 자동 분류 방법을 제안했다. 본 논문에서 제안한 방법은 이메일을 자동으로 다원분류하며 대량의 메일도 효율적으로 관리할 수 있다. 또한 메일을 동적으로 재분류 할 수 있게 함으로써 정확율을 높였다.

Keywords