• Title/Summary/Keyword: 스팸메밀

Search Result 2, Processing Time 0.015 seconds

데이터마이닝 기법을 활용한 스팸메일 분류 및 예측모형 구축에 관한 연구

  • 안수산;신경식
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2000.11a
    • /
    • pp.359-366
    • /
    • 2000
  • 기업의 환경에서 이-메일(e-mail)은 회사내의 업무흐름을 완전히 뒤바꾸며 혁명적인 변화를 이끌고 있다. 업무 공간의 극복, 사내 커뮤니케이션의 극대화 등 이-메일이 제공하는 장점이 매우 많다. 그러나 최근 사회적 문제가 되고 있는 스팸 메일(spam mail)의 등장은 이러한 장점의 커다란 반대급부를 제공한다. 스팸메일이란 인터넷이용자들에게 원하지도 않았는데 무작위로 발송되는 광고성 이-메일을 일컫는 말로, 벌크(bulk)메일, 정크(junk)메일, 언솔리시티드(Unsolicited)메일과도 유사한 의미로 사용된다. 스팸메일은 사용자들로 하여금 스트레쓰의 요인이 되게 함은 물론, 이를 발신하고 수신하는 과정에서 이용되는 서버에 엄청난 부하를 줄 뿐만 아니라, 공공의 성격을 지니는 네트웍 자원을 아무런 비용의 지불 없이 독점하게 되는 좋지 않은 결과를 가져오게 된다. 본 연구에서는 데이터마이닝의 기법 중 분류(classification tack) 문제에 적웅이 활발한 인공신경망 (artificial neural networks)과 의사결정나무(decision tree)기법을 이용하여 스팸메일의 분류와 예측을 가능케 하는 모형을 구축한다.

  • PDF

Intelligent Spam-mail Filtering Based on Textual Information and Hyperlinks (텍스트정보와 하이퍼링크에 기반한 지능형 스팸 메일 필터링)

  • Kang, Sin-Jae;Kim, Jong-Wan
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.14 no.7
    • /
    • pp.895-901
    • /
    • 2004
  • This paper describes a two-phase intelligent method for filtering spam mail based on textual information and hyperlinks. Scince the body of spam mail has little text information, it provides insufficient hints to distinguish spam mails from legitimate mails. To resolve this problem, we follows hyperlinks contained in the email body, fetches contents of a remote webpage, and extracts hints (i.e., features) from original email body and fetched webpages. We divided hints into two kinds of information: definite information (sender`s information and definite spam keyword lists) and less definite textual information (words or phrases, and particular features of email). In filtering spam mails, definite information is used first, and then less definite textual information is applied. In our experiment, the method of fetching web pages achieved an improvement of F-measure by 9.4% over the method of using on original email header and body only.