• Title/Summary/Keyword: e-mail classification

Search Result 62, Processing Time 0.027 seconds

A study on the Filtering of Spam E-mail using n-Gram indexing and Support Vector Machine (n-Gram 색인화와 Support Vector Machine을 사용한 스팸메일 필터링에 대한 연구)

  • 서정우;손태식;서정택;문종섭
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.14 no.2
    • /
    • pp.23-33
    • /
    • 2004
  • Because of a rapid growth of internet environment, it is also fast increasing to exchange message using e-mail. But, despite the convenience of e-mail, it is rising a currently bi9 issue to waste their time and cost due to the spam mail in an individual or enterprise. Many kinds of solutions have been studied to solve harmful effects of spam mail. Such typical methods are as follows; pattern matching using the keyword with representative method and method using the probability like Naive Bayesian. In this paper, we propose a classification method of spam mails from normal mails using Support Vector Machine, which has excellent performance in pattern classification problems, to compensate for the problems of existing research. Especially, the proposed method practices efficiently a teaming procedure with a word dictionary including a generated index by the n-Gram. In the conclusion, we verified the proposed method through the accuracy comparison of spm mail separation between an existing research and proposed scheme.

Agent for File Format based Classification of the Attached File in E-Mail System (E-Mail 시스템의 첨부파일 형식별 자동분류 에이전트 설계)

  • Hyun, Young-Soon;Jeong, Ok-Ran;Cho, Dong-Sub
    • Proceedings of the KIEE Conference
    • /
    • 2003.07d
    • /
    • pp.2645-2647
    • /
    • 2003
  • E-Mail은 현재 가장 많이 쓰이고 있는 인터넷 서비스로서 최근 인터넷 사용자의 증가와 함께 그 사용자 또한 늘어나고 있다. 기존의 메일 기반 에이전트는 서버에 무분별하게 메일을 저장하는 방식이기 때문에, 첨부파일에 접근하기 위해서는 관리자가 수신된 메일을 일일이 확인해야 하는 번거로움을 가지고 있다. 대량의 메일을 수신하는 기업에서는 메일 뿐만 아니라 첨부되어오는 파일들에 대한 처리부담이 더욱 크다. 본 논문에서는 이를 보완하기 위해 도착한 메일의 내용을 분석하여 키워드를 추출하고, 폴더를 생성하여 카테고리별로 첨부된 파일을 분류해주는 자동분류 에이전트를 제안하고자 한다. 카테고리 별로 분류된 파일은 다시 형식별로 분류되도록 설계하였다. 이는 관리자의 업무부담을 줄이고, 첨부파일을 효과적으로 관리할 수 있는 장점이 있다.

  • PDF

Performance Improvement of Spam Filtering Using User Actions (사용자 행동을 이용한 쓰레기편지 여과의 성능 개선)

  • Kim Jae-Hoon;Kim Kang-Min
    • The KIPS Transactions:PartB
    • /
    • v.13B no.2 s.105
    • /
    • pp.163-170
    • /
    • 2006
  • With rapidly developing Internet applications, an e-mail has been considered as one of the most popular methods for exchanging information. The e-mail, however, has a serious problem that users ran receive a lot of unwanted e-mails, what we called, spam mails, which cause big problems economically as well as socially. In order to block and filter out the spam mails, many researchers and companies have performed many sorts of research on spam filtering. In general, users of e-mail have different criteria on deciding if an e-mail is spam or not. Furthermore, in e-mail client systems, users do different actions according to a spam mail or not. In this paper, we propose a mail filtering system using such user actions. The proposed system consists of two steps: One is an action inference step to draw user actions from an e-mail and the other is a mail classification step to decide if the e-mail is spam or not. All the two steps use incremental learning, of which an algorithm is IB2 of TiMBL. To evaluate the proposed system, we collect 12,000 mails of 12 persons. The accuracy is $81{\sim}93%$ according to each person. The proposed system outperforms, at about 14% on the average, a system that does not use any information about user actions.

Personalized I-Mail Classification System Using Dynamic Thesaurus and Genetic Algorithm (동적 시소러스와 GA을 이용한 개별화된 E-Mail1 분류시스템 (PECS))

  • 안희국;노희영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.472-474
    • /
    • 2002
  • 본 논문에서는 전자메일을 사용자 적합도(선호도)를 기준으로 분류하기 위한 구조를 제안한다. 분류는 1차 분류와 2차 분류로 나눠지는데, 1차 분류에서는 사용자 적합도를 판단하기 위해 사용자 관련 정보로부터 동적 시소러스를 구축하고, 구축된 시소러스와의 비교를 통해 사용자에게 유용한 메일인지 아닌지를 결정하고, 2차 분류에서는 사용자가 지정한 폴더키워드를 중심으로 사용자 시소러스로부터 유전자 알고리즘을 이용해 추출한 키워드들과의 적합도 비교를 통해서 특정 폴더로의 분류가 이뤄지게 된다 테스트에는 메일 정보값(Mail Information Word)을 추출하기 위해 HAM(Hangup Analysys Module)을 포함하는 메일정보추줄 에이전트를 사용하였고, mail의 subject와 본문(body)로부터 추출된 16개의 word정보와 시소러스 적합도 정보, 분류 적합도 정보를 하나의 데이터구조로 사용하였다. 이러한 통할된 시스템 구조와 data structure를 이용해 mail을 사용자의 선호도에 따라. 1차와 2차에 걸친 분류시 분류가 사용자 선호도에 근접하게 이루어 질 수 있음을 확인하였다.

  • PDF

Automatic Response and Conceptual Browsing of Internet FAQs Using Self-Organizing Maps (자기구성 지도를 이용한 인터넷 FAQ의 자동응답 및 개념적 브라우징)

  • Ahn, Joon-Hyun;Ryu, Jung-Won;Cho, Sung-Bae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.12 no.5
    • /
    • pp.432-441
    • /
    • 2002
  • Though many services offer useful information on internet, computer users are not so familiar with such services that they need an assistant system to use the services easily In the case of web sites, for example, the operators answer the users e-mail questions, but the increasing number of users makes it hard to answer the questions efficiently. In this paper, we propose an assistant system which responds to the users questions automatically and helps them browse the Hanmail Net FAQ (Frequently Asked Question) conceptually. This system uses two-level self-organizing map (SOM): the keyword clustering SOM and document classification SOM. The keyword clustering SOM reduces a variable length question to a normalized vector and the document classification SOM classifies the question into an answer class. Experiments on the 2,206 e-mail question data collected for a month from the Hanmail net show that this system is able to find the correct answers with the recognition rate of 95% and also the browsing based on the map is conceptual and efficient.

Decision Method of Importance of E-Mail based on User Profiles (사용자 프로파일에 기반한 전자 메일의 중요도 결정)

  • Lee, Samuel Sang-Kon
    • The KIPS Transactions:PartB
    • /
    • v.15B no.5
    • /
    • pp.493-500
    • /
    • 2008
  • Although modern day people gather many data from the network, the users want only the information needed. Using this technology, the users can extract on the data that satisfy the query. As the previous studies use the single data in the document, frequency of the data for example, it cannot be considered as the effective data clustering method. What is needed is the effective clustering technology that can process the electronic network documents such as the e-mail or XML that contain the tags of various formats. This paper describes the study of extracting the information from the user query based on the multi-attributes. It proposes a method of extracting the data such as the sender, text type, time limit syntax in the text, and title from the e-mail and using such data for filtering. It also describes the experiment to verify that the multi-attribute based clustering method is more accurate than the existing clustering methods using only the word frequency.

Classification and Allocation method of e-mail using possibility distribution and prediction (확률 분포와 추론에 의한 이메일 분류 및 정리 방법)

  • Go, Nam-Hyeon;Kim, Ji-Yun;Choi, Man-Kyu
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.95-96
    • /
    • 2016
  • 본 논문에서는 디리클레 분포와 베이즈 추론 모델을 활용하여 전자우편을 분류하고 정리하는 방법을 제안한다. 과거 원치 않는 광고성 이메일인 스팸 탐지에서 시작한 전자우편 분류는 지속적인 송수신 량의 증가와 내용의 다양화로 인해 광고성과 정보성의 판단 기준이 모호해진 상태이다. 스팸 탐지와 같은 이분법적 분류 방식이 아닌 내용의 주제 별로 자동 분류할 수 있는 방법이 필요하다. 본 논문에서 다루는 제안 기법은 전자우편의 내용에서 다뤄질 수 있는 주제의 종류를 예측하기 위한 방법을 제공한다. 발신하거나 수신된 전자우편이 속한 주제를 자동으로 정할 수 있다. 본 제안 기법의 활용을 통해 전자우편의 분류만이 아닌 업무 및 시장 동향 분석과 정보보안 분야에서는 악성코드 분류에 사용될 수 있을 것으로 기대된다.

  • PDF

A Preprocessing for Efficient Classification of E-mail Messages (전자우편문서의 효율적인 분류를 위한 전처리)

  • 강영순;이용배;김태현;조숙현;맹성현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.493-495
    • /
    • 2002
  • 인터넷 사용의 증가는 의사소통 매체의 하나로 전자우편(e-mail)을 일반화되게 땠다. 전자우편은 개인적인 목적 뿐만 아니라, 광고, 판매, 서비스 흑은 제품구입 관련문의 등의 특정목적에 이용되고 있는 추세이므로 한꺼번에 많은 메일을 처리 및 관리하기 위해서는 전자우편문서의 자동분류가 필요하다. 전자우편문서는 일반문서와는 달리 반구조적(semi-structure)구성, 특수문자, 약어 및 속어 등의 특징들이 있으므로 이러한 특성들은 자동분류의 정확도에 영향을 기치는 요인이 될 수 있다. 본 논문에서는 분류 성능을 향상 시키기 위해 자동분류의 오류가 될 수 있는 특성들을 제거하고, 구조적인 특징을 활용한 분류기의 전처리기를 설계한 방법론을 제시하고자 한다

  • PDF

MPEG-7 Content Based Multimedia E-Mail Classification (MPEG-7 내용기반 MEMC)

  • 김원화;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.649-651
    • /
    • 2003
  • 사람들의 욕구가 인터넷에 반영되면서 텍스트로 이루어져있는 인터넷 컨턴츠들이 이제는 멀티미디어로 이루어지고 있다. 사람들이 가장 많이 사용하고 있는 이메일 또한 이런 욕구가 반영되었다. 이젠 이메일도 멀티미디어 시대이다. 이메일의 장점을 이용해서 마케팅을 해오던 회사들도 텍스트가 아니라 멀티미디어로 사람들의 시선을 잡고자 한다. 기업의 마케팅 메일은 이메일을 사용하는 사용자 입장에서 본다면 스팸 메일이다. 많은 이메일 서비스 업체는 이런 스팸 메일을 차단하기 위해서 끈임없는 노력을 하고 있으며 많은 성과를 이뤘다. 현재는 과거의 방법으로 스팸 메일을 차단할 수 없기 때문에 새로운 방법이 모색되고 있다. 본 논문에서는 멀티미디어 스팸 메일 차단에 한 방법으로 MPEG-7를 이용한 MEMC(Multimedia E-Mail Classifictaion)을 제안한다.

  • PDF

A Study on Classification of Medical Information Documents using Word Correlation (색인어 연관성을 이용한 의료정보문서 분류에 관한 연구)

  • Lim, Hyeong-Geon;Jang, Duk-Sung
    • The KIPS Transactions:PartB
    • /
    • v.8B no.5
    • /
    • pp.469-476
    • /
    • 2001
  • As the service of information through web system increases in modern society, many questions and consultations are going on through Home page and E-mail in the hospital. But there are some burdens for the management and postponements for answering the questions. In this paper, we investigate the document classification methods as a primary research of the auto-answering system. On the basis of 1200 documents which are questions of patients, 66% are used for the learning documents and 34% for test documents. All of are also used for the document classification using NBC (Naive Bayes Classifier), common words and coefficient of correlation. As the result of the experiments, the two methods proposed in this paper, that is, common words and coefficient of correlation are higher as much as 3% and 5% respectively than the basic NBC methods. This result shows that the correlation between indexes and categories is more effective than the word frequency in the document classification.

  • PDF