• 제목/요약/키워드: e-mail classification

검색결과 62건 처리시간 0.026초

비정상 문자 조합으로 구성된 스팸 메일의 탐지 방법 (An Approach to Detect Spam E-mail with Abnormal Character Composition)

  • 이호섭;조재익;정만현;문종섭
    • 정보보호학회논문지
    • /
    • 제18권6A호
    • /
    • pp.129-137
    • /
    • 2008
  • 인터넷의 활용도가 높아짐에 따라, 스팸메일이 전체 메일에서 차지하는 비중이 점점 커지게 되었다. 전체 인터넷 자원에서 필요에 의해 사용되는 메일의 기능보다, 주로 광고나 악성코드 등의 전파를 위한 목적으로 사용되는 메일의 비중이 점점 커지고 있으며, 이를 방지하기 위한 컴퓨터 및 네트워크, 인적자원의 소모가 매우 심각해지고 있다. 이를 해결하기 위해 스팸 메일 필터링에 대한 연구가 활발히 진행되어 왔으며, 현재는 문맥상의 의미는 없지만 가독상에서 의미를 해석할 수 있는 문장에 대한 연구가 활발히 이루어지고 있다. 이러한 방식의 메일은 기존의 어휘를 분석하거나 문서 분류 기법 등을 이용한 스팸 메일을 필터링 방법을 통해 분류하기 어렵다. 본 연구는 이와 같은 어려움을 해결하기 위해 메일의 제목에 대한 N-GRAM 색인화를 통해 베이지안 및 SVM 을 이용하여 스팸 메일을 필터링 하는 방법을 제안한다.

고객 정보 및 이벤트를 이용한 개인화 이메일 자동 생성 에이전트 시스템 (An Agent System for Automatic Generation of Personalizing e-mails using Customers' Profile and Events)

  • 이근왕;이광형;이종희
    • 한국멀티미디어학회논문지
    • /
    • 제6권1호
    • /
    • pp.97-104
    • /
    • 2003
  • 개인을 고객으로 하는 각종 포탈 사이트들이 많이 생성됨에 따라 고객 개인을 위한 고객화된 정보가 매우 중요한 하나의 컨텐츠로 자용하고 있다. 하지만, 현재 국내외 전자상거래를 주목적으로 하는 포탈 사이트의 시스템들은 고객에 관한 정보를 단순한 개인 프로파일로 활용하고 있을 뿐 고객 정보를 이용하여 더 많은 개인화된 새로운 정보를 창출하지 못하고 있다. 본 논문은 고객에 대한 정보를 세분화하고 분석하여 제3의 개인화 정보를 생성하여 자동으로 각 개댈 고객에게 개인화된 정보를 제공해 줄 수 있는 시스템을 설계 및 구현하고자 한다. 고객의 이메일 오픈율과 마우스 이벤트 정보를 분석 및 계산하여 개별 고객에게 고객의 관심정보 및 관심 컴포넌트를 생성한 후 관심정보와 관심 컴포넌트를 이용하여 개별 호객의 관심 정보를 고객이 선호하는 이메일 규격 및 양식에 맞게 에이전트를 통해 자동으로 재구성하여 푸쉬해 주는 개인화 메일 자동 생성 에이전트 시스템을 개발하고자 함이 본 논문의 목적이다.

  • PDF

데이터마이닝 기법을 활용한 스팸메일 분류 및 예측모형 구축에 관한 연구

  • 안수산;신경식
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 추계정기학술대회:지능형기술과 CRM
    • /
    • pp.359-366
    • /
    • 2000
  • 기업의 환경에서 이-메일(e-mail)은 회사내의 업무흐름을 완전히 뒤바꾸며 혁명적인 변화를 이끌고 있다. 업무 공간의 극복, 사내 커뮤니케이션의 극대화 등 이-메일이 제공하는 장점이 매우 많다. 그러나 최근 사회적 문제가 되고 있는 스팸 메일(spam mail)의 등장은 이러한 장점의 커다란 반대급부를 제공한다. 스팸메일이란 인터넷이용자들에게 원하지도 않았는데 무작위로 발송되는 광고성 이-메일을 일컫는 말로, 벌크(bulk)메일, 정크(junk)메일, 언솔리시티드(Unsolicited)메일과도 유사한 의미로 사용된다. 스팸메일은 사용자들로 하여금 스트레쓰의 요인이 되게 함은 물론, 이를 발신하고 수신하는 과정에서 이용되는 서버에 엄청난 부하를 줄 뿐만 아니라, 공공의 성격을 지니는 네트웍 자원을 아무런 비용의 지불 없이 독점하게 되는 좋지 않은 결과를 가져오게 된다. 본 연구에서는 데이터마이닝의 기법 중 분류(classification tack) 문제에 적웅이 활발한 인공신경망 (artificial neural networks)과 의사결정나무(decision tree)기법을 이용하여 스팸메일의 분류와 예측을 가능케 하는 모형을 구축한다.

  • PDF

이메일 분류를 위한 추천 에이전트 시스템 (A Recommendation Agent System for E-Mail Classification)

  • 정옥란;조동섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.94-96
    • /
    • 2003
  • 급속도로 발전하는 인터넷의 발달로 인한 정보의 과부하와 이메일의 급증은 이젠 모든 네티즌들이 겪는 불편함이 아닐 수 없다. 본 논문에서는 이런 이메일 관리를 사용자가 효율적으로 할 수 있도록 추천 에이전트(Recommendation Agent)를 제안하고자 한다. 추천 에이전트 시스템에서는 이메일의 자동 분류에서 가장 핵심인 정확도(Accuracy)를 개선시키기 위해 최종 결정을 사용자가 하는 방식으로 접근하였으며, 또한 절기에 이용되는 학습 및 분류 알고리즘을 동적 임계치를 적용한 베이지안 학습 알고리즘을 이용하여 알고리즘적 방법도 병행하였다. 새로운 메일이 도착했을 때 최적의 분류를 할 수 있도록 메일 카테고리를 추천하는 시스템이다. 또한 사용자 편의를 위하여 필요없는 메일이나 스팸으로 간주되는 메일은 자동 삭제하는 기능을 추가하였다.

  • PDF

A Classification Model for Predicting the Injured Body Part in Construction Accidents in Korea

  • Lim, Jiseon;Cho, Sungjin;Kang, Sanghyeok
    • 국제학술발표논문집
    • /
    • The 9th International Conference on Construction Engineering and Project Management
    • /
    • pp.230-237
    • /
    • 2022
  • It is difficult to predict industrial accidents in the construction industry because many accident factors, such as human-related factors and environment-related factors, affect the accidents. Many studies have analyzed the severity of injuries and types of accidents; however, there were few studies on the prediction of injured body parts. This study aims to develop a classification model to predict the part of the injured body based on accident-related factors. Construction accident cases from June 2018 to July 2021 provided by the Korea Construction Safety Management Integrated Information were collected through web crawling and then preprocessed. A naïve Bayes classifier, one of the supervised learning algorithms, was employed to construct a classification model of the injured body part, which has four categories: 1) torso, 2) upper extremity, 3) head, and 4) lower extremity. The predictor variables are accident type, type of work, facility type, injury source, and activity type. As a result, the average accuracy for each injured body part was 50.4%. The accuracy of the upper extremity and lower extremity was relatively higher than the cases of the torso and head. Unlike the other classifications, such as spam mail filtering, a naïve Bayes classifier does not provide a good classification performance in construction accidents. The reasons are discussed in the study. Based on the results of this study, more detailed guidelines for construction safety management can be provided, which help establish safety measures at the construction site.

  • PDF

메타 태그를 이용한 자동 웹페이지 분류 시스템 (An Automatic Web Page Classification System Using Meta-Tag)

  • 김상일;김화성
    • 한국통신학회논문지
    • /
    • 제38B권4호
    • /
    • pp.291-297
    • /
    • 2013
  • 최근 월드 와이드 웹(World Wide Web)의 사용이 폭발적으로 증가함에 따라 다양한 정보를 포함하고 있는 웹 페이지들의 양도 엄청나게 증가 하였다. 따라서 웹상에 존재 하고 있는 웹페이지들에 대한 접근을 용이하게 하고, 그룹화를 통한 검색을 가능하게 하기 위해 웹 페이지 분류의 필요성이 대두 되고 있다. 웹 페이지 분류는 기존의 웹 상에 산재 되어 있는 웹페이지들을 비슷한 문서 유형 또는 같은 키워드를 사용하는 문서들의 묶음으로 구분하는 작업을 의미하며, 웹 페이지 분류 기술은 웹페이지 검색, 그룹 검색, 메일 필터링 등의 분야에 응용될 수 있는 기술이다. 하지만 웹상에 존재하는 웹페이지들을 사람이 수동적으로 분류하는 방법으로는 현재 월드 와이드 웹에 존재하는 엄청난 양의 웹페이지들을 처리할 수 없으며, 자동적인 분류 방법 역시 서로 다른 형태로 작성된 웹페이지들을 정확하게 분류할 수 없다는 문제로 인해 한계를 보이고 있다. 본 논문에서는 서로 다른 형태로 작성된 웹 문서들에 대한 부정확한 분류 문제를 해결하기위해 웹페이지에 존재하는 메타 정보를 획득하여 자동적으로 분류하는 메타 태그기반의 자동화된 웹페이지 분류 시스템을 제안하였다.

단순 베이즈 분류에서의 범주형 변수의 선택 (Categorical Variable Selection in Naïve Bayes Classification)

  • 김민선;최호식;박창이
    • 응용통계연구
    • /
    • 제28권3호
    • /
    • pp.407-415
    • /
    • 2015
  • 단순 베이즈 분류($Na{\ddot{i}}ve$ Bayes classification)는 출력변수가 주어졌을 때 입력변수들이 조건부 독립이라는 가정에 기반한다. 단순 베이즈 가정은 비현실적이지만 고차원의 확률 추정 문제를 일련의 일차원 확률 추정 문제로 단순화 시킨다는 장점이 있으며, 특히 스팸 메일 필터링, 추천 시스템(recommendation system) 등 방대한 데이터를 다루는 분야야에서 흔히 사용된다. 본 논문에서는 입력변수와 출력변수간의 카이제곱 통계량에 기반한 변수선택법을 제안한다. 이 방법은 단순 베이즈 분류의 장점인 데이터 처리 및 계산의 단순성을 유지하면서도 설명력이 있는 변수를 선택할 수 있으며 SNP(single nucleotide polymorphism)에 의한 질병의 분류 등의 초고차원 혹은 빅데이터에서 유용할 것으로 기대된다.

텍스트와 도메인 네임을 이용한 메일 분류 (E-Mail Classification Using Text and Domain Name)

  • 김원화;이일병
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.256-258
    • /
    • 2003
  • 정보화 시대에는 사람들의 모든 활동이 인터넷을 통해서 대부분 이루어진다. 이중에서 전자 메일이 차지하는 비중은 매우 크다. 고객 유치를 위한 기업들의 광고와 배움을 위한 강의, 자신의 관심 분야에 대한 정보 등을 전자 매일로 받아보게 되는 것이 더 많아 질것이다. 이러한 상황에서 사람들은 자신이 필요로 하는 메일과 필요로 하지 않는 메일을 분류하는데 많은 시간을 낭비한다. 사람들은 이러한 시간 낭비를 줄이기 위해서 메일 분류 시스템을 사용한다. 현재 사용되고 있는 매일 분류 시스템은 스팸 매일을 기준으로 하고 있다. 그러나 오분류되는 메일들이 있어 사용자가 스팸 메일을 다시 보는 경우가 있어 한계를 보인다. 본 논문에서는 사람들이 자신이 원하는 메일과 그렇지 않은 메일을 분류하기 위해서 1차 분류로 긍정어와 부정어를 이용하여 전자 메일을 분류하고 2차 분류로 도메인 네임을 이용하여 분류한다.

  • PDF

베이지안 분류기를 이용한 문서 필터링 (A Study on Document Filtering Using Naive Bayesian Classifier)

  • 임수연;손기준
    • 한국콘텐츠학회논문지
    • /
    • 제5권3호
    • /
    • pp.227-235
    • /
    • 2005
  • 문서 필터링은 어떤 문서가 특정한 주제에 속하는지의 여부를 판별하는 문제이다. 인터넷과 웹이 널리 퍼지고 이메일로 전송되는 문서의 양이 폭발적으로 증가함에 따라 문서 여과의 중요성도 증가하고 있는 추세이다. 본 논문은 문서 필터링 문제를 이진 문서 분류 문제로 보고, 베이지안 분류기를 필터링 목적으로 사용하였다. 그리고 사용자가 관련성 있는 문서를 제대로 필터링 받기 위해서 학습 대상으로 삼아야 할 문서의 범위나 수, 최소한 체크해야 하는 관련성 있는 문서의 수에 대한 값을 구하는 실험을 수행하였다.

  • PDF

유전자 알고리즘을 이용한 전자메일분류 시스템에서의 사용자선호도 추출모델링 (User Modeling in E-Mail Classification System with Genetic Algorithm)

  • 안희국;노희영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.673-675
    • /
    • 2002
  • 본 논문에서는 전자메일을 사용자 적합도(선호도)를 기준으로 분류함에 있어 좀더 사용자 선호도를 반영할 수 있는 시스템 구조를 제안한다. 사용자 선호도는 2단계에 걸쳐서 반영되는데, 1단계에서는 사용자 관련메일로 판단된 메일정보추출어구(MIWs)들로부터 사용자 동적 시소러스(DS)의 갱신을 통해 이뤄지며, 2단계에서는 DS로부터 추출된 키워드들을 갖고 유전자 알고리즘을 작동시킬 때, 사용자선호도 feedback을 받음으로서 이뤄진다. 테스트는 kaist뉴스그룹으로부터 임의로 추출된 5개 분야 10개씩의 메일을 sample로 사용하였으며, DS로부터 추출된 키워드가 유전자알고리즘 모듈을 통해 사용자 feedback을 받았을 때, 세대가 거듭함에 따라 사용자가 요구하는 threshold 값에 근사하게 관련키워드들이 수집되었다. 그 결과 사용자 전자메일분류시스템(PECS)의 성능도 폴더정보키워드(FIWs)의 변화에 따라 향상될 수 있음을 확인하였다.

  • PDF