• 제목/요약/키워드: spam detection

검색결과 58건 처리시간 0.024초

The Adaptive SPAM Mail Detection System using Clustering based on Text Mining

  • Hong, Sung-Sam;Kong, Jong-Hwan;Han, Myung-Mook
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권6호
    • /
    • pp.2186-2196
    • /
    • 2014
  • Spam mail is one of the most general mail dysfunctions, which may cause psychological damage to internet users. As internet usage increases, the amount of spam mail has also gradually increased. Indiscriminate sending, in particular, occurs when spam mail is sent using smart phones or tablets connected to wireless networks. Spam mail consists of approximately 68% of mail traffic; however, it is believed that the true percentage of spam mail is at a much more severe level. In order to analyze and detect spam mail, we introduce a technique based on spam mail characteristics and text mining; in particular, spam mail is detected by extracting the linguistic analysis and language processing. Existing spam mail is analyzed, and hidden spam signatures are extracted using text clustering. Our proposed method utilizes a text mining system to improve the detection and error detection rates for existing spam mail and to respond to new spam mail types.

Spam Image Detection Model based on Deep Learning for Improving Spam Filter

  • Seong-Guk Nam;Dong-Gun Lee;Yeong-Seok Seo
    • Journal of Information Processing Systems
    • /
    • 제19권3호
    • /
    • pp.289-301
    • /
    • 2023
  • Due to the development and dissemination of modern technology, anyone can easily communicate using services such as social network service (SNS) through a personal computer (PC) or smartphone. The development of these technologies has caused many beneficial effects. At the same time, bad effects also occurred, one of which was the spam problem. Spam refers to unwanted or rejected information received by unspecified users. The continuous exposure of such information to service users creates inconvenience in the user's use of the service, and if filtering is not performed correctly, the quality of service deteriorates. Recently, spammers are creating more malicious spam by distorting the image of spam text so that optical character recognition (OCR)-based spam filters cannot easily detect it. Fortunately, the level of transformation of image spam circulated on social media is not serious yet. However, in the mail system, spammers (the person who sends spam) showed various modifications to the spam image for neutralizing OCR, and therefore, the same situation can happen with spam images on social media. Spammers have been shown to interfere with OCR reading through geometric transformations such as image distortion, noise addition, and blurring. Various techniques have been studied to filter image spam, but at the same time, methods of interfering with image spam identification using obfuscated images are also continuously developing. In this paper, we propose a deep learning-based spam image detection model to improve the existing OCR-based spam image detection performance and compensate for vulnerabilities. The proposed model extracts text features and image features from the image using four sub-models. First, the OCR-based text model extracts the text-related features, whether the image contains spam words, and the word embedding vector from the input image. Then, the convolution neural network-based image model extracts image obfuscation and image feature vectors from the input image. The extracted feature is determined whether it is a spam image by the final spam image classifier. As a result of evaluating the F1-score of the proposed model, the performance was about 14 points higher than the OCR-based spam image detection performance.

스팸 필터링을 위한 지식 그래프 기반의 신조어 감지 매커니즘 (Knowledge Graph-based Korean New Words Detection Mechanism for Spam Filtering)

  • 김지혜;정옥란
    • 인터넷정보학회논문지
    • /
    • 제21권1호
    • /
    • pp.79-85
    • /
    • 2020
  • 오늘날 스마트폰에서 스팸 문자를 차단하기 위해 문자 내용과 스팸 키워드의 단순 문자열 비교 또는 스팸 전화번호를 차단하는 방식을 사용하고 있다. 이에 따라 스팸 문자가 자동으로 차단되는 것을 방지하기 위해 점차 변화된 방식으로 스팸 문자를 전송한다. 특히 스팸 키워드에 포함되는 단어의 경우 단순 문자열 비교로 검색되지 않도록 특수문자, 한자, 띄어쓰기 등을 이용하여 비정상적인 단어로 스팸 문자를 발송한다. 기존 스팸 필터링 방식의 경우 이러한 스팸 문자를 차단할 수 없다는 한계가 있다. 따라서 변화하는 스팸 문자에 대응할 수 있는 새로운 기술이 필요한 시점이다. 본 논문에서는 스팸 문자에서 자주 사용되는 신조어를 검출하여 변화하는 스팸 문자에 대응할 수 있는 지식 그래프 기반의 신조어 감지 매커니즘을 제안한다. 또한 기본 Naive Bayes에 감지한 신조어를 적용하여 제안한 방법의 성능 실험 결과를 보여준다.

Finding Rotten Eggs: A Review Spam Detection Model using Diverse Feature Sets

  • Akram, Abubakker Usman;Khan, Hikmat Ullah;Iqbal, Saqib;Iqbal, Tassawar;Munir, Ehsan Ullah;Shafi, Dr. Muhammad
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권10호
    • /
    • pp.5120-5142
    • /
    • 2018
  • Social media enables customers to share their views, opinions and experiences as product reviews. These product reviews facilitate customers in buying quality products. Due to the significance of online reviews, fake reviews, commonly known as spam reviews are generated to mislead the potential customers in decision-making. To cater this issue, review spam detection has become an active research area. Existing studies carried out for review spam detection have exploited feature engineering approach; however limited number of features are considered. This paper proposes a Feature-Centric Model for Review Spam Detection (FMRSD) to detect spam reviews. The proposed model examines a wide range of feature sets including ratings, sentiments, content, and users. The experimentation reveals that the proposed technique outperforms the baseline and provides better results.

동시출현 단어분석 기반 스팸 문자 탐지 기법 (Coward Analysis based Spam SMS Detection Scheme)

  • 오하영
    • 정보보호학회논문지
    • /
    • 제26권3호
    • /
    • pp.693-700
    • /
    • 2016
  • 스팸 데이터 셋은 통상적으로 공개적으로 구하기 어렵고 기존 연구들은 대부분 스팸 이메일에 초점이 맞춰져 왔기 때문에 스팸 문자 메시지 자체 특성을 분석하는데 한계가 있었다. 스팸 이메일 특성 분석 활용 및 데이터 마이닝 기법 등의 활용을 통한 기존 연구들이 있었지만, 영향력이 높은 단일 단어를 활용한 스팸 문자 탐지 기법에 한정되어 있다는 한계점이 있다. 본 논문에서는 싱가폴 대학교에서 공개적으로 공개한 스팸 문자메시지를 다 각도에서 실험 및 분석하여 스팸 문자의 특성을 밝히고 동시출현 단어분석 기반의 스팸 문자 탐지 기법을 제안한다. 성능평가 결과, 제안하는 기법의 거짓 양성과 거짓 음성이 2%미만임을 보였다.

텍스트 분석의 신뢰성 확보를 위한 스팸 데이터 식별 방안 (Detecting Spam Data for Securing the Reliability of Text Analysis)

  • 현윤진;김남규
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.493-504
    • /
    • 2017
  • 최근 뉴스, 블로그, 소셜미디어 등을 통해 방대한 양의 비정형 텍스트 데이터가 쏟아져 나오고 있다. 이러한 비정형 텍스트 데이터는 풍부한 정보 및 의견을 거의 실시간으로 반영하고 있다는 측면에서 그 활용도가 매우 높아, 학계는 물론 산업계에서도 분석 수요가 증가하고 있다. 하지만 텍스트 데이터의 유용성이 증가함과 동시에 이러한 텍스트 데이터를 왜곡하여 특정 목적을 달성하려는 시도도 늘어나고 있다. 이러한 스팸성 텍스트 데이터의 증가는 방대한 정보 가운데 필요한 정보를 획득하는 일을 더욱 어렵게 만드는 것은 물론, 정보 자체 및 정보 제공 매체에 대한 신뢰도를 떨어뜨리는 현상을 초래하게 된다. 따라서 원본 데이터로부터 스팸성 데이터를 식별하여 제거함으로써, 정보의 신뢰성 및 분석 결과의 품질을 제고하기 위한 노력이 반드시 필요하다. 이러한 목적으로 스팸을 식별하기 위한 연구가 오피니언 스팸 탐지, 스팸 이메일 검출, 웹 스팸 탐지 등의 분야에서 매우 활발하게 수행되었다. 본 연구에서는 스팸 식별을 위한 기존의 연구 동향을 자세히 소개하고, 블로그 정보의 신뢰성 향상을 위한 방안 중 하나로 블로그의 스팸 태그를 식별하기 위한 방안을 제안한다.

온라인 소셜 네트워크에서 역 사회공학 탐지를 위한 비지도학습 기법 (Unsupervised Scheme for Reverse Social Engineering Detection in Online Social Networks)

  • 오하영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권3호
    • /
    • pp.129-134
    • /
    • 2015
  • 역 사회공학 기반 스팸공격은 공격자가 직접적인 공격을 수행하는 것이 아니라 피해자가 문제 있는 사이트 주소, 문자, 이메일 수신 및 친구 수락 등을 통해 유도하기 때문에 온라인 소셜 네트워크에서 활성화되기 쉽다. 스팸 탐지 관련 기존 연구들은 소셜 네트워크 특성을 반영하지 않은 채, 관리자의 수동적인 판단 및 라벨링을 바탕으로 스팸을 정상 데이터와 구분하는 단계에 머물러있다. 본 논문에서는 소셜 네트워크 데이터 중 하나인 Twitter spam데이터 셋을 실제로 분석하고 소셜 네트워크에서 다양한 속성들을 반영하여 정상 (ham)과 비정상 (spam)을 구분할 수 있는 탐지 메트릭을 제안한다. 또한, 관리자의 관여 없이도 실시간 및 점진적으로 스팸의 특성을 학습하여 새로운 스팸에 대해서도 탐지할 수 있는 비지도 학습 기법(unsupervised scheme)을 제안한다. 실험 결과, 제안하는 기법은 90% 이상의 정확도로 정상과 스팸을 구별했고 실시간 및 점진적 학습 결과도 정확함을 보였다.

Modeling and Evaluating Information Diffusion for Spam Detection in Micro-blogging Networks

  • Chen, Kan;Zhu, Peidong;Chen, Liang;Xiong, Yueshan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권8호
    • /
    • pp.3005-3027
    • /
    • 2015
  • Spam has become one of the top threats of micro-blogging networks as the representations of rumor spreading, advertisement abusing and malware distribution. With the increasing popularity of micro-blogging, the problems will exacerbate. Prior detection tools are either designed for specific types of spams or not robust enough. Spammers may escape easily from being detected by adjusting their behaviors. In this paper, we present a novel model to quantitatively evaluate information diffusion in micro-blogging networks. Under this model, we found that spam posts differ wildly from the non-spam ones. First, the propagations of non-spam posts mostly result from their followers, but those of spam posts are mainly from strangers. Second, the non-spam posts relatively last longer than the spam posts. Besides, the non-spam posts always get their first reposts/comments much sooner than the spam posts. With the features defined in our model, we propose an RBF-based approach to detect spams. Different from the previous works, in which the features are extracted from individual profiles or contents, the diffusion features are not determined by any single user but the crowd. Thus, our method is more robust because any single user's behavior changes will not affect the effectiveness. Besides, although the spams vary in types and forms, they're propagated in the same way, so our method is effective for all types of spams. With the real data crawled from the leading micro-blogging services of China, we are able to evaluate the effectiveness of our model. The experiment results show that our model can achieve high accuracy both in precision and recall.

국내 쇼핑 사이트 적용을 위한 리뷰 스팸 탐지 방법의 성능 평가 (Performance Evaluation of Review Spam Detection for a Domestic Shopping Site Application)

  • 박지현;김종권
    • 정보과학회 논문지
    • /
    • 제44권4호
    • /
    • pp.339-343
    • /
    • 2017
  • 상품 또는 상점에 대해 거짓된 후기를 남기는 악의적인 사용자가 증가함에 따라 사용자에게 신뢰성 있는 정보를 제공하는 데 어려움을 겪고 있다. 거짓된 후기는 리뷰 스팸이라고 불리는데, 제품을 홍보하거나, 평판을 훼손하기 위해 작성된다. 이는 제품의 판매량에 직접 영향을 미치기 때문에 이러한 리뷰 스팸을 탐지할 필요가 있다. 국내 쇼핑 사이트에서도 리뷰 스팸은 흔히 접할 수 있으나, 기존 연구에서 제안된 방법은 모두 외국 사이트에서만 평가되었다. 따라서, 본 논문에서는 리뷰 스팸을 탐지하는 기존 방법의 소개와 더불어 네이버 쇼핑의 리뷰 특성을 파악하고, 리뷰 스팸을 탐지하는 여러 가지 방법을 네이버 쇼핑에 적용하여 성능을 평가하였다.

소셜 네트워크 기반 대량의 SMS 스팸 데이터 재구성 기법 (A Re-configuration Scheme for Social Network Based Large-scale SMS Spam)

  • 정시현;노기섭;오하영;김종권
    • 정보과학회 논문지
    • /
    • 제42권6호
    • /
    • pp.801-806
    • /
    • 2015
  • SMS는 현대 통신 수단 중 가장 많이 사용되고 있는 방법 중 하나로서, 그 사용 비용이 저렴해짐에 따라 SMS에서의 스팸도 함께 증가하였다. SMS 스팸을 탐지하는 연구들은 부득이하게 사용자의 발신번호, 수신번호 및 SMS내용 등의 즉 개인정보를 필요로 하게 된다는 점에서 데이터 수집 측면에서 큰 한계를 가지고 있다. 더욱이, 소셜 네트워크가 활성화됨에 따라 SMS 스팸들은 더욱 지능화되고 있으며 결과, SMS 스팸 탐지 기법 연구 수행시 해당 SMS관련 개인정보는 물론 사용자의 소셜 네트워크 관련 정보까지 필요로 한다. 따라서, 본 논문에서는 SMS 스팸을 탐지하기 위해 필요한 소셜 네트워크 데이터 셋을 사생활 침해 문제 없이 실제와 유사하게 재구성해주는 SBSS(Social network Building Scheme for SMS spam detection) 기법을 제안한다. 또한, 현재 존재하는 SMS 스팸의 공격 유형을 처음으로 구체화하고 분류하여 이를 반영했다.