• Title/Summary/Keyword: splog

Search Result 4, Processing Time 0.017 seconds

A Splog Detection System Using Support Vector Machines and $x^2$ Statistics (지지벡터기계와 카이제곱 통계량을 이용한 스팸 블로그(Splog) 판별 시스템)

  • Lee, Song-Wook
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2010.05a
    • /
    • pp.905-908
    • /
    • 2010
  • Our purpose is to develope the system which detects splogs automatically among blogs on Web environment. After removing HTML of blogs, they are tagged by part of speech(POS) tagger. Words and their POS tags information is used as a feature type. Among features, we select useful features with $x^2$ statistics and train the SVM with the selected features. Our system acquired 90.5% of F1 measure with SPLOG data set.

  • PDF

A Splog Detection System Using Support Vector Systems (지지벡터기계를 이용한 스팸 블로그(Splog) 판별 시스템)

  • Lee, Song-Wook
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.15 no.1
    • /
    • pp.163-168
    • /
    • 2011
  • Blogs are an easy way to publish information, engage in discussions, and form communities on the Internet. Recently, there are several varieties of spam blog whose purpose is to host ads or raise the PageRank of target sites. Our purpose is to develope the system which detects these spam blogs (splogs) automatically among blogs on Web environment. After removing HTML of blogs, they are tagged by part of speech(POS) tagger. Words and their POS tags information is used as a feature type. Among features, we select useful features with X2 statistics and train the SVM with the selected features. Our system acquired 90.5% of F1 measure with SPLOG data set.

Splog Detection Using Post Structure Similarity and Daily Posting Count (포스트의 구조 유사성과 일일 발행수를 이용한 스플로그 탐지)

  • Beak, Jee-Hyun;Cho, Jung-Sik;Kim, Sung-Kwon
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.2
    • /
    • pp.137-147
    • /
    • 2010
  • A blog is a website, usually maintained by an individual, with regular entries of commentary, descriptions of events, or other material such as graphics or video. Entries are commonly displayed in reverse chronological order. Blog search engines, like web search engines, seek information for searchers on blogs. Blog search engines sometimes output unsatisfactory results, mainly due to spam blogs or splogs. Splogs are blogs hosting spam posts, plagiarized or auto-generated contents for the sole purpose of hosting advertizements or raising the search rankings of target sites. This thesis focuses on splog detection. This thesis proposes a new splog detection method, which is based on blog post structure similarity and posting count per day. Experiments based on methods proposed a day show excellent result on splog detection tasks with over 90% accuracy.

Multilingual SPLOG classification using language independent features (언어 독립적인 자질을 이용한 다국어 스플로그 분류)

  • Hong, Seong-Hak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.284-287
    • /
    • 2011
  • 블로그는 검색 서비스에 노출되는 주요 사용자 생성 콘텐트 중 하나이며 스팸과 SEO를 위한 주요 대상이 되어왔다. 최근에는 인터넷 보급의 보편화로 비영어권 국가에서의 블로그 사용자가 증가하면서 블로그 검색에서도 여러 언어로 작성된 블로그와 스팸이 노출되고 있다. 일반적인 블로그 검색엔진에서의 스팸 필터의 경우 특정 국가나 언어를 위한 스팸 필터 시스템을 각기 구성하여 이를 별도로 사용하지만이는 자원 소모의 문제와 함께 크롤을 통해 유입되는 다양한 언어로 작성된 블로그 스팸을 미리 감지하기 어렵다. 본 논문에서는 블로그를 크롤하여 서비스하는 국제화를 지원하는 블로그 검색엔진에서 스플로그를 탐지하기 위해 속성 및 단어 기반 자질들을 이용한 다국어 공용 스플로그 감지 모델을 생성 하는 방법과 효과를 확인하기 위해 실험을 수행하였으며 가능성이 있음을 확인하였다.