• 제목/요약/키워드: splog

검색결과 4건 처리시간 0.017초

지지벡터기계와 카이제곱 통계량을 이용한 스팸 블로그(Splog) 판별 시스템 (A Splog Detection System Using Support Vector Machines and $x^2$ Statistics)

  • 이성욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.905-908
    • /
    • 2010
  • 본 연구의 목적은 웹 환경에서 스팸 블로그(Splog)를 자동으로 판별하는 시스템을 개발하는 것이다. 먼저 블로그의 HTML을 제거한 후 품사를 부착하였다. 어휘/품사 쌍을 자질로 사용하였으며 카이제곱 통계량을 이용하여 유용한 자질을 선택하였다. 선택된 자질의 가중치를 벡터로 표현한 후, 지지벡터 기계(Support Vector Machines)를 학습하여 자동으로 스팸 블로그를 판별하는 시스템을 제안하였으며, SPLOG 데이터 집합으로 실험한 결과 F1척도로 90.5%의 정확률을 얻었다.

  • PDF

지지벡터기계를 이용한 스팸 블로그(Splog) 판별 시스템 (A Splog Detection System Using Support Vector Systems)

  • 이성욱
    • 한국정보통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.163-168
    • /
    • 2011
  • 블로그는 인터넷 공간에서 가장 손쉽게 정보 출간, 토론 참여, 커뮤니티 형성하는 수단이다. 그러나 최근에 광고를 유치하거나 페이지 순위를 올리기 위한 목적의 다양한 스팸 블로그가 범람하고 있다. 본 연구의 목적은 웹 환경에서 이러한 스팸 블로그(Splog)를 자동으로 판별하는 시스템을 개발하는 것이다. 먼저 블로그의 HTML을 제거한 후 품사를 부착하였다. 어휘/품사 쌍을 자질로 사용하였으며 카이제곱 통계량을 이용하여 유용한 자질을 선택하였다. 선택된 자질의 가중치를 벡터로 표현한 후, 지지벡터기계(Support Vector Machines)를 학습하여 자동으로 스팸 블로그를 판별하는 시스템을 제안하였으며, SPLOG 데이터 집합으로 실험한 결과 F1척도로 90.5%의 정확률을 얻었다.

포스트의 구조 유사성과 일일 발행수를 이용한 스플로그 탐지 (Splog Detection Using Post Structure Similarity and Daily Posting Count)

  • 백지현;조정식;김성권
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권2호
    • /
    • pp.137-147
    • /
    • 2010
  • 블로그는 웹과 로그의 합성어로, 개개인의 생각이나 관심사 등을 일기처럼 기록할 수 있는 웹 서비스이다. 블로그에는 문자 외에, 그림이나 비디오 파일 등 다양한 컨텐츠를 올릴 수 있다. 일반적으로 블로그의 포스트는 시간상의 역순으로 정렬되어 표현된다. 블로그 검색 엔진은 웹 검색 엔진처럼 블로그를 대상으로 사용자의 질의에 따라 정보를 찾아주는 서비스이다. 블로그 검색 엔진은 때때로 만족스럽지 못한 결과를 내곤 하는데, 이것은 스플로그라고 불리는 블로그 스팸에 의해 발생한다. 스플로그는 다른 블로그나 웹 페이지를 무단 도용하거나 자동으로 생성된 컨텐츠로 구성된 스팸 포스트를 가지고 있다. 스플로그는 검색 엔진의 검색 순위를 높이거나, 회원 가입 사이트로 보다 많은 사람들을 유치하기 위해 사용된다. 본 논문은 스플로그 탐지를 목적으로 한다. 본 논문에서 제안하는 스플로그 탐지 기법은 블로그 포스트의 구조 유사성과 일일 포스트 발행수에 따른 분석으로 토대로 이루어진다. 본 논문에서 제안하는 기법을 바탕으로 한 실험의 결과, 스플로그 탐지에 있어 90% 이상의 높은 정확도를 가지며, 만족할만한 수준을 보여준다.

언어 독립적인 자질을 이용한 다국어 스플로그 분류 (Multilingual SPLOG classification using language independent features)

  • 홍성학
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.284-287
    • /
    • 2011
  • 블로그는 검색 서비스에 노출되는 주요 사용자 생성 콘텐트 중 하나이며 스팸과 SEO를 위한 주요 대상이 되어왔다. 최근에는 인터넷 보급의 보편화로 비영어권 국가에서의 블로그 사용자가 증가하면서 블로그 검색에서도 여러 언어로 작성된 블로그와 스팸이 노출되고 있다. 일반적인 블로그 검색엔진에서의 스팸 필터의 경우 특정 국가나 언어를 위한 스팸 필터 시스템을 각기 구성하여 이를 별도로 사용하지만이는 자원 소모의 문제와 함께 크롤을 통해 유입되는 다양한 언어로 작성된 블로그 스팸을 미리 감지하기 어렵다. 본 논문에서는 블로그를 크롤하여 서비스하는 국제화를 지원하는 블로그 검색엔진에서 스플로그를 탐지하기 위해 속성 및 단어 기반 자질들을 이용한 다국어 공용 스플로그 감지 모델을 생성 하는 방법과 효과를 확인하기 위해 실험을 수행하였으며 가능성이 있음을 확인하였다.